Course Outline
- 소개
- Hadoop 역사, 개념
- 생태계
- 배포
- 높은 수준의 아키텍처
- Hadoop 신화
- Hadoop 도전과제(하드웨어/소프트웨어)
- 연구실: Big Data 프로젝트와 문제를 논의하세요
- 계획 및 설치
- 소프트웨어 선택, Hadoop 배포판
- 클러스터 크기 조정, 성장 계획
- 하드웨어 및 네트워크 선택
- 랙 토폴로지
- 설치
- 다중 테넌시
- 디렉토리 구조, 로그
- 벤치마킹
- 랩: 클러스터 설치, 성능 벤치마크 실행
- HDFS 작업
- 개념(수평 확장, 복제, 데이터 지역성, 랙 인식)
- 노드 및 데몬(NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
- 건강 모니터링
- 명령줄 및 브라우저 기반 관리
- 스토리지 추가, 결함 있는 드라이브 교체
- 랩: HDFS 명령줄에 익숙해지기
- 데이터 수집
- HDFS로 로그 및 기타 데이터 수집을 위한 Flume
- SQL 데이터베이스에서 HDFS로 가져오기 및 SQL으로 다시 내보내기 위한 Sqoop
- Hadoop Hive를 사용한 데이터웨어하우징
- 클러스터 간 데이터 복사(distcp)
- HDFS를 보완하기 위해 S3 사용
- 데이터 수집 모범 사례 및 아키텍처
- 랩: Flume 설정 및 사용, Sqoop도 동일
- MapReduce 운영 및 관리
- MapReduce 이전의 병렬 컴퓨팅: HPC와 Hadoop 관리 비교
- MapReduce 클러스터 로드
- 노드 및 데몬(JobTracker, TaskTracker)
- MapReduce UI 연습
- Mapreduce 구성
- 작업 구성
- MapReduce 최적화
- MR의 완벽한 보안: 프로그래머에게 알려야 할 사항
- 랩: MapReduce 예제 실행
- YARN: 새로운 아키텍처와 새로운 기능
- YARN 설계 목표 및 구현 아키텍처
- 새로운 액터: ResourceManager, NodeManager, Application Master
- YARN 설치
- YARN에서의 작업 스케줄링
- 연구실: 작업 일정 조사
- 고급 주제
- 하드웨어 모니터링
- 클러스터 모니터링
- 서버 추가 및 제거, 업그레이드 Hadoop
- 백업, 복구 및 비즈니스 연속성 계획
- Oozie 작업 워크플로
- Hadoop 고가용성(HA)
- Hadoop 연방
- Kerberos를 사용하여 클러스터 보안
- 실험실: 모니터링 설정
- 선택 트랙
- 클러스터 관리, 모니터링 및 일상 업무를 위한 Cloudera Manager; 설치, 사용. 이 트랙에서 모든 연습과 랩은 Cloudera 배포 환경(CDH5) 내에서 수행됩니다.
- 클러스터 관리, 모니터링 및 일상 업무를 위한 Ambari; 설치, 사용. 이 트랙에서 모든 연습과 랩은 Ambari 클러스터 관리자와 Hortonworks Data Platform(HDP 2.0) 내에서 수행됩니다.
Requirements
- 기본 Linux 시스템 관리에 능숙함
- 기본 스크립팅 기술
Hadoop 및 분산 컴퓨팅에 대한 지식은 필수는 아니지만 과정에서 소개하고 설명합니다.
실험실 환경
제로 설치: 학생들의 컴퓨터에 Hadoop 소프트웨어를 설치할 필요가 없습니다! 학생들에게 작동하는 Hadoop 클러스터가 제공됩니다.
학생들에게는 다음이 필요합니다.
- SSH 클라이언트(Linux 및 Mac에는 이미 ssh 클라이언트가 있으며 Windows의 경우 Putty가 권장됨)
- 클러스터에 액세스하기 위한 브라우저. FoxyProxy 확장 프로그램이 설치된 Firefox 브라우저를 권장합니다.
회원 평가 (5)
The live examples
Ahmet Bolat - Accenture Industrial SS
Course - Python, Spark, and Hadoop for Big Data
During the exercises, James explained me every step whereever I was getting stuck in more detail. I was completely new to NIFI. He explained the actual purpose of NIFI, even the basics such as open source. He covered every concept of Nifi starting from Beginner Level to Developer Level.
Firdous Hashim Ali - MOD A BLOCK
Course - Apache NiFi for Administrators
Trainer's preparation & organization, and quality of materials provided on github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Course - Impala for Business Intelligence
That I had it in the first place.
Peter Scales - CACI Ltd
Course - Apache NiFi for Developers
practical things of doing, also theory was served good by Ajay