Course Outline
섹션 1: Hadoop 소개
- Hadoop 역사, 개념
- 생태계
- 분포
- 높은 수준의 아키텍처
- 하둡 신화
- Hadoop 챌린지
- 하드웨어 / 소프트웨어
- 연구실 : Hadoop을 처음 봅니다
섹션 2: HDFS
- 디자인과 건축
- 개념(수평 확장, 복제, 데이터 지역성, 랙 인식)
- 데몬 : 네임노드, 보조 네임노드, 데이터노드
- 통신 / 심장박동
- 데이터 무결성
- 읽기/쓰기 경로
- 네임노드 고가용성(HA), 페더레이션
- labs : HDFS와 상호 작용하기
섹션 3 : 맵 리듀스
- 개념과 아키텍처
- 데몬(MRV1) : jobtracker / tasktracker
- 단계: 드라이버, 매퍼, 셔플/정렬, 리듀서
- Map Reduce 버전 1 및 버전 2(YARN)
- Map Reduce의 내부
- Java Map Reduce 프로그램 소개
- labs : 샘플 MapReduce 프로그램 실행
4절 : 돼지
- 돼지 vs 자바 맵 리듀스
- 돼지 작업 흐름
- 돼지 라틴어
- Pig를 사용한 ETL
- 변환 및 조인
- 사용자 정의 함수(UDF)
- labs : 데이터 분석을 위한 Pig 스크립트 작성
제5조: Hive
- 건축과 디자인
- 데이터 유형
- SQL Hive에 대한 지원
- Hive 테이블 생성 및 쿼리
- 파티션
- 조인하다
- 텍스트 처리
- labs : Hive을 이용한 데이터 처리에 관한 다양한 연구실
섹션 6: HBase
- 개념과 아키텍처
- hbase 대 RDBMS 대 카산드라
- HBase Java API
- HBase의 시계열 데이터
- 스키마 디자인
- 랩 : 셸을 사용하여 HBase와 상호 작용; HBase Java API에서 프로그래밍; 스키마 디자인 연습
Requirements
- Java 프로그래밍 언어에 익숙함(대부분의 프로그래밍 연습은 Java로 이루어짐)
- Linux 환경에 익숙함(Linux 명령줄 탐색, vi/nano를 사용하여 파일 편집 가능)
실험실 환경
제로 설치: 학생들의 컴퓨터에 Hadoop 소프트웨어를 설치할 필요가 없습니다! 학생들에게 작동하는 Hadoop 클러스터가 제공됩니다.
학생들에게는 다음이 필요합니다.
- SSH 클라이언트(Linux 및 Mac에는 이미 ssh 클라이언트가 있으며 Windows의 경우 Putty가 권장됨)
- 클러스터에 액세스하기 위한 브라우저. Firefox 브라우저를 권장합니다.
회원 평가 (5)
The live examples
Ahmet Bolat - Accenture Industrial SS
Course - Python, Spark, and Hadoop for Big Data
During the exercises, James explained me every step whereever I was getting stuck in more detail. I was completely new to NIFI. He explained the actual purpose of NIFI, even the basics such as open source. He covered every concept of Nifi starting from Beginner Level to Developer Level.
Firdous Hashim Ali - MOD A BLOCK
Course - Apache NiFi for Administrators
Trainer's preparation & organization, and quality of materials provided on github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Course - Impala for Business Intelligence
That I had it in the first place.
Peter Scales - CACI Ltd
Course - Apache NiFi for Developers
practical things of doing, also theory was served good by Ajay