Course Outline
섹션 1: HDFS의 Data Management
- 다양한 데이터 형식(JSON / Avro / Parquet)
- 압축 방식
- 데이터 마스킹
- 연구실: 다양한 데이터 형식 분석, 압축 활성화
2장: 고급 돼지
- 사용자 정의 함수
- 돼지 도서관 소개 (ElephantBird / Data-Fu)
- Pig를 사용하여 복잡한 구조화된 데이터 로딩
- 돼지 튜닝
- 랩: 고급 Pig 스크립팅, 복잡한 데이터 유형 구문 분석
섹션 3 : 고급 Hive
- 사용자 정의 함수
- 압축 테이블
- Hive 성능 튜닝
- 랩: 압축 테이블 생성, 테이블 형식 및 구성 평가
섹션 4 : 고급 HBase
- 고급 스키마 모델링
- 압축
- 대량 데이터 수집
- 와이드 테이블 / 톨 테이블 비교
- HBase와 Pig
- HBase 및 Hive
- HBase 성능 튜닝
- 랩: HBase 튜닝; Pig에서 HBase 데이터 액세스 및 Hive; 데이터 모델링을 위한 Phoenix 사용
Requirements
- Java 프로그래밍 언어에 익숙함(대부분의 프로그래밍 연습은 Java로 이루어짐)
- Linux 환경에 익숙함(Linux 명령줄 탐색, vi/nano를 사용하여 파일 편집 가능)
- Hadoop에 대한 실무 지식.
실험실 환경
제로 설치: 학생들의 컴퓨터에 Hadoop 소프트웨어를 설치할 필요가 없습니다! 학생들에게 작동하는 Hadoop 클러스터가 제공됩니다.
학생들에게는 다음이 필요합니다.
- SSH 클라이언트(Linux 및 Mac에는 이미 ssh 클라이언트가 있음, Windows의 경우 Putty 권장)
- 클러스터에 액세스하기 위한 브라우저. Firefox 브라우저를 권장합니다.
회원 평가 (5)
The live examples
Ahmet Bolat - Accenture Industrial SS
Course - Python, Spark, and Hadoop for Big Data
During the exercises, James explained me every step whereever I was getting stuck in more detail. I was completely new to NIFI. He explained the actual purpose of NIFI, even the basics such as open source. He covered every concept of Nifi starting from Beginner Level to Developer Level.
Firdous Hashim Ali - MOD A BLOCK
Course - Apache NiFi for Administrators
Trainer's preparation & organization, and quality of materials provided on github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Course - Impala for Business Intelligence
That I had it in the first place.
Peter Scales - CACI Ltd
Course - Apache NiFi for Developers
practical things of doing, also theory was served good by Ajay