Course Outline

소개

  • Apache Beam vs MapReduce, Spark Streaming, Kafka 스트리밍, Storm 및 Flink

설치 및 구성 Apache Beam

Apache Beam 기능 및 아키텍처 개요

  • 빔 모델, SDK, 빔 파이프라인 러너
  • 분산 처리 백엔드

Apache Beam Programming 모델 이해

  • 파이프라인이 실행되는 방법

샘플 파이프라인 실행

  • WordCount 파이프라인 준비
  • 파이프라인을 로컬로 실행

파이프라인 설계

  • 구조 계획, 변환 선택, 입력 및 출력 방법 결정

파이프라인 생성

  • 드라이버 프로그램 작성 및 파이프라인 정의
  • Apache Beam개의 클래스 사용
  • 데이터 세트, 변환, I/O, 데이터 인코딩 등

파이프라인 실행

  • 파이프라인을 로컬, 원격 머신 및 퍼블릭 클라우드에서 실행합니다.
  • 러너 선택
  • 러너별 구성

테스트 및 디버깅 Apache Beam

  • 정적 타이핑을 에뮬레이트하기 위해 유형 힌트 사용
  • Python 파이프라인 종속성 관리

제한된 데이터 세트 및 제한되지 않은 데이터 세트 처리

  • 윈도잉 및 트리거

파이프라인을 재사용 가능하고 유지 관리 가능하게 만들기

새로운 데이터 소스 및 싱크 생성

  • Apache Beam 소스 및 싱크 API

Apache Beam을 다른 Big Data 시스템과 통합

  • 아파치Hadoop, Apache Spark, Apache Kafka

문제 해결

요약 및 결론

Requirements

  • Python Programming에 대한 경험.
  • Linux 명령줄에 대한 경험.

청중

  • 개발자
 14 Hours

Number of participants


Price per participant

Upcoming Courses

Related Categories