Course Outline
소개
이해 Big Data
스파크 개요
Python 개요
PySpark 개요
- 탄력적인 분산 데이터 세트 프레임워크를 사용한 데이터 분산
- Spark API 연산자를 사용한 계산 분산
Spark로 Python 설정하기
설정 PySpark
Spark용 Amazon Web Services (AWS) EC2 인스턴스 사용
설정 Databricks
AWS EMR 클러스터 설정
Python Programming의 기본 학습
- Python 시작하기
- 주피터 노트북 사용
- 변수 및 단순 데이터 유형 사용
- 목록 작업
- if 문 사용
- 사용자 입력 사용
- while 루프 작업
- 기능 구현
- 클래스 작업
- 파일 및 예외 작업
- 프로젝트, 데이터 및 API 작업
Spark DataFrame의 기본 학습
- Spark DataFrames 시작하기
- Spark로 기본 작업 구현
- Groupby 및 집계 작업 사용
- 타임스탬프 및 날짜 작업
Spark DataFrame 프로젝트 작업 연습
MLlib를 사용한 Machine Learning 이해
Machine Learning을 위해 MLlib, Spark 및 Python을 사용하여 작업
회귀 이해
- 선형 회귀 이론 학습
- 회귀 평가 코드 구현
- 샘플 선형 회귀 연습 작업
- 로지스틱 회귀 이론 학습
- 로지스틱 회귀 코드 구현
- 샘플 로지스틱 회귀 연습 작업
Random Forest 및 의사결정나무 이해
- 학습 트리 방법 이론
- 의사결정 트리 및 Random Forest 코드 구현
- 샘플 작업 Random Forest 분류 연습
K-평균 클러스터링 작업
- K-평균 클러스터링 이론 이해
- K-평균 클러스터링 코드 구현
- 샘플 클러스터링 연습 작업
추천 시스템 작업
자연어 처리 구현
- 이해 Natural Language Processing (NLP)
- NLP 도구 개요
- 샘플 NLP 연습 작업
Spark를 사용한 스트리밍 Python
- 개요 Spark를 사용한 스트리밍
- 샘플 Spark Streaming 연습
맺음말
Requirements
- 일반 프로그래밍 기술
청중
- 개발자
- IT 전문가
- 데이터 과학자
회원 평가 (6)
I liked that it was practical. Loved to apply the theoretical knowledge with practical examples.
Aurelia-Adriana - Allianz Services Romania
Course - Python and Spark for Big Data (PySpark)
The course was about a series of very complex related topics & Pablo has in-depth expertise of each of them. Sometimes nuances were lost in communication and/or due to time pressures and possibly expectations were not quite met due to this. Also there were some UHG/Azure Databricks setup issues however Pablo / UHG resolved these quickly once they became apparent - this to me showed a high level of understanding and professionalism between UHG & Pablo,
Michael Monks - Tech NorthWest Skillnet
Course - Python and Spark for Big Data (PySpark)
Individual attention.
ARCHANA ANILKUMAR - PPL
Course - Python and Spark for Big Data (PySpark)
Hands on Training..
Abraham Thomas - PPL
Course - Python and Spark for Big Data (PySpark)
The lessons were taught in a Jupyter notebook. The topics were structured with a logical sequence and naturally helped develop the session from the easier parts to the more complex. I'm already an advanced user of Python with background in Machine Learning, so found the course easier to follow than, possibly, some of my classmates that took the training course. I appreciate that some of the most elementary concepts were skipped and that he focused on the most substantial matters.
Angela DeLaMora - ADT, LLC
Course - Python and Spark for Big Data (PySpark)
practice tasks