Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
Course Outline
각 세션은 2시간입니다.
1일차: 세션 -1: Business 이유 개요 Big Data Business Govt.
- NIH, DoE의 사례 연구
- Big Data Govt의 적응 속도. 대행사 및 향후 운영을 조정하는 방법 Big Data Predictive Analytics
- DoD, NSA, IRS, USDA 등의 광범위한 응용 분야
- 레거시 데이터와의 인터페이스 Big Data
- 예측 분석 기술 활성화에 대한 기본 이해
- Data Integration 및 대시보드 시각화
- 사기 관리
- Business 규칙/사기 탐지 생성
- 위협 감지 및 프로파일링
- Big Data 구현에 대한 비용 이점 분석
Day-1: Session-2 : Big Data-1 소개
- Big Data의 주요 특징 - 볼륨, 다양성, 속도 및 진실성. 볼륨을 위한 MPP 아키텍처.
- Data Warehouses – 정적 스키마, 천천히 진화하는 데이터 세트
- Greenplum, Exadata, Teradata, Netezza, Vertica 등과 같은 MPP Database
- Hadoop 기반 솔루션 – 데이터세트 구조에 대한 조건이 없습니다.
- 일반적인 패턴: HDFS, MapReduce(크런치), HDFS에서 검색
- 분석적/비대화형에 적합한 배치
- 볼륨 : CEP 스트리밍 데이터
- 일반적인 선택 - CEP 제품(예: Infostreams, Apama, MarkLogic 등)
- 적은 생산 준비 – Storm/S4
- NoSQL Databases – (열 및 키-값): 데이터 웨어하우스/데이터베이스에 대한 분석 보조물로 가장 적합합니다.
Day-1 : 세션 -3 : Big Data-2 소개
NoSQL 솔루션
- KV 스토어 - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- KV 스토어 - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- KV 스토어(계층적) - GT.m, 캐시
- KV 스토어(주문) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV 캐시 - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBoss캐시, Velocity, Terracoqua
- 튜플 저장소 - Gigaspaces, Coord, Apache River
- 객체 Database - ZopeDB, DB40, Shoal
- 문서 저장소 - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- 넓은 컬럼형 저장소 - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
다양한 데이터: Big Data의 Data Cleaning 문제 소개
- RDBMS – 정적 구조/스키마는 민첩한 탐색 환경을 촉진하지 않습니다.
- NoSQL – 데이터를 저장하기 전에 정확한 스키마 없이 데이터를 저장하기에 충분한 반구조적 구조
- 데이터 정리 문제
Day-1 : 세션-4 : Big Data 소개-3 : Hadoop
- 언제 Hadoop을 선택하나요?
- 구조화 - 엔터프라이즈 데이터 웨어하우스/데이터베이스는 대규모 데이터를 저장할 수 있지만(유료) 구조를 부과합니다(활성 탐색에는 적합하지 않음)
- SEMI 구조화된 데이터 – 기존 솔루션(DW/DB)으로는 처리하기 어려움
- 데이터 보관 = 막대한 노력과 구현 후에도 정체됨
- 데이터의 다양성과 볼륨을 위해 상용 하드웨어에서 처리 – HADOOP
- Hadoop 클러스터를 생성하는 데 필요한 상용 하드웨어
맵 축소/HDFS 소개
- MapReduce – 여러 서버에 컴퓨팅 분산
- HDFS – 컴퓨팅 프로세스를 위해 로컬에서 데이터를 사용할 수 있도록 합니다(중복성 포함).
- 데이터 – 구조화되지 않거나 스키마가 없을 수 있습니다(RDBMS와 다름).
- 데이터를 이해하는 데 대한 개발자의 책임
- Programming MapReduce = Java 작업(장점/단점), 수동으로 HDFS에 데이터 로드
2일차: 세션 1: Big Data 생태계 구축 Big Data ETL: Big Data 도구의 세계 - 어떤 도구를 언제 사용할 것인가?
- Hadoop 대 기타 NoSQL 솔루션
- 데이터에 대한 대화형 무작위 액세스용
- Hadoop 위에 Hbase(열 기반 데이터베이스)
- 데이터에 대한 무작위 액세스(최대 1PB)
- 임시 분석에는 적합하지 않고 로깅, 계산, 시계열에는 적합합니다.
- Sqoop - 데이터베이스에서 Hive 또는 HDFS(JDBC/ODBC 액세스)로 가져오기
- Flume – HDFS로 데이터(예: 로그 데이터) 스트리밍
2일차: 세션 2: Big Data Management 시스템
- 움직이는 부품, 컴퓨팅 노드 시작/실패 : ZooKeeper - 구성/조정/이름 지정 서비스용
- 복잡한 파이프라인/워크플로: Oozie – 워크플로, 종속성, 데이지 체인 관리
- 배포, 구성, 클러스터 관리, 업그레이드 등(sys admin) :Ambari
- 인 클라우드 : 윙윙
2일 차: 세션 3: Business 지능의 예측 분석 -1: 기본 기술 및 기계 학습 기반 BI:
- 머신러닝 소개
- 분류 기술 학습
- 베이지안 예측 준비 훈련 파일
- 서포트 벡터 머신
- KNN p-Tree 대수학 및 수직 마이닝
- 신경망
- Big Data 대규모 변수 문제 - 랜덤 포레스트(RF)
- Big Data 자동화 문제 – 다중 모델 앙상블 RF
- Soft10-M을 통한 자동화
- 텍스트 분석 도구-Treeminer
- Agile 학습
- 에이전트 기반 학습
- 분산 학습
- 예측 분석을 위한 오픈 소스 도구 소개: R, Rapidminer, Mahut
2일차: 세션 4 예측 분석 생태계-2: Govt.의 일반적인 예측 분석 문제.
- 통찰력 분석
- 시각화 분석
- 구조화된 예측 분석
- 비정형 예측 분석
- 위협/사기 행위/공급업체 프로파일링
- 추천 엔진
- 패턴 감지
- 규칙/시나리오 발견 – 실패, 사기, 최적화
- 근본 원인 발견
- 감성분석
- CRM 분석
- 네트워크 분석
- 텍스트 분석
- 기술 지원 검토
- 사기 분석
- 실시간 분석
Day-3 : Session-1 : 실시간 및 Hadoop 이상의 분석 가능
- Hadoop/HDFS에서 일반적인 분석 알고리즘이 실패하는 이유
- Apache Hama- 대량 동기식 분산 컴퓨팅용
- Apache SPARK - 실시간 분석을 위한 클러스터 컴퓨팅용
- CMU 그래픽 랩2 - 분산 컴퓨팅에 대한 그래프 기반 비동기 접근 방식
- 하드웨어 운영 비용 절감을 위한 Treeminer의 KNN p-Algebra 기반 접근 방식
3일차: 세션 2 : eDiscovery 및 법의학 도구
- Big Data에 대한 eDiscovery와 기존 데이터 비교 - 비용 및 성능 비교
- 예측 코딩 및 기술 지원 검토(TAR)
- 더 빠른 발견을 위해 TAR이 어떻게 작동하는지 이해하기 위한 Tar 제품(vMiner)의 라이브 데모
- HDFS를 통한 더 빠른 인덱싱 – 데이터 속도
- NLP 또는 자연어 처리 - 다양한 기술 및 오픈 소스 제품
- 외국어의 전자증거개시 - 외국어 처리를 위한 기술
3일차: 세션 3: Big Data Cyber Security을 위한 BI – 위협 식별에 대한 신속한 데이터 수집에 대한 전체 360도 보기 이해
- 보안 분석의 기본 이해 - 공격 표면, 잘못된 보안 구성, 호스트 방어
- 네트워크 인프라/대규모 데이터파이프/실시간 분석을 위한 응답 ETL
- 규범적 vs 예측 – 고정 규칙 기반 vs 메타데이터의 위협 규칙 자동 검색
3일 차: 세션 4: Big Data USDA: 농업에 적용
- 농업용 센서 기반Big Data 및 제어를 위한 IoT(사물 인터넷) 소개
- 위성영상의 소개와 농업에서의 응용
- 토양의 비옥도, 재배 추천 및 예측을 위한 센서와 이미지 데이터를 통합
- 농업 보험 및 Big Data
- 작물 손실 예측
4일차: 세션 1: Govt-Fraud 분석의 Big Data에서 나온 사기 방지 BI:
- 사기 분석의 기본 분류 - 규칙 기반 분석과 예측 분석
- 사기 패턴 탐지를 위한 지도 및 비지도 기계 학습
- 공급업체 사기/프로젝트에 대한 과다 청구
- 메디케어 및 메디케이드 사기 - 청구 처리를 위한 사기 탐지 기술
- 여행비 상환 사기
- IRS 환급 사기
- 사례 연구와 라이브 데모는 데이터가 있는 곳이면 어디서든 제공됩니다.
Day-4 : Session-2: Social Media 분석-정보 수집 및 분석
- Big Data 소셜 미디어 데이터 추출을 위한 ETL API
- 텍스트, 이미지, 메타데이터 및 비디오
- 소셜 미디어 피드의 감정 분석
- 소셜 미디어 피드의 상황별 및 비맥락적 필터링
- Social Media 다양한 소셜미디어를 통합하는 대시보드
- 소셜 미디어 프로필 자동 프로파일링
- 각 분석의 라이브 데모는 Treeminer Tool을 통해 제공됩니다.
Day-4: 세션-3: Big Data 이미지 처리 및 비디오 피드 분석
- Big Data의 이미지 저장 기술 - 페타바이트를 초과하는 데이터를 위한 저장 솔루션
- LTFS 및 LTO
- GPFS-LTFS(빅 이미지 데이터를 위한 계층형 스토리지 솔루션)
- 이미지 분석의 기본
- 객체 인식
- 이미지 분할
- 모션 추적
- 3차원 이미지 재구성
4일차: 세션 4: Big Data NIH 지원:
- Bio-정보학의 신흥 영역
- 메타유전체학 및 Big Data 채굴 문제
- Big Data 약물유전체학, 대사체학, 단백질체학을 위한 예측 분석
- Big Data 다운스트림 유전체학 프로세스에서
- 공중 보건 분야의 빅데이터 예측 분석 적용
Big Data 다양한 데이터와 디스플레이에 대한 빠른 접근을 위한 대시보드 :
- Big Data 대시보드와 기존 애플리케이션 플랫폼의 통합
- Big Data 관리
- Big Data 대시보드 사례 연구: Tableau 및 Pentaho
- Govt에서 위치 기반 서비스를 푸시하려면 Big Data 앱을 사용하세요.
- 추적 시스템 및 관리
5일차: 세션 1: 조직 내에서 Big Data BI 구현을 정당화하는 방법:
- Big Data 구현을 위한 ROI 정의
- 분석가의 데이터 수집 및 준비 시간 절약에 대한 사례 연구 – 생산성 향상
- 라이센스 데이터베이스 비용 절감에 따른 수익 창출 사례 연구
- 위치 기반 서비스로 인한 수익 창출
- 사기 예방으로부터의 절약
- 대략적인 계산을 위한 통합 스프레드시트 접근 방식입니다. Big Data 구현으로 인한 비용 대 수익 이득/절감.
Day-5: 세션-2: 레거시 데이터 시스템을 Big Data 시스템으로 교체하기 위한 단계별 절차:
- 실무 이해 Big Data 마이그레이션 로드맵
- Big Data 구현을 설계하기 전에 필요한 중요한 정보는 무엇입니까?
- 데이터의 양, 속도, 다양성 및 진실성을 계산하는 다양한 방법은 무엇입니까?
- 데이터 증가를 예측하는 방법
- 사례 연구
5일차: 세션 4: Big Data 공급업체 검토 및 해당 제품 검토. Q/A 세션:
- 액센츄어
- APTEAN(이전의 CDC 소프트웨어)
- Cisco 시스템
- 클라우데라
- 작은 골짜기
- EMC
- Go오드데이터 코퍼레이션
- 구아부스
- 히타치 데이터 시스템즈
- 호튼웍스
- HP
- IBM
- 인포매티카
- 인텔
- 재스퍼소프트
- Microsoft
- MongoDB (이전의 10Gen)
- MU 시그마
- 넷앱
- 오페라 솔루션
- Oracle
- Pentaho
- 플라포라
- 클릭테크
- 양자
- 랙 공간
- 혁명 분석
- Salesforce
- SAP
- SAS 연구소
- 시스센스
- 소프트웨어 AG/테라코타
- Soft10 자동화
- Splunk
- Sqrrl
- 슈퍼마이크로
- Tableau 소프트웨어
- Teradata
- 빅 분석을 생각하세요
- 타이드마크 시스템
- 트리마이너
- VMware (EMC의 일부)
Requirements
- 정부 업무 운영 및 데이터 시스템에 대한 기본 지식 자신의 도메인에서
- SQL/Oracle 또는 관계형 데이터베이스에 대한 기본 이해
- Statistics에 대한 기본 이해(스프레드시트 수준)
35 Hours
회원 평가 (1)
단순히 교육 과정을 제공하는 것이 아니라 조직의 요구 사항에 맞게 교육 과정을 조정할 수 있는 교육자의 능력입니다.
Masilonyane - Revenue Services Lesotho
Course - Big Data Business Intelligence for Govt. Agencies
Machine Translated