Course Outline
01일차
범죄정보분석을 위한 Big Data Business Intelligence 개요
- 법 집행 기관의 사례 연구 - 예측 경찰
- Big Data 법 집행 기관의 채택률 및 Big Data Predictive Analytics을 중심으로 미래 운영을 조정하는 방법
- 총기 센서, 감시 비디오, 소셜 미디어와 같은 새로운 기술 솔루션
- Big Data 기술을 사용하여 정보 과부하 완화
- Big Data 레거시 데이터와의 인터페이싱
- 예측 분석에서 활성화 기술에 대한 기본 이해
- Data Integration & 대시보드 시각화
- 사기 관리
- Business Rules 및 사기 감지
- 위협 탐지 및 프로파일링
- Big Data 구현을 위한 비용 편익 분석
Big Data 소개
- Big Data의 주요 특징은 볼륨, 다양성, 속도 및 진실성입니다.
- MPP(대규모 병렬 처리) 아키텍처
- Data Warehouses – 정적 스키마, 천천히 진화하는 데이터 세트
- MPP Database: Greenplum, Exadata, Teradata, Netezza, Vertica 등
- Hadoop 기반 솔루션 - 데이터 세트 구조에 대한 조건 없음.
- 일반적인 패턴: HDFS, MapReduce(크런치), HDFS에서 검색
- Apache Spark 스트림 처리를 위해
- 배치 - 분석/비대화에 적합
- 볼륨 : CEP 스트리밍 데이터
- 일반적인 선택 – CEP 제품(예: Infostreams, Apama, MarkLogic 등)
- 생산 준비가 덜 됨 – Storm/S4
- NoSQL Databases – (열 형식 및 키 값): 데이터웨어하우스/데이터베이스에 대한 분석 보조 도구로 가장 적합함
NoSQL 솔루션
- KV 스토어 - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- KV 스토어 - 다이너모, 볼드모트, 다이노마이트, 서브레코드, Mo8onDb, 도브테일DB
- KV 스토어(계층형) - GT.m, 캐시
- KV 스토어(주문됨) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV 캐시 - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- 튜플 스토어 - 기가스페이스, 코디, 아파치 리버
- 객체 Database - ZopeDB, DB40, Shoal
- 문서 저장소 - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- 와이드 컬럼 저장소 - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
다양한 데이터: Big Data의 Data Cleaning 문제 소개
- RDBMS – 정적 구조/스키마, 민첩하고 탐색적인 환경을 촉진하지 않습니다.
- NoSQL – 반구조화, 데이터를 저장하기 전에 정확한 스키마 없이도 데이터를 저장할 수 있는 충분한 구조
- 데이터 정리 문제
Hadoop
- Hadoop를 선택해야 하는 경우는 언제인가요?
- 구조화됨 - 엔터프라이즈 데이터웨어하우스/데이터베이스는 막대한 데이터를 저장할 수 있지만(비용이 들지만) 구조를 부과합니다(능동적인 탐색에 적합하지 않음)
- SEMI STRUCTURED 데이터 – 기존 솔루션(DW/DB)을 사용하여 수행하기 어려움
- 데이터 웨어하우징 = 엄청난 노력과 구현 후에도 정적
- 다양한 데이터와 대량의 데이터를 위해 상용 하드웨어에 저장 – HADOOP
- Hadoop 클러스터를 생성하는 데 필요한 상품 H/W
맵 축소/HDFS 소개
- MapReduce – 여러 서버에 컴퓨팅 분산
- HDFS – 컴퓨팅 프로세스에 로컬로 데이터를 사용 가능하게 함(중복성 포함)
- 데이터 – 비정형/스키마 없음(RDBMS와 달리)
- 데이터를 이해하는 것은 개발자의 책임입니다.
- Programming MapReduce = Java와 함께 작업(장단점), HDFS에 수동으로 데이터 로드
2일차
Big Data 생태계 - Big Data ETL(추출, 변환, 로드) 구축 - 어떤 Big Data 도구를 언제 사용해야 합니까?
- Hadoop vs. 기타 NoSQL 솔루션
- 데이터에 대한 대화형 임의 액세스를 위해
- Hadoop 위에 있는 Hbase(열 지향 데이터베이스)
- 데이터에 대한 임의 액세스가 가능하지만 제한이 있음(최대 1 PB)
- 임시 분석에는 적합하지 않지만 로깅, 계산, 시계열에는 적합합니다.
- Sqoop - 데이터베이스에서 Hive 또는 HDFS(JDBC/ODBC 액세스)로 가져오기
- Flume – HDFS로 스트림 데이터(예: 로그 데이터)
Big Data Management 시스템
- 이동 부품, 컴퓨트 노드 시작/실패 :ZooKeeper - 구성/조정/네이밍 서비스용
- 복잡한 파이프라인/워크플로: Oozie – 워크플로, 종속성, 데이지 체인 관리
- 배포, 구성, 클러스터 관리, 업그레이드 등(시스템 관리자) :Ambari
- 클라우드에서 : 휘르
Predictive Analytics -- 기본 기술과 Machine Learning 기반 Business 지능
- Machine Learning 소개
- 분류 기술 학습
- 베이지안 예측 -- 훈련 파일 준비
- 지원 벡터 머신
- KNN p-트리 대수 및 수직 마이닝
- Neural Networks
- Big Data 대변수 문제 -- 랜덤 포레스트(RF)
- Big Data 자동화 문제 – 다중 모델 앙상블 RF
- Soft10-M을 통한 자동화
- 텍스트 분석 도구-Treeminer
- Agile 학습
- 에이전트 기반 학습
- 분산 학습
- 예측 분석을 위한 오픈 소스 도구 소개: R, Python, Rapidminer, Mahut
Predictive Analytics 범죄정보 분석에 있어서 생태계와 그 적용
- 기술과 조사 과정
- 인사이트 분석
- 시각화 분석
- 구조화된 예측 분석
- 비정형 예측 분석
- 위협/사기꾼/공급업체 프로파일링
- 추천 엔진
- 패턴 감지
- 규칙/시나리오 발견 – 실패, 사기, 최적화
- 근본 원인 발견
- 감정 분석
- CRM 분석
- 네트워크 분석
- 필사본, 증인 진술, 인터넷 채팅 등에서 통찰력을 얻기 위한 텍스트 분석
- 기술 지원 검토
- 사기 분석
- 실시간 분석
03일차
실시간 및 Scala가능한 분석 Hadoop
- Hadoop/HDFS에서 일반적인 분석 알고리즘이 실패하는 이유
- Apache Hama- 대량 동기 분산 컴퓨팅을 위해
- Apache SPARK - 클러스터 컴퓨팅 및 실시간 분석을 위해
- CMU Graphics Lab2- 분산 컴퓨팅에 대한 그래프 기반 비동기 접근 방식
- KNN p -- 하드웨어 운영 비용 절감을 위한 Treeminer의 대수 기반 접근 방식
eDiscovery 및 법의학 도구
- Big Data 대 레거시 데이터에 대한 eDiscovery - 비용 및 성능 비교
- 예측 코딩 및 기술 지원 검토(TAR)
- TAR이 어떻게 더 빠른 발견을 가능하게 하는지 이해하기 위한 vMiner의 라이브 데모
- HDFS를 통한 더 빠른 인덱싱 – 데이터 속도
- NLP(자연어 처리) – 오픈 소스 제품 및 기술
- 외국어 eDiscovery -- 외국어 처리 기술
Big Data Cyber Security를 위한 BI – 360도 뷰 확보, 신속한 데이터 수집 및 위협 식별
- 보안 분석의 기본 사항 이해(공격 표면, 보안 오류, 호스트 방어)
- 네트워크 인프라 / 대규모 데이터파이프 / 실시간 분석을 위한 응답 ETL
- 규범적 vs 예측적 – 고정 규칙 기반 vs 메타 데이터에서 위협 규칙 자동 검색
범죄 정보 분석을 위한 서로 다른 데이터 수집
- IoT(사물인터넷)를 센서로 사용하여 데이터 수집
- 국내 감시를 위한 위성 이미지 사용
- 감시 및 이미지 데이터를 활용해 범죄 식별
- 기타 데이터 수집 기술 - 드론, 바디 카메라, GPS 태그 시스템 및 열화상 기술
- 정보 제공자, 심문 및 연구로부터 얻은 데이터와 자동화된 데이터 검색을 결합합니다.
- Forecasting 범죄 활동
4일차
Fraud Analytics의 Big Data에서 사기 방지 BI
- 사기 분석의 기본 분류 -- 규칙 기반 분석 대 예측 분석
- 사기 패턴 감지를 위한 지도 학습과 비지도 학습
- Business 사업 사기, 의료 청구 사기, 보험 사기, 세금 탈루 및 자금 세탁
Social Media 분석 - 정보 수집 및 분석
- Social Media은 범죄자들이 조직, 모집 및 계획하는 데 어떻게 사용되는가
- Big Data 소셜 미디어 데이터 추출을 위한 ETL API
- 텍스트, 이미지, 메타 데이터 및 비디오
- 소셜 미디어 피드의 감정 분석
- 소셜 미디어 피드의 문맥적 및 비문맥적 필터링
- Social Media 다양한 소셜미디어를 통합한 대시보드
- 소셜 미디어 프로필의 자동 프로파일링
- 각 분석의 라이브 데모는 Treeminer Tool을 통해 제공됩니다.
Big Data 이미지 처리 및 비디오 피드 분석
- Big Data의 이미지 저장 기술 - 페타바이트를 초과하는 데이터를 위한 저장 솔루션
- LTFS(선형 테이프 파일 시스템) 및 LTO(선형 테이프 오픈)
- GPFS-LTFS(General Parallel File System - Linear Tape File System) - 빅 이미지 데이터를 위한 계층형 저장 솔루션
- 이미지 분석의 기본
- 객체 인식
- 이미지 분할
- 동작 추적
- 3D 이미지 재구성
Bio메트릭스, DNA 및 차세대 식별 프로그램
- 지문 인식과 얼굴 인식을 넘어
- 음성 인식, 키 입력(사용자의 타이핑 패턴 분석) 및 CODIS(결합된 DNA 색인 시스템)
- DNA 매칭을 넘어서: 법의학적 DNA 표현형 분석을 사용하여 DNA 샘플에서 얼굴을 구성하다
Big Data 다양한 데이터와 디스플레이에 대한 빠른 접근을 위한 대시보드 :
- 기존 애플리케이션 플랫폼과 Big Data 대시보드의 통합
- Big Data 관리
- Big Data 대시보드 사례 연구: Tableau 및 Pentaho
- Govt에서 위치 기반 서비스를 푸시하려면 Big Data 앱을 사용하세요.
- 추적 시스템 및 관리
5일차
조직 내에서 Big Data BI 구현을 정당화하는 방법:
- Big Data 구현을 위한 ROI(Return on Investment) 정의
- 데이터 수집 및 준비에 있어 분석가의 시간을 절약하기 위한 사례 연구 – 생산성 향상
- 데이터베이스 라이선스 비용 절감으로 인한 수익 증가
- 위치 기반 서비스로 인한 수익 증가
- 사기 방지로 인한 비용 절감
- Big Data 구현을 통해 대략적인 비용 대비 수익 증가/절감을 계산하기 위한 통합 스프레드시트 접근 방식입니다.
레거시 데이터 시스템을 Big Data 시스템으로 교체하기 위한 단계별 절차
- Big Data 이민 로드맵
- Big Data 시스템을 설계하기 전에 어떤 중요한 정보가 필요합니까?
- 데이터의 양, 속도, 다양성 및 진실성을 계산하는 다양한 방법은 무엇입니까?
- 데이터 증가를 추정하는 방법
- 사례 연구
Big Data 공급업체 검토 및 해당 제품 검토.
- 액센추어
- APTEAN(이전 CDC 소프트웨어)
- Cisco 시스템
- 클라우데라
- 작은 골짜기
- 전자파 적합성
- GoodData 주식회사
- 구아부스
- 히타치 데이터 시스템
- 호튼웍스
- 마력
- 아이비엠(주)
- 인포매티카
- 인텔
- 재스퍼소프트
- Microsoft
- MongoDB (이전 10Gen)
- MU 시그마
- 넷앱
- 오페라 솔루션
- Oracle
- Pentaho
- 플랫폼
- 클릭텍
- 양자
- 랙스페이스
- 혁명 분석
- Salesforce
- SAP
- SAS 연구소
- 시센스
- 소프트웨어 AG/테라코타
- 소프트10 자동화
- Splunk
- 스퀘럴
- 슈퍼마이크로
- Tableau 소프트웨어
- Teradata
- 큰 분석 생각하기
- 타이드마크 시스템
- 트리마이너
- VMware (EMC의 일부)
Q/A 세션
Requirements
- 법 집행 프로세스 및 데이터 시스템에 대한 지식
- SQL/Oracle 또는 관계형 데이터베이스에 대한 기본적인 이해
- 통계에 대한 기본 이해(스프레드시트 수준)
청중
- 기술적 배경을 갖춘 법 집행 전문가
회원 평가 (1)
Deepthi는 내 요구 사항을 완벽하게 파악해냈고, 언제 복잡한 단계를 추가해야 할지, 언제 잠시 멈추고 더 구조적인 접근 방식을 취해야 할지 잘 알고 있었습니다. Deepthi는 정말 제 속도에 맞춰 일했고, 제가 직접 새로운 기능/도구를 사용할 수 있도록 먼저 보여준 다음 제가 직접 아이템을 다시 만들게 함으로써 교육을 내장하는 데 큰 도움이 되었습니다. 저는 이 교육의 결과와 Deepthi의 전문성 수준에 더할 나위 없이 만족합니다!
Deepthi - Invest Northern Ireland
Course - IBM Cognos Analytics
Machine Translated