Course Outline

01일차

범죄정보분석을 위한 Big Data Business Intelligence 개요

  • 법 집행 기관의 사례 연구 - 예측 경찰
  • Big Data 법 집행 기관의 채택률 및 Big Data Predictive Analytics을 중심으로 미래 운영을 조정하는 방법
  • 총기 센서, 감시 비디오, 소셜 미디어와 같은 새로운 기술 솔루션
  • Big Data 기술을 사용하여 정보 과부하 완화
  • Big Data 레거시 데이터와의 인터페이싱
  • 예측 분석에서 활성화 기술에 대한 기본 이해
  • Data Integration & 대시보드 시각화
  • 사기 관리
  • Business Rules 및 사기 감지
  • 위협 탐지 및 프로파일링
  • Big Data 구현을 위한 비용 편익 분석

Big Data 소개

  • Big Data의 주요 특징은 볼륨, 다양성, 속도 및 진실성입니다.
  • MPP(대규모 병렬 처리) 아키텍처
  • Data Warehouses – 정적 스키마, 천천히 진화하는 데이터 세트
  • MPP Database: Greenplum, Exadata, Teradata, Netezza, Vertica 등
  • Hadoop 기반 솔루션 - 데이터 세트 구조에 대한 조건 없음.
  • 일반적인 패턴: HDFS, MapReduce(크런치), HDFS에서 검색
  • Apache Spark 스트림 처리를 위해
  • 배치 - 분석/비대화에 적합
  • 볼륨 : CEP 스트리밍 데이터
  • 일반적인 선택 – CEP 제품(예: Infostreams, Apama, MarkLogic 등)
  • 생산 준비가 덜 됨 – Storm/S4
  • NoSQL Databases – (열 형식 및 키 값): 데이터웨어하우스/데이터베이스에 대한 분석 보조 도구로 가장 적합함

NoSQL 솔루션

  • KV 스토어 - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • KV 스토어 - 다이너모, 볼드모트, 다이노마이트, 서브레코드, Mo8onDb, 도브테일DB
  • KV 스토어(계층형) - GT.m, 캐시
  • KV 스토어(주문됨) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • KV 캐시 - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • 튜플 스토어 - 기가스페이스, 코디, 아파치 리버
  • 객체 Database - ZopeDB, DB40, Shoal
  • 문서 저장소 - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • 와이드 컬럼 저장소 - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

다양한 데이터: Big Data의 Data Cleaning 문제 소개

  • RDBMS – 정적 구조/스키마, 민첩하고 탐색적인 환경을 촉진하지 않습니다.
  • NoSQL – 반구조화, 데이터를 저장하기 전에 정확한 스키마 없이도 데이터를 저장할 수 있는 충분한 구조
  • 데이터 정리 문제

Hadoop

  • Hadoop를 선택해야 하는 경우는 언제인가요?
  • 구조화됨 - 엔터프라이즈 데이터웨어하우스/데이터베이스는 막대한 데이터를 저장할 수 있지만(비용이 들지만) 구조를 부과합니다(능동적인 탐색에 적합하지 않음)
  • SEMI STRUCTURED 데이터 – 기존 솔루션(DW/DB)을 사용하여 수행하기 어려움
  • 데이터 웨어하우징 = 엄청난 노력과 구현 후에도 정적
  • 다양한 데이터와 대량의 데이터를 위해 상용 하드웨어에 저장 – HADOOP
  • Hadoop 클러스터를 생성하는 데 필요한 상품 H/W

맵 축소/HDFS 소개

  • MapReduce – 여러 서버에 컴퓨팅 분산
  • HDFS – 컴퓨팅 프로세스에 로컬로 데이터를 사용 가능하게 함(중복성 포함)
  • 데이터 – 비정형/스키마 없음(RDBMS와 달리)
  • 데이터를 이해하는 것은 개발자의 책임입니다.
  • Programming MapReduce = Java와 함께 작업(장단점), HDFS에 수동으로 데이터 로드

2일차

Big Data 생태계 - Big Data ETL(추출, 변환, 로드) 구축 - 어떤 Big Data 도구를 언제 사용해야 합니까?

  • Hadoop vs. 기타 NoSQL 솔루션
  • 데이터에 대한 대화형 임의 액세스를 위해
  • Hadoop 위에 있는 Hbase(열 지향 데이터베이스)
  • 데이터에 대한 임의 액세스가 가능하지만 제한이 있음(최대 1 PB)
  • 임시 분석에는 적합하지 않지만 로깅, 계산, 시계열에는 적합합니다.
  • Sqoop - 데이터베이스에서 Hive 또는 HDFS(JDBC/ODBC 액세스)로 가져오기
  • Flume – HDFS로 스트림 데이터(예: 로그 데이터)

Big Data Management 시스템

  • 이동 부품, 컴퓨트 노드 시작/실패 :ZooKeeper - 구성/조정/네이밍 서비스용
  • 복잡한 파이프라인/워크플로: Oozie – 워크플로, 종속성, 데이지 체인 관리
  • 배포, 구성, 클러스터 관리, 업그레이드 등(시스템 관리자) :Ambari
  • 클라우드에서 : 휘르

Predictive Analytics -- 기본 기술과 Machine Learning 기반 Business 지능

  • Machine Learning 소개
  • 분류 기술 학습
  • 베이지안 예측 -- 훈련 파일 준비
  • 지원 벡터 머신
  • KNN p-트리 대수 및 수직 마이닝
  • Neural Networks
  • Big Data 대변수 문제 -- 랜덤 포레스트(RF)
  • Big Data 자동화 문제 – 다중 모델 앙상블 RF
  • Soft10-M을 통한 자동화
  • 텍스트 분석 도구-Treeminer
  • Agile 학습
  • 에이전트 기반 학습
  • 분산 학습
  • 예측 분석을 위한 오픈 소스 도구 소개: R, Python, Rapidminer, Mahut

Predictive Analytics 범죄정보 분석에 있어서 생태계와 그 적용

  • 기술과 조사 과정
  • 인사이트 분석
  • 시각화 분석
  • 구조화된 예측 분석
  • 비정형 예측 분석
  • 위협/사기꾼/공급업체 프로파일링
  • 추천 엔진
  • 패턴 감지
  • 규칙/시나리오 발견 – 실패, 사기, 최적화
  • 근본 원인 발견
  • 감정 분석
  • CRM 분석
  • 네트워크 분석
  • 필사본, 증인 진술, 인터넷 채팅 등에서 통찰력을 얻기 위한 텍스트 분석
  • 기술 지원 검토
  • 사기 분석
  • 실시간 분석

03일차

실시간 및 Scala가능한 분석 Hadoop

  • Hadoop/HDFS에서 일반적인 분석 알고리즘이 실패하는 이유
  • Apache Hama- 대량 동기 분산 컴퓨팅을 위해
  • Apache SPARK - 클러스터 컴퓨팅 및 실시간 분석을 위해
  • CMU Graphics Lab2- 분산 컴퓨팅에 대한 그래프 기반 비동기 접근 방식
  • KNN p -- 하드웨어 운영 비용 절감을 위한 Treeminer의 대수 기반 접근 방식

eDiscovery 및 법의학 도구

  • Big Data 대 레거시 데이터에 대한 eDiscovery - 비용 및 성능 비교
  • 예측 코딩 및 기술 지원 검토(TAR)
  • TAR이 어떻게 더 빠른 발견을 가능하게 하는지 이해하기 위한 vMiner의 라이브 데모
  • HDFS를 통한 더 빠른 인덱싱 – 데이터 속도
  • NLP(자연어 처리) – 오픈 소스 제품 및 기술
  • 외국어 eDiscovery -- 외국어 처리 기술

Big Data Cyber Security를 위한 BI – 360도 뷰 확보, 신속한 데이터 수집 및 위협 식별

  • 보안 분석의 기본 사항 이해(공격 표면, 보안 오류, 호스트 방어)
  • 네트워크 인프라 / 대규모 데이터파이프 / 실시간 분석을 위한 응답 ETL
  • 규범적 vs 예측적 – 고정 규칙 기반 vs 메타 데이터에서 위협 규칙 자동 검색

범죄 정보 분석을 위한 서로 다른 데이터 수집

  • IoT(사물인터넷)를 센서로 사용하여 데이터 수집
  • 국내 감시를 위한 위성 이미지 사용
  • 감시 및 이미지 데이터를 활용해 범죄 식별
  • 기타 데이터 수집 기술 - 드론, 바디 카메라, GPS 태그 시스템 및 열화상 기술
  • 정보 제공자, 심문 및 연구로부터 얻은 데이터와 자동화된 데이터 검색을 결합합니다.
  • Forecasting 범죄 활동

4일차

Fraud Analytics의 Big Data에서 사기 방지 BI

  • 사기 분석의 기본 분류 -- 규칙 기반 분석 대 예측 분석
  • 사기 패턴 감지를 위한 지도 학습과 비지도 학습
  • Business 사업 사기, 의료 청구 사기, 보험 사기, 세금 탈루 및 자금 세탁

Social Media 분석 - 정보 수집 및 분석

  • Social Media은 범죄자들이 조직, 모집 및 계획하는 데 어떻게 사용되는가
  • Big Data 소셜 미디어 데이터 추출을 위한 ETL API
  • 텍스트, 이미지, 메타 데이터 및 비디오
  • 소셜 미디어 피드의 감정 분석
  • 소셜 미디어 피드의 문맥적 및 비문맥적 필터링
  • Social Media 다양한 소셜미디어를 통합한 대시보드
  • 소셜 미디어 프로필의 자동 프로파일링
  • 각 분석의 라이브 데모는 Treeminer Tool을 통해 제공됩니다.

Big Data 이미지 처리 및 비디오 피드 분석

  • Big Data의 이미지 저장 기술 - 페타바이트를 초과하는 데이터를 위한 저장 솔루션
  • LTFS(선형 테이프 파일 시스템) 및 LTO(선형 테이프 오픈)
  • GPFS-LTFS(General Parallel File System - Linear Tape File System) - 빅 이미지 데이터를 위한 계층형 저장 솔루션
  • 이미지 분석의 기본
  • 객체 인식
  • 이미지 분할
  • 동작 추적
  • 3D 이미지 재구성

Bio메트릭스, DNA 및 차세대 식별 프로그램

  • 지문 인식과 얼굴 인식을 넘어
  • 음성 인식, 키 입력(사용자의 타이핑 패턴 분석) 및 CODIS(결합된 DNA 색인 시스템)
  • DNA 매칭을 넘어서: 법의학적 DNA 표현형 분석을 사용하여 DNA 샘플에서 얼굴을 구성하다

Big Data 다양한 데이터와 디스플레이에 대한 빠른 접근을 위한 대시보드 :

  • 기존 애플리케이션 플랫폼과 Big Data 대시보드의 통합
  • Big Data 관리
  • Big Data 대시보드 사례 연구: Tableau 및 Pentaho
  • Govt에서 위치 기반 서비스를 푸시하려면 Big Data 앱을 사용하세요.
  • 추적 시스템 및 관리

5일차

조직 내에서 Big Data BI 구현을 정당화하는 방법:

  • Big Data 구현을 위한 ROI(Return on Investment) 정의
  • 데이터 수집 및 준비에 있어 분석가의 시간을 절약하기 위한 사례 연구 – 생산성 향상
  • 데이터베이스 라이선스 비용 절감으로 인한 수익 증가
  • 위치 기반 서비스로 인한 수익 증가
  • 사기 방지로 인한 비용 절감
  • Big Data 구현을 통해 대략적인 비용 대비 수익 증가/절감을 계산하기 위한 통합 스프레드시트 접근 방식입니다.

레거시 데이터 시스템을 Big Data 시스템으로 교체하기 위한 단계별 절차

  • Big Data 이민 로드맵
  • Big Data 시스템을 설계하기 전에 어떤 중요한 정보가 필요합니까?
  • 데이터의 양, 속도, 다양성 및 진실성을 계산하는 다양한 방법은 무엇입니까?
  • 데이터 증가를 추정하는 방법
  • 사례 연구

Big Data 공급업체 검토 및 해당 제품 검토.

  • 액센추어
  • APTEAN(이전 CDC 소프트웨어)
  • Cisco 시스템
  • 클라우데라
  • 작은 골짜기
  • 전자파 적합성
  • GoodData 주식회사
  • 구아부스
  • 히타치 데이터 시스템
  • 호튼웍스
  • 마력
  • 아이비엠(주)
  • 인포매티카
  • 인텔
  • 재스퍼소프트
  • Microsoft
  • MongoDB (이전 10Gen)
  • MU 시그마
  • 넷앱
  • 오페라 솔루션
  • Oracle
  • Pentaho
  • 플랫폼
  • 클릭텍
  • 양자
  • 랙스페이스
  • 혁명 분석
  • Salesforce
  • SAP
  • SAS 연구소
  • 시센스
  • 소프트웨어 AG/테라코타
  • 소프트10 자동화
  • Splunk
  • 스퀘럴
  • 슈퍼마이크로
  • Tableau 소프트웨어
  • Teradata
  • 큰 분석 생각하기
  • 타이드마크 시스템
  • 트리마이너
  • VMware (EMC의 일부)

Q/A 세션

Requirements

  • 법 집행 프로세스 및 데이터 시스템에 대한 지식
  • SQL/Oracle 또는 관계형 데이터베이스에 대한 기본적인 이해
  • 통계에 대한 기본 이해(스프레드시트 수준)

청중

  • 기술적 배경을 갖춘 법 집행 전문가
 35 Hours

Number of participants


Price per participant

회원 평가 (1)

Upcoming Courses

Related Categories