ADP 3과목 데이터 분석 기획

2021. 10. 21. 23:59·Data/ADP(데이터분석 전문가)

1장 데이터 분석 기획의 이해

Key Word : 분석기획, 분석 방법론, KDD 분석 방법론, CRISP-DM 분석 방법론, 빅데이터 분석 방법론

1절 분석기획 방향성 도출

 

1. 분석기획의 특징

1) 분석기획이란?

  • 분석을 수행할 과제를 정의하고, 의도했던 결과를 도출할 수 있도록 적절하게 관리할 수 있는 방안 수립

2) 데이터 사이언티스트의 역량

  • Math&Statics, Information Technology, Domain Knowledge
  • 세 가지 영역에 대해 균형 잡힌 시각을 가지고 방향성 및 계획을 수립

2. 분석 대상과 방법

  • 분석의 대상(What)과 분석의 방법(How)에 따라서 4가지로 나누어진다
  • 분석 4가지 유형 : 최적화, 해결, 통찰, 발견 그림 넣기

 

3. 목표 시점 별 분석 기획 방안

  • 당면한 분석 주제의 해결(과제 단위) vs 지속적 분석 문화 내재화(마스터 플랜 단위)
  • 목표 시점별 분석 기획 방안 그림 넣기

4. 분석 기획시 고려사항

  1. Available data : 데이터의 유형(정형/반정형/비정형)에 따라 적용 가능한 솔루션 및 분석 방법이 다름
  2. Proper Business Use Case : "바퀴를 재발명하지 마라"는 격언처럼 기존에 활용되고 있는 유즈케이스를 최대한 활용
  3. Low Barrier Of Execution : 조직의 역량으로 내재화하기 위해서 충분하고 계속적인 교육과 같은 변화 관리 고려

정형데이터 : ERP, CRM, SCM, Demand Forecast

반정형데이터 : Log data, Competitor pricing, Machine data, mobile data

비정형데이터 : Voice, Video, Text

 

2절 분석 방법론

1. 분석 방법론 개요

 

1) Overview

  • 데이터 분석이 효과적으로 기업 내에 정착하기 위한 절차와 방법 필수 -> 데이터 분석 방법론 수립
  • 데이터 분석 방법론 구성 :  Procedures, Methods, Tools&Techniques, Templates&Outputs

2) 데이터 기반 의사결정의 필요성

  • 기존의 경험과 감에 따른 의사결정 에서 데이터 기반의 의사결정으로 변화
  • 합리적인 의사결정의 방해요소 : Streotype, Bias, Framing Effect(문제의 표현방식에 따라 같은 상황에서 다른 선택이 발생)

3) 방법론의 생성과정

  • 암묵지, 형식지, 방법론 일러넣기

4) 방법론의 적용 업무 특성에 따른 모델

  1. Waterfall Model : 단계를 순차적으로 진행, 이전 단계 완료시 다음 단계로 진행 가능
  2. Prototype Model : 점진적으로 시스템을 개발, 고객의 니즈를 완전히 파악하지 못할경우 일부분 우선 개발하여 제공 후 개선
  3. Spiral Model : 반복을 통해 점증적으로 개발, 관리 체계를 갖추지 못하면 복잡도가 상승하여 프로젝트 진행이 어려워짐

5) 방법론의 구성

  • 단계 : 프로세스 그룹을 통하여 완성된 단계별 산출물 생성, 각 단계는 버전관리를 통해 통제됨 -> 단계별 완료 보고서
  • 태스크 : 단계를 구성하는 단위 활동으로써 물리적 또는 논리적 단위로 품질검토의 항목이 됨 -> 보고서
  • 스텝 : WBS의 워크 패키지에 해당, Input/Output들로 구성된 단위 프로세스 - > 보고서 구성요소

2. KDD 분석 방법론(KDD : Knowledge Discovery in Databases)

 

1) Overview

  • 데이터로부터 통계적 패턴이나 지식을 찾기 위해 활용할 수 있도록 체계적으로 정리한 데이터 마이닝 프로세스

2) KDD 분석 절차

  1. 데이터셋 선택 : 데이터 마이닝에 필요한 target data를 구성하여 분석에 활용
  2. 데이터 전처리 : 분석 대상용 데이터 셋에 포함되어 있는 Noise, Outlier, Missing Value 식별 후 정제(삭제 or 재처리)
  3. 데이터 변환 : 분석 목적에 맞게 변수 생성, 선택하고 데이터의 차원을 축소. Training data, Test data로 분리
  4. 데이터 마이닝 : 데이터마이닝 기법을 선택하고, 적절한 알고리즘을 적용하여 데이터마이닝 작업을 실행
  5. 데이터 마이닝 결과 평가 : 데이터 마이닝 결과에 대한 해석과 평과, 그리고 분석 목적과의 일치성을 확인

3. CRISP-DM 분석 방법론 (CRISP-DM : Cross Industry Standard Process for Data Mining)

 

1) Overview

  • 유럽연합의 ESPRIT에서 있었던 프로젝트에서 시작

2) CRISP-DM의 4 level 구조

  • Phases :
  • Generic Tasks :
  • Specialized Tasks : 
  • Process Instanes :

3) CRISP-DM의 Process

  1. 업무이해
  2. 데이터 이해
  3. 데이터 준비
  4. 모델링
  5. 평가
  6. 전개

4. KDD와 CRISP-DM의 비교

KDD CRISP-DM
   
   
   
   
   
   
   

5. 빅데이터 분석 방법론

 

1) 빅데이터 분석의 계층적 프로세스

  1. 단계 : 
  2. 태스크 : 
  3. 스텝 : 

2) 빅데이터 분석 방법론 - 5단계

  1. 분석기획 : 
  2. 데이터 준비 : 
  3. 스데이터 분석 :
  4. 시스템 구현 : 
  5. 평가 및 전개 : 

3) 단계별 세부단계 및 실제 업무 

  1. 분석기획 : 비즈니스 이해 및 범위설정, 프로젝트 정의 및 계획 수립, 프로젝트 위험계획 수립
    • 비즈니스 이해 : 내부 업무 매뉴얼과 관련자료, 외부의 관련 비즈니스 자료를 조사하고 향후 프로젝트 진행 방향 설정
      Output : 비즈니스 이해 및 도메인 문제점
    • 프로젝트 범위 설정 : 빅데이터 분석 프로젝트의 대상인 비즈니스에 대한 이해와 프로젝트 목적에 부합하는 범위를 설정
      Output : 프로젝트 범위 정의서(SOW : Statement Of Work)

    • 데이터 분석 프로젝트 정의 : 프로젝트의 목표 및 KPI, 목표 수준등을 구체화하여 프로젝트 정의서 작성, 모델 평가기준 설정
      Output : 프로젝트 정의서, 모델 운영 이미지 설계서, 모델 평가 기준
    • 프로젝트 수행 계획 수립 : 프로젝트의 목적 및 배경, 기대효과, 수행 방법, 일정 및 추진조직, 프로젝트 관리방안을 작성
      Output : 프로젝트 수행계획서, WBS(Work Breakdown Structure)

    • 데이터 분석 위험 식별 : 프로젝트 산출물과 전문가 의견따라 발생 가능한 위험 식별. 위험의 영향도/빈도/발생가능성
      Output : 식별된 위험 목록
    • 위험 대응 계획 수립 : 식별된 위험은 정량적, 정성적 분석통해 대응방안 수립. 회피/전이/완화/수용으로 구분
      Output : 위험관리 계획서
  2. 데이터 준비 : 필요 데이터 정의, 데이터 스토어 설계, 데이터 수집 및 정합성 점검
    • 데이터 정의 : 시스템, 데이베이스 등의 다양한 원천 데이터 소스로 부터 분석에 필요한 데이터 정의
      Output : 데이터 정의서
    • 데이터 획득방안 수립 : 데이터를 수집하기위한 구체적인 방안 수립, 데이터 획득히 보안이나 법적인 문제점 고려
      Output : 데이터 획득 계획서

    • 정형 데이터 스토어 설계 : 일반적으로 RDBMS를 사용하고 데이터스토어의 논리적, 물리적 설계를 구분하여 설계
      Output : 정형 데이터 스토어 설계서, 데이터 매핑 정의서
    • 비정형 데이터 스토어 설계 : 하둡, NoSQL 등으로 비/반정형 데이터를 저장하기 위한 논리적, 물리적 데이터 스토어 설계
      Output : 비정형 데이터 스토어 설계서, 데이터 매핑 정의서

    • 데이터 수집 및 저장 : 데이터 수집을 위한 도구와 API, Script를 이용하여 데이터 수집, 데이터 스토어에 저장
      Output : 수집된 분석용 데이터
    • 데이터 정합성 검정 : 데이터 스토어의 품질 점검을 통하여 데이터의 정합성을 확보, 데이터 품질 개선
      Output : 정합성 점검 보고서
  3. 데이터 분석 : 분석용 데이터 준비, 텍스트 분석, 탐색적 분석, 모델링, 모델 평가 및 검증
    • 비즈니스 룰 확인 : 
      Output : 
    • 분석용 데이터셋 준비 : 
      Output : 

    • 텍스트 데이터 확인 및 추출 : 
      Output : 
    • 텍스트 데이터 분석 : 
      Output : 

    • 탐색적 데이터 분석 : 
      Output : 
    • 데이터 시각화 : 
      Output : 

    • 데이터 분할 :
      Output :
    • 데이터 모델링 :
      Output :
    • 모델 적용 및 운영방안 :
      Output :

    • 모델 평가 : 
      Output : 
    • 모델 검증 : 
      Output : 
  4. 시스템 구현 : 설계 및 구현, 시스템 테스트 및 운영
    • 시스템 분석 및 설계 : 
      Output : 
    • 시스템 구현 : 
      Output : 

    • 시스템 테스트 : 
      Output : 
    • 시스템 운영 계획 : 
      Output : 

  5. 평가 및 전개 : 모델 발전 계획 수립, 프로젝트 평가 및 보고
    • 모델 발전 계획 : 
      Output : 


    • 프로젝트 성과 평가 : 
      Output : 
    • 프로젝트 종료 : 
      Output : 

3절 분석 과제 발굴

1. 분석 과제 발굴 방법론

 

1) Overview

  • 데이터 
반응형
'Data/ADP(데이터분석 전문가)' 카테고리의 다른 글
  • ADP 4과목 2장 R프로그래밍 기초
  • ADP 4과목 1장 데이터 분석 개요
  • ADP 2과목 데이터 처리 기술의 이해
  • ADP 1과목 데이터 이해
수영하는 두루미
수영하는 두루미
한국체육대학교에서 스포츠 AI빅데이터를 공부하고 있습니다. B.S. Computer Science
  • 수영하는 두루미
    두루미의 스포츠 데이터분석실
    수영하는 두루미
  • 전체
    오늘
    어제
    • 분류 전체보기 (94)
      • 스포츠 AI·빅데이터(2024~) (21)
        • 2024-2 (0)
        • 빅데이터기반 스포츠경기분석 (10)
        • 스포츠와 소셜텍스트분석 (4)
        • 영상기반 데이터 수집기법 (3)
        • 2025-1 (0)
        • 스포츠와 AI 모델링 기초 (0)
        • 스포츠와 프로그램 코딩(Python) (0)
        • 운동역학 (0)
        • 2025-2 (0)
        • 스포츠 AI빅데이터 연구 세미나 (1)
        • 스포츠 딥러닝 (0)
        • 운동생리학 (0)
        • etc. (0)
      • Data (13)
        • ADsP (1)
        • SQLD (1)
        • 빅데이터분석기사 (4)
        • ADP(데이터분석 전문가) (5)
        • 키다리아저씨(2021.12.05~) (2)
        • 파이썬 자격과정(2021.07.22-23) (0)
      • 정보처리기사 (1)
      • CSTS (10)
      • 블록체인과 암호화폐 (0)
        • 블록체인 (0)
      • Algorithm (44)
        • 백준 (42)
        • 자료구조 (2)
      • CSOS (0)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 링크

  • 공지사항

  • 인기 글

  • 태그

    명세기반테스트
    정적테스트
    한체대
    빅데이터분석기사
    스포츠데이터분석
    csts
    백준
    자료구조
    heapsort
    스포츠빅데이터
    동적테스트
    데이터분석
    스포츠ai빅데이터
    경험기반테스트
    구조기반테스트
    한체대대학원
    C언어
    알고리즘
    Python
    스포츠데이터
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.6
수영하는 두루미
ADP 3과목 데이터 분석 기획
상단으로

티스토리툴바