ADP 4과목 1장 데이터 분석 개요

2021. 10. 25. 00:00·Data/ADP(데이터분석 전문가)

1절 데이터 분석 기법의 이해

Key Word : 시각화, 공간분석, EDA, 통계분석, 데이터마이닝

 

1. 데이터 처리

1) Overview

  • 데이터 분석은 통계에 기반을 두고 있지만, 학문적인 부분보다는 실용적인부분이 크다.

2) 활용

  • 기업에서는 DataWarehouse와 DataMart를 통해 분석 데이터를 가져온다.
  • 기존 운영시스템(Legacy)나 staging area, Operational Data Store에서 데이터를 가져와서 DW의 내용과 결합하여 활용한다.
  • 운영시스템에 직접 접근하는 것보다 임시저장된 staging area or cleansing 영역인 ODS에서 데이터 가져오는 것이 이상적이다.

3) 최종 데이터 구조로 가공

  • 데이터마이닝 분류
    • 분류값과 입력변수들을 연관시켜 인구통계, 요약변수, 파생변수 등을 산출한다.
  • 정형화된 패턴 처리
    • 비정형 데이터 : DBMS에 저장되었다가 텍스트 마이닝을 거쳐 데이터 마트와 통합한다.
    • 정형 데이터 : DBMS에 저장되었다가 사회 신경망분석을 거쳐 분석결과 통계값이 마트와 통합되어 활용된다.

2. 시각화

  • 낮은 분석 수준이지만 활용도에 따라 복잡한 분석보다 효율적일 수 있다.
  • 빅데이터 분석과 EDA에서 시각화는 필수이다.
  • 사회연결망 분석에 자주 활용된다.
  • ex) box plot, bar plot, pie chart, heat map

다양한 시각화 그래프

3. 공간분석(GIS)

  • 공간적 차원과 관련된 속성들을 시각화하는 분석이다.
  • 지도 위에 관련 속성들을 생성하고 크기, 모양, 선 굵기 등으로 구분하여 insight를 얻는다.
  • ex) 코로나맵

 

4. 탐색적 자료 분석(EDA)

1) Overview

  • 다양한 차원과 값을 조합해가며 특이한 점이나 의미 있는 사실을 도출하며 데이터의 특징과 구조적 관계를 알아낸다.

2) EDA의 4가지 주제

  • 저항성의 강조, 잔차 계산, 자료변수의 재표현, 그래프를 통한 현시성

3) 탐색적 분석의 효율 예

  • 데이터이해 단계와 변수생성 단계 그리고 변수선택단계에서 활용

5. 통계분석

1) 통계

  • 어떤 현상을 한눈에 알아보기 쉽게 숫자와 표, 그림의 형태로 나타내는 것이다.

2) 기술통계(descriptive statistics)

  • 모집단으로부터 표본을 추출하여 표본이 가지고 있는 정보를 쉽게 파악하도록 데이터를 요약하는 절차이다.

3) 추론통계(inferential statistics)

  • 모집단으로부터 추출된 표본의 표본통계량으로 부터 모수에 관해 통계적으로 추론하는 절차이다.

4) 활용분야

  • 정부의 경제정책 수립과 평가의 근거자료로 활용(실업률, 고용률, 물가지수), 농업, 의학, 경영, 스포츠

6. 데이터마이닝

1) Overview

  • 고급 데이터 분석법으로 대용량의 자료로 부터 관계, 패턴, 규칙을 탐색하고 새로운 지식을 추출한다.

2) 방법론

  • 데이터베이스에서의 지식탐색 : DW에서 DM을 생성하면서 데이터들의 속성을 사전분석한다.
  • 기계학습(machine learning) : 인공지능의 한 분야로, 컴퓨터가 학습할 알고리즘 개발.  ex)인공신경망, 의사결정나무, SVM
  • 패턴인식 : 사전지식과 패턴에서 추출된 통계정보를 기반으로 자료 또는 패턴을 분류하는 방법. ex) 장바구니 분석, 연관규칙

3) 활용분야

  • 데이터베이스 마케팅(고객세분화, 추천시스템), 신용평가, 생물정보학, 텍스트마이닝

 

Q) 모델링 성능을 평가함에 있어, 데이터마이닝에서 활용하는 평가 기준이 아닌 것은?

1. 정확도 2. 리프트 3. Detect Rate 4. Throughput

A) 4. Throughput

 

*데이터마이닝 : 정확도, 정밀도, Detect Rate, Lift

**시뮬레이션 : Throughput, Average Waiting Time, Average Queue Length, Time in System

 

 

반응형
'Data/ADP(데이터분석 전문가)' 카테고리의 다른 글
  • ADP 4과목 2장 R프로그래밍 기초
  • ADP 3과목 데이터 분석 기획
  • ADP 2과목 데이터 처리 기술의 이해
  • ADP 1과목 데이터 이해
수영하는 두루미
수영하는 두루미
한국체육대학교에서 스포츠 AI빅데이터를 공부하고 있습니다. B.S. Computer Science
  • 수영하는 두루미
    두루미의 스포츠 데이터분석실
    수영하는 두루미
  • 전체
    오늘
    어제
    • 분류 전체보기 (94)
      • 스포츠 AI·빅데이터(2024~) (21)
        • 2024-2 (0)
        • 빅데이터기반 스포츠경기분석 (10)
        • 스포츠와 소셜텍스트분석 (4)
        • 영상기반 데이터 수집기법 (3)
        • 2025-1 (0)
        • 스포츠와 AI 모델링 기초 (0)
        • 스포츠와 프로그램 코딩(Python) (0)
        • 운동역학 (0)
        • 2025-2 (0)
        • 스포츠 AI빅데이터 연구 세미나 (1)
        • 스포츠 딥러닝 (0)
        • 운동생리학 (0)
        • etc. (0)
      • Data (13)
        • ADsP (1)
        • SQLD (1)
        • 빅데이터분석기사 (4)
        • ADP(데이터분석 전문가) (5)
        • 키다리아저씨(2021.12.05~) (2)
        • 파이썬 자격과정(2021.07.22-23) (0)
      • 정보처리기사 (1)
      • CSTS (10)
      • 블록체인과 암호화폐 (0)
        • 블록체인 (0)
      • Algorithm (44)
        • 백준 (42)
        • 자료구조 (2)
      • CSOS (0)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 링크

  • 공지사항

  • 인기 글

  • 태그

    heapsort
    구조기반테스트
    데이터분석
    한체대
    경험기반테스트
    스포츠데이터분석
    자료구조
    한체대대학원
    스포츠빅데이터
    C언어
    알고리즘
    Python
    스포츠데이터
    명세기반테스트
    백준
    스포츠ai빅데이터
    빅데이터분석기사
    csts
    정적테스트
    동적테스트
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.6
수영하는 두루미
ADP 4과목 1장 데이터 분석 개요
상단으로

티스토리툴바