1절 데이터 분석 기법의 이해
Key Word : 시각화, 공간분석, EDA, 통계분석, 데이터마이닝
1. 데이터 처리
1) Overview
- 데이터 분석은 통계에 기반을 두고 있지만, 학문적인 부분보다는 실용적인부분이 크다.
2) 활용
- 기업에서는 DataWarehouse와 DataMart를 통해 분석 데이터를 가져온다.
- 기존 운영시스템(Legacy)나 staging area, Operational Data Store에서 데이터를 가져와서 DW의 내용과 결합하여 활용한다.
- 운영시스템에 직접 접근하는 것보다 임시저장된 staging area or cleansing 영역인 ODS에서 데이터 가져오는 것이 이상적이다.
3) 최종 데이터 구조로 가공
- 데이터마이닝 분류
- 분류값과 입력변수들을 연관시켜 인구통계, 요약변수, 파생변수 등을 산출한다.
- 정형화된 패턴 처리
- 비정형 데이터 : DBMS에 저장되었다가 텍스트 마이닝을 거쳐 데이터 마트와 통합한다.
- 정형 데이터 : DBMS에 저장되었다가 사회 신경망분석을 거쳐 분석결과 통계값이 마트와 통합되어 활용된다.
2. 시각화
- 낮은 분석 수준이지만 활용도에 따라 복잡한 분석보다 효율적일 수 있다.
- 빅데이터 분석과 EDA에서 시각화는 필수이다.
- 사회연결망 분석에 자주 활용된다.
- ex) box plot, bar plot, pie chart, heat map

3. 공간분석(GIS)
- 공간적 차원과 관련된 속성들을 시각화하는 분석이다.
- 지도 위에 관련 속성들을 생성하고 크기, 모양, 선 굵기 등으로 구분하여 insight를 얻는다.
- ex) 코로나맵
4. 탐색적 자료 분석(EDA)
1) Overview
- 다양한 차원과 값을 조합해가며 특이한 점이나 의미 있는 사실을 도출하며 데이터의 특징과 구조적 관계를 알아낸다.
2) EDA의 4가지 주제
- 저항성의 강조, 잔차 계산, 자료변수의 재표현, 그래프를 통한 현시성
3) 탐색적 분석의 효율 예
- 데이터이해 단계와 변수생성 단계 그리고 변수선택단계에서 활용
5. 통계분석
1) 통계
- 어떤 현상을 한눈에 알아보기 쉽게 숫자와 표, 그림의 형태로 나타내는 것이다.
2) 기술통계(descriptive statistics)
- 모집단으로부터 표본을 추출하여 표본이 가지고 있는 정보를 쉽게 파악하도록 데이터를 요약하는 절차이다.
3) 추론통계(inferential statistics)
- 모집단으로부터 추출된 표본의 표본통계량으로 부터 모수에 관해 통계적으로 추론하는 절차이다.
4) 활용분야
- 정부의 경제정책 수립과 평가의 근거자료로 활용(실업률, 고용률, 물가지수), 농업, 의학, 경영, 스포츠
6. 데이터마이닝
1) Overview
- 고급 데이터 분석법으로 대용량의 자료로 부터 관계, 패턴, 규칙을 탐색하고 새로운 지식을 추출한다.
2) 방법론
- 데이터베이스에서의 지식탐색 : DW에서 DM을 생성하면서 데이터들의 속성을 사전분석한다.
- 기계학습(machine learning) : 인공지능의 한 분야로, 컴퓨터가 학습할 알고리즘 개발. ex)인공신경망, 의사결정나무, SVM
- 패턴인식 : 사전지식과 패턴에서 추출된 통계정보를 기반으로 자료 또는 패턴을 분류하는 방법. ex) 장바구니 분석, 연관규칙
3) 활용분야
- 데이터베이스 마케팅(고객세분화, 추천시스템), 신용평가, 생물정보학, 텍스트마이닝
Q) 모델링 성능을 평가함에 있어, 데이터마이닝에서 활용하는 평가 기준이 아닌 것은?
1. 정확도 2. 리프트 3. Detect Rate 4. Throughput
A) 4. Throughput
*데이터마이닝 : 정확도, 정밀도, Detect Rate, Lift
**시뮬레이션 : Throughput, Average Waiting Time, Average Queue Length, Time in System
반응형