-
[빅데이터분석기사 필기 요약] III.빅데이터 모델링 - 01. 분석 모형 설계 (1)자격증/빅데이터분석기사-필기 2021. 3. 17. 23:22728x90반응형
빅데이터분석기사 필기 요약
🔑 분석모형/ 통계기반/ 기술통계/ 상관분석/ 회귀분석/ 분산분석/ 주성분분석/ 판별분석/
데이터마이닝/ 분류/ 예측/ 군집화/ 연관규칙/ 머신러닝/ 지도학습/ 비지도학습
III. 빅데이터 모델링
01. 분석 모형 설계
1. 분석 절차 수립
1. 분석 절차 수립
[1] 분석 모형 선정
- 분석 목적 부합 & 데이터 변수 고려 → 분석 모형 선정
- 모형(모델): 객체/ 시스템/ 개념에 대한 구조나 작업을 보여주기 위한 패턴/ 계획/ 설명
- 탐색적 데이터 분석 (EDA): 현상에서 패턴 발견
- 통계적 추론: 현상에서 결론 도출
- 기계학습: 현상을 예측
빅데이터 분석 모형 통계 기반 데이터마이닝 기반 머신러닝 기반 기술통계
상관분석
회귀분석
분산분석
주성분분석
판별분석<분류>
통계적기법 - 로지스틱회귀, 판별분석
트리기반기법 - CART알고리즘
최적화기법 - 서포트벡터머신
기계학습 - 역전파알고리즘
<예측>
회귀분석
의사결정나무
시계열분석
인공신경망
군집화 - 계층적/비계층적
연관규칙 모델 (장바구니분석)<지도학습>
로지스틱회귀
인공신경망
의사결정나무
서포트벡터머신
랜덤포레스트
감성분석
<비지도학습>
군집화
차원축소기법
연관관계분석
인공신경망 (자기조직화지도)
(1) 통계기반 분석 모형 선정 | 기술통계/ 상관분석/ 회귀분석/ 분산분석/ 주성분분석/ 판별분석
- 통계분석
- 불확실한 상황에서
- 객관적인 의사결정을 수행하기 위해
- 데이터를 수집, 처리, 분류, 분석, 해석하는 일련의 체계 - 기술통계 (Descriptive Statistics): 분석 초기에 데이터를 확률/통계적으로 정리/요약하는 기초적인 통계
- 통계적 수치: 평균/ 분산/ 표준편차/ 왜도/ 첨도/ 빈도 등
- 그래프 활용: 막대그래프/ 파이그래프 등
- 상관분석 (Correlation Analysis): 2개 이상의 변수간 상호연관성의 정도를 측정
- 단순 상관분석: 2개 변수 사이의 연관관계
- 다중 상관분석: 3개 이상의 변수 사이의 연관관계
- 변수간 상관분석: 수치적/ 명목적/ 순서적 데이터 변수간 분석
- 회귀분석 (Regression Analysis): 1개 이상의 독립변수가 종속변수에 미치는 영향을 추정
- 단순 회귀: 독립변수 1개/ 직선관계
- 다중 회귀: 독립변수 2개 이상/ 선형관계
- 다항 회귀: (독립변수 1개/ 2차함수 이상) or (독립변수 2개/ 1차함수 이상)
- 곡선 회귀: 독립변수 1개/ 곡선관계
- 로지스틱 회귀: 종속변수 범주형 (단순/다중/다항)
- 비선형 회귀: 선형관계X
- 분산분석 (ANOVA): 2개 이상의 집단간 비교 (분산 비교)
- 일원 분산분석: 독립변수 1개/ 종속변수 1개
- 이원 분산분석: 독립변수 2개/ 종속변수 1개
- 다변량 분석분석: 종속변수 2개 이상
- 주성분분석 (PCA): 주성분 변수를 원래 변수들의 선형결합으로 추출하는 통계기법
- 일부 주성분에 의해 원래 변수의 변동이 충분히 설명되는가! - 판별분석 (Discriminant Analysis): 집단을 구별할 수 있는 판별규칙/함수 → 새로운 개체가 어떤 집단인지 탐색
(2) 데이터마이닝 기반 분석 모형 선정 | 분류/ 예측/ 군집화/ 연관규칙
- 데이터마이닝 (Data Mining)
- 대용량 데이터로부터
- 데이터 내의 패턴/ 관계/ 규칙 등을 탐색하고,
- 통계적인 기법으로 모델화하여,
- 유용한 정보/ 지식을 추출 - 기술 (Description)
- 사람/상품에 대한 이해를 높이기 위해
- 데이터가 가진 특징을 나타내고
- 설명에 대한 답을 제공
데이터마이닝 기반 분석 모형 분류 모델 예측 모델 군집화 모델 연관규칙 모델 로지스틱 회귀분석/ 판별분석
트리기반방법 (CART 알고리즘)
최적화기법 (서포트벡터머신)
기계학습 (역전파 알고리즘)회귀분석
의사결정나무
시계열분석
인공신경망응집/ 분할분석법
K-평균군집화장바구니분석 - 분류모델 (Classification Model):
로지스틱 회귀분석/ 판별분석/ 트리기반(CART)/ 서포트벡터머신/ 기계학습(인공신경망)
- 분류: 범주/그룹을 예측하는 것 (범주형 or 이산형 변수)
- 트리기반: 의사결정규칙에 따라서, 집단을 몇 개의 소집단으로 분류
- CART 알고리즘: 독립변수 이분화 반복 → 이진트리 형태 형성 → 분류 & 예측
- 기계학습: 경험적인 데이터로부터 스스로 성능을 향상 → 인간의 학습과 같은 능력을 컴퓨터에서 실현하고자 함
- 역전파 알고리즘 (Backpropagation):
출력값이 원하는 출력과 다를 때, 가중치 갱신으로 오차 최소화를 위한 반복 수행
⇒ 오차를 출력계층에서 입력계층으로 역방향으로 반영!
로지스틱 회귀분석 (LR) 서포트 벡터 머신 (SVM) 기계학습 (인공신경망) - 종속변수: 서열형/ 범주형/ 명목형
- 분석 대상이 어느 집단으로 분류되는가!- 최적화 기법/ 이진선형 분류방법
- 데이터와 거리가 가장 먼 초평면 선택
- 초평면(Hyperplane): 데이터 분리!
- 서포트벡터: 초평면에 가장 가까운 점- 기대 출력값과 실제 출력값의 비교 → 오차
- 신경망의 은닉계층에서 가중치 조정
- 가중치 갱신 반복 → 신경망 구조 안정화- 예측모델 (Prediction Model): 회귀분석/ 의사결정나무/ 시계열분석/ 인공신경망
- 예측모델: 과거 데이터로부터 특성 분석 → 새로운(다른) 데이터의 결괏값을 예측
- 회귀분석 (Regression): 2개의 연속형 변수 사이의 모형 생성 → 적합도 측정
- 의사결정나무 (Decision Tree): 의사결정규칙을 트리구조로 도표화
- 용도: 분류 및 예측 모형 & 변수모형 분석 전 이상값 검색 - 시계열 분석 (Time Series Analysis): 시계열로 관측되는 자료 분석 → 미래 예측
- 인공신경망 (ANN): 뉴런이 전기신호를 전달하는 모습을 모방한 예측모델
- 군집화모델 (Clustering Model): 계층적(응집/분할), 비계층적(K-Means)
- 계층적방법: 군집 수 지정 X → 단계적 군집결과 산출
- 응집분석법(객체를 합침), 분할분석법(전체에서 분리) - 비 계층정방법: 군집 수 지정 O → 객체를 한 군집으로 배정
- K-평균 군집화: K개 군집의 중심좌표를 업데이트
- 계층적방법: 군집 수 지정 X → 단계적 군집결과 산출
- 연관규칙 모델 (Association Rule Model):
데이터에 숨어있으면서, 동시에 발생하는 사건/항목 간 규칙을 수치화
- 연관규칙 분석 = 연관규칙 학습 = 연관성 분석 = 장바구니 분석
- 장바구니 분석: 상품 배열/ 카탈로그/ 교차판매 등에 적용
- 항목들 간의 (조건-결과) 식으로 표현되는 유용한 패턴을 발견
(3) 머신러닝 기반 분석 모형 선정 | 지도학습/ 비지도학습
- 분석기법: 목적변수(반응변수) 존재 여부 등에 따라서 지도학습/ 비지도학습/ 강화학습/ 준지도학습
머신러닝 기반 분석 모형 지도학습 비지도학습 로지스틱 회귀
인공신경망 분석
의사결정나무
서포트벡터머신(SVM)
랜덤 포레스트
감성분석군집화
차원축소 기법
연관관계 분석
자율학습 인공신경망(자기조직화지도)- 지도학습 (Supervised Learning): 정답 레이블(Lable)이 포함된 데이터
- 목적
- 설명변수와 목적변수 간 관계성 표현
- 인식/ 분류/ 진단/ 예측 등의 문제해결 - 랜덤 포레스트 (Random Forest): 의사결정나무의 분산이 크다는 단점 보안 → 약한 학습기들을 선형 결합
- 감성분석 (Sentiment Analysis): 어떤 주제에 대한 주관적인 인상/ 감정/ 태도/ 의견들을 텍스트로부터 추출
- 목적
- 비지도학습 (Unsupervised Learning): 정답 레이블이 없는 데이터
- 목적
- 예측보다, 현상 설명/ 특징 도출/ 패턴 도출 문제!
- 사전정보가 없는 상태에서, 유용한 정보와 패턴을 탐색적으로 발견하고자 함 - 자기 조직화 지도 (SOM)
- 비지도 학습기반 클러스터링 기법
- 차원축소와 군집화 동시 수행 → 고차원 데이터를 저차원으로 변환
- 목적
(4) 변수에 따른 분석기법 선정
- 변수의 개수에 따른 분석기법: 단일변수/ 이변수/ 다변수 분석
- 단일변수 분석: 변수 1개 → 기술통계 확인
- 연속형: 히스토그램, 박스플롯
- 범주형: 막대그래프 - 다변수 분석: 변수 3개 이상의 관계 → 시각화/분석
- 범주형 1개 이상 포함: 변수를 범주별로 쪼갬
- 연속형 3개 이상 포함: 연속형을 범주형으로 변환 - 이변수 분석: 변수 2개 관계 → 분석
- 단일변수 분석: 변수 1개 → 기술통계 확인
연속형 ⨉ 연속형 범주형 ⨉ 범주형 범주형 ⨉ 연속형 분석방법 상관 분석
(상관관계 여부)카이제곱 분석
(독립성 여부)2개: T-test
3개: ANOVA
(집단별 평균차이)그래프 산점도 (+추세선) (100% 기준) 누적 막대그래프 누적 막대그래프
범주별 히스토그램- 데이터 유형에 따른 분석기법
- 독립변수 & 종속변수 주어진 경우: 주어진 독립변수에 대한 종속변수 값을 예측/ 분류하는 분석 모델 개발
🔍 종속변수 (Y) 종속변수 연속형 범주형 없음 독립변수 (X) 연속형 회귀분석
인공신경망
K-최근접 이웃로지스틱 회귀분석
판별 분석
K-최근접 이웃주성분 분석
군집 분석범주형 회귀분석
인공신경망
의사결정나무 (회귀나무)로지스틱 회귀분석
인공신경망
의사결정나무 (회귀나무)연관성 규칙
판별 분석(5) 분석기법 선정시 고려사항
- 목적, 데이터 해석가능 여부, 단일 or 앙상블 선택
(6) 분석모형 활용사례
- 연관규칙 학습 (장바구니 분석)
- 콜라를 구매하는 소비자가 사이다를 더 많이 구매하는가?
- 피자를 주문한 고객은 어떤 음료를 많이 주문하는가? - 분류 분석
- 문서 분류/ 조직 그룹핑
- 온라인 수강생들을 특성에 따라 분류 - 유전자 알고리즘: 점진적 진화 → 최적화
- 응급 처치 프로세스를 어떻게 배치하는 것이 가장 효율적인가? - 기계 학습: 알려진 특성을 훈련/ 학습/ 예측
- 회원의 기존 시청기록을 바탕으로, 어떤 영상을 가장 보고싶어 할지 예측 - 회귀 분석: 변수간 인과관계
- 차주의 나이가 차량 유형에 어떤 영향을 미치는가? - 감성 분석: 특정 주제에 대해 말한/서술한 사람의 감정을 분석
- 새로운 제품/서비스에 대한 소비자들의 평가는 어떠한가? - 소셜 네트워크 분석 (SNA):
- 특정인과 다른사람의 관계가 몇 촌인가?
- 영향력 있는 사람은 누구인가?
- 고객들 간 관계망의 구성은 어떠한가?
참고 도서: 빅데이터분석기사 필기_수제비 2021
728x90반응형'자격증 > 빅데이터분석기사-필기' 카테고리의 다른 글
[빅데이터분석기사 필기 요약] III.빅데이터 모델링 - 02. 분석기법 적용 (1) 회귀분석 (0) 2021.03.20 [빅데이터분석기사 필기 요약] III.빅데이터 모델링 - 01. 분석 모형 설계 (2) (0) 2021.03.18 [빅데이터분석기사 필기 요약] II.빅데이터 탐색 - 03. 통계기법 이해 (3) (0) 2021.03.17 [빅데이터분석기사 필기 요약] II.빅데이터 탐색 - 03. 통계기법 이해 (2) (0) 2021.03.17 [빅데이터분석기사 필기 요약] II.빅데이터 탐색 - 03. 통계기법 이해 (1) (0) 2021.03.16