[빅데이터분석기사 필기 요약] [빅분기 3과목 요약] III. 빅데이터 모델링 - 요약 (2) :: 서윤로그

ABOUT ME

-

Today: -

Yesterday: -

Total: -

[빅데이터분석기사 필기 요약] [빅분기 3과목 요약] III. 빅데이터 모델링 - 요약 (2)

자격증/빅데이터분석기사-필기 2021. 4. 13. 20:38

728x90

[빅데이터분석기사 필기 3과목] III. 빅데이터 모델링

02. 분석기법 적용 - [1] 분석기법

회귀분석: 1개 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계기법
변수들 사이의 인과관계를 밝히고 모형을 적합하여, 관심있는 변수를 예측/추론하기 위한 분석방법

회귀모형 가정		회귀모형 검증
선형성	독립변수-종속변수 관계 선형	통계적 유의미	F-통계량, p-value
독립성	잔차-독립변수 값 관계없음	회귀계수 유의미	T-통계량, p-value, 신뢰구간
등분산성	오차들의 분산 일정	모형의 설명력	결정계수(R²)
비상관성	오차들끼리 상관없음	모형이 데이터를 적합	잔차 그래프
정상성	오차항이 정규분포 이룸	데이터가 가정 만족	5개 가정

편차 vs. 오차 vs. 잔차

편차 Deviation	오차 Error	잔차 Residual
평균과의 차이 = 관측값-평균값 차이 = 관측값이 평균에서 떨어져 있는 정도	모집단에서 실젯값과 회귀선의 차이 = 예측값이 정확하지 못한 정도	표본집단에서 관측값과 회귀선의 차이 = 추정된 값을 설명하지 못하고 남은 편차

회귀분석 유형: 단순/ 다중/ 다항/ 곡선/ 로지스틱/ 비선형

단순회귀	다중회귀	다항회귀	곡선회귀	로지스틱회귀	비선형회귀
독립변수 1개 직선	독립변수 K개 선형 (1차함수)	관계가 1차함수 이상	독립변수 1개 곡선	종속변수 범주형(2진변수)	회귀식 모양이 선형이 아님

단순선형/ 다중선형/ 로지스틱 회귀분석
선형회귀의 문제점: 0 이하 or 1 이상의 값을 예측값으로 줄 수 있으므로, 확률값으로 직접 해석할 수 없음

단순선형 회귀분석		다중선형 회귀분석		로지스틱 회귀분석
회귀식	y=β₀+β₁Xi+ei	회귀식	y=β₀+β₁X₁+...+e	승산(Odds)	p / (1-p)
독립변수	1개	독립변수	여러 개	독립변수	범주형
종속변수	1개	종속변수	1개	회귀계수 β₁ > 0	S자 모양
독립-종속관계	선형관계	통계적 유의성	F통계량=MSR/MSE	β₁ < 0	역 S자 모양
오차항	독립적 N(0,σ²)	F-통계량↑	p-value ↓	R-모형적합	glm()
최소제곱법	최소의 오차제곱합	다중공선성	분산팽창요인 VIF	R-탐색적분석	cdplot()
결정계수	R²=SSR/SST (0~1)	변수선택방법	전진/후진/단계적	R-변수선택	step()

용어	설명
최소제곱법	오차제곱합이 최소가 되는 회귀계수를 찾는다 (계수 = 식 앞에 곱해지는 상수)
제곱합	SST=전체제곱합/ SSE=오차제곱합/ SSR=회귀제곱합
결정계수 R² = SSR/SST	- 전체 데이터를 회귀모형이 얼마나 잘 설명하고 있는지 보여주는 지표 - 독립변수가 종속변수 변동의 몇 %를 설명하는지 나타내는 지표 - 회귀선의 정확도를 평가함
수정된 결정계수	독립변수 개수가 많아지면 결정계수가 높아지는 단점을 보완
다중공선성	독립변수들 사이의 선형관계가 있는지 확인 → 변수제거/ 주성분회귀/ 능형회귀

의사결정나무 (Decision Tree)
- 데이터들이 가진 속성들로부터 분할기준 속성을 판별하고,
분할기준 속성에 따라서 트리형태로 모델링하는 분류 예측 모델
- 분류함수를 활용하여, 의사결정규칙으로 이루어진 나무모양을 그리는 기법
- 연속적으로 발생하는 의사결정문제를 직접적으로 시각화하여, 결정이 이루어지는 시점&결과파악을 쉽게 해줌
의사결정나무 종류/ 활용/ 장단점

종류	활용	장점	단점
분류 나무 (분류)	세분화/ 분류	해석의 용이성	비연속성
회귀 나무 (예측)	예측	상호작용 효과 해석 가능	비안정성
	차원축소 및 변수선택	비모수적 모형 (가정필요X)	선형성/ 주효과 결여
	교호작용 효과파악	유연성&정확도 높음

의사결정나무 구성요소: 부모마디/ 자식마디/ 뿌리마디/ 끝마디/ 중간마디/ 가지/ 깊이

부모 마디	자식 마디	뿌리 마디	끝 마디=잎 노드	중간 마디	가지	깊이
상위에 위치함	분리됨 2개이상	시작 마디 전체포함	자식 없음	부모,자식 둘다 있음	뿌리-끝까지 연결된 마디들	뿌리-끝까지 중간마디 개수

의사결정나무 분석과정: 성장 - 가지치기 - 타당성평가 - 해석&예측

성장 Growing	가지치기 Pruning	타당성 평가	해석 및 예측
- 적절한 분리규칙을 찾아 나무를 성장시키는 과정 - 정지규칙을 만족하면 중단	과대/과소적합 방지 위해 불필요한 가지를 제거 - 오류 크게할 위험 높음 - 부적절한 추론규칙 가짐	교차 타당성 등을 이용함 - 이익도표/ 위험도표 - 시험자료 등을 활용	- 구축된 모형을 해석 - 분류&예측에 활용

의사결정나무 성장: X들로 이루어진 입력공간을 재귀적으로 분할하는 과정

분리 기준	분류 규칙	정지 규칙	순수도 (Purity)
- 자식마디들이 형성될 때, 입력변수 선택&범주 병합이 이루어질 기준 - 목표변수의 분포를 가장 잘 구별해주는 기준으로 분리	- 각 단계에서 최적분리기준에 의한 분할을 찾는 과정 반복! - 최적 분할은 불순도 감소량을 가장 크게 하는 분할	- 현재 마디가 끝 마디가 되도록 하는 규칙 - (ex1) 나무 깊이 지정 - (ex2) 끝마디 자료 최소개수 지정	목표변수의 특정범주에 개체들이 포함되어있는 정도 목표변수의 분포를 가장 잘 구별해주는 기준으로 분리하면 부모보다 자식에서 순수도↑

목표변수에 따른 분리 기준

이산형 목표변수에서 사용		연속형 목표변수에서 사용
카이제곱 통계량의 p-값 ↓	기댓값과 실젯값의 차이	분산분석의 F-통계량 ↑	p-값 최소화
지니 지수 ↓	노드 불순도를 나타냄	분산의 감소량 ↑	예측오차 최소화
엔트로피 지수 ↓	열역학에서 무질서 정도

의사결정나무 알고리즘: CART/ C4.5 & C5.0/ CHAID/ QUEST

CART	C4.0 & C5.0	CHAID	QUEST
- 독립변수 이분화 반복 - 이진 트리형태로 분류 - 가장 널리 사용됨	- 목표변수는 반드시 범주형 - 범주 개수만큼 분리 - 가지치기에서 학습자료 사용	- 입력변수는 반드시 범주형 - 가지치기 X - 적당한 크기에서 성장 중지	- 편향문제 있는 CART 개선 - 변수선택 편향 없음 - 분리규칙을 2단계로 나눔
- 이산: 지니 지수 - 연속: 분산 감소량	- 기준: 엔트로피 지수	- 카이제곱 통계량 - F-통계량	- 카이제곱 통계량 - F-통계량
- 분리: 이진	- 분리: 다지	- 분리: 다지	- 분리: 이진

인공신경망 (ANN): 사람 두뇌의 신경세포인 뉴런의 전기신호 전달을 모방을 기계학습 모델
- 변수가 많은 경우/ 복잡한 비선형 관계인 경우에 유용한 모델/ 잡음에 민감 X
활성화 함수/ 활성 함수: 입력신호의 총합을 출력신호로 변환하는 함수 (얼마나 출력할지 & 활성화 여부를 결정함)

<1세대> 퍼셉트론 등장	<2세대> 다층 퍼셉트론 등장	<3세대> 인공지능 부각
퍼셉트론 (Perceptron) - 최초의 인공신경망: 입력층+출력층	다층 퍼셉트론 (MLP) - 하나 이상의 은닉층 - 비선형적 분리 가능	인공지능 & 빅데이터 - CNN, RNN 등의 딥러닝 기술 - 빅데이터의 수집&분석 가능
순방향 신경망: 입력-은닉-출력 - 선형 분류 가능	역전파 알고리즘: 출력-은닉-입력 - 오차를 최소화시키도록 학습 진행	기울기 소실 해결: tanh, ReLU - Leaky ReLU, Softmax 등으로 발전
XOR 선형 분리 불가 문제 - 선형 분류만 가능한 퍼셉트론으로 XOR 연산을 할 수 없다!	기울기 소실 (사라지는 경사) - 활성함수: 시그모이드 함수 - 편미분 반복하면 기울기가 0에 수렴	딥러닝 기술 발전 - CNN: 컨볼루션/ 합성곱 신경망 - RNN: 순환 신경망

퍼셉트론: 입력값 - 가중치 - 순 입력함수 - 활성함수 - 출력값/예측값 (-1 or 1)

퍼셉트론 구성		활성화 함수 종류
입력값	훈련 데이터	계단함수: 1 or 0	부호함수: +1 or -1
순 입력함수	입력값-가중치 곱하고 모두 합함	시그모이드 함수	기울기소실 원인 (0~1)
활성함수	순 입력함수 값과 임계값 비교	하이퍼볼릭 탄젠트 함수	기울기소실 해결!
출력값	-1 또는 +1를 출력	ReLU 함수	기울기소실 해결/ 뉴런 죽음
가중치 업데이트	예측값-실제값 다르면 업데이트	Leaky ReLU	ReLU의 뉴런이 죽는문제 해결!

서포트 벡터 머신 (SVM): 데이터들과 거리가 가장 먼 초평면을 선택하여 분리하는, 지도학습기반의 이진선형 분류모델

SVM 구성요소		SVM 특징
초평면 Hyperplane	n차원 공간의 (n-1)차원 평면	최적의 분리 초평면	마진 최대화시키는 결정경계
결정 경계	데이터 분류의 기준	훈련시간↑	정확도↑ 과대적합 가능성↓
서포트 벡터	결정 경계와 가장 가까운 데이터들의 집합	변수 속성	- 모든 속성을 활용O - 속성간 의존성 고려X
마진 (여유공간)	결정 경계-서포트 벡터간 거리	활용	사물/패턴/손글씨숫자 인식
슬랙변수 (여유변수)	허용된 오차를 위한 변수	소프트 마진 SVM	어느정도의 오분류를 허용O

서포트 벡터 머신 적용기준: 선형 분리가 가능하면 +1과 -1로 분류/ 선형 분리 불가능하면 커널 트릭을 활용함

커널 트릭 Kernel Trick	커널 함수
2차원에서 분류 불가능 → 3차원공간에 매핑하여 선형분류	저차원에서 함수계산만으로 원하는 풀이가 가능함
고차원공간으로 매핑하면서 증가하는 연산복잡성을 해결	가우시안 RBF커널/ 다항식 커널/ 시그모이드 커널 등

연관성 분석: 데이터 내부에 존재하는 항목간의 상호관계/ 종속관계를 찾아내는 분석기법 (장바구니 분석)
목적변수 없음/ 조건-반응으로 표현됨
향상도=1이면 서로 독립
향상도>1이면 양의 상관관계/ 향상도<1이면 음의 상관관계

지지도 Support	신뢰도 Confidence	향상도 Lift
A, B를 동시 구매한 비율	조건부 확률: A구매 → B구매	거래간 연관성 정도
P(A⋂B)	P(A⋂B) / P(A)	P(A⋂B) / P(A)P(B)

군집 분석 (Clustering Analysis):
여러 개의 관측값들로부터 유사성에만 기초하여,
n개의 군집으로 집단화하여 집단의 특성을 분석하는 다변량 분석기법
군집분석 종류: 계층적 군집/ 비 계층적 군집/ 혼합분포 군집/ 자기조직화지도 등

계층적 군집: 군집개수 정하지 않음	비 계층적 군집: 군집개수 K 미리 정함
병합적 방법: 작은 군집 → 병합해나감	K-평균 군집: k개의 군집 묶음 → 군집평균 재계산 → 반복
분할적 방법: 큰 군집(전체) → 분리해나감	혼합분포 군집: 모수적 모형 기반 군집화 방법
계통도/ 덴드로그램: 결합되는 순서를 나타내는 트리형태 구조	자기 조직화 지도: 비지도 신경망 클러스터링

계층적 군집: 유사한 개체를 군집화하는 과정을 반복하여 군집을 형성함
군집 간의 거리측정 방법: 개체간 유사성/거리 측정을 위한 방법들 - 최단/ 최장/ 중심/ 평균/ 와드연결법

최단 연결법	최장 연결법	중심 연결법	평균 연결법	와드 연결벌
최솟값으로 측정	최댓값으로 측정	두 군집 중심간 거리	모든항목의 거리평균	군집 내 오차제곱합

군집 간의 거리계산:
- 연속형변수 - 수학적거리: 유클리드/ 맨하튼/ 민코프스키
- 연속형변수 - 통계적거리: 표준화/ 마할라노비스
- 명목형변수 - 단순일치/ 자카드계수
- 순서형변수 - 순위상관계수

연속형 변수 거리		명목형 변수 거리
유클리드 거리	차이값들의 제곱합을 제곱근	단순일치 계수	일치하는 속성 / 전체 속성
맨하튼 거리	절댓값들의 합	자카드 계수	유사도 측정 (0~1)
민코프스키 거리	m차원 민코프스키 공간	순위상관 계수	순서형 자료/ 순위 매김
표준화 거리	측정단위를 표준화
마할라노비스 거리	표준화+상관성 동시에 고려

K-평균 군집: 주어진 데이터를 K개의 군집으로 묶는 알고리즘 (K개 객체선택 - 할당 - 중심갱신 - 반복)

절차: 중심 갱신 반복	단점: 이상값에 민감
- 각 군집 내 자료들의 평균을 계산하여 중심을 갱신 - 중심 변화가 거의 없을 때 or 최대 반복 수까지 반복	- 보완방법1: 이상값 미리 제거 - 보완방법2: K-중앙값 군집화

혼합분포 군집:
데이터가 k개의 모수적 모형의 가중합으로 표현되는
모집단 모형에서 나왔다는 가정 하에, 모수&가중치를 추정

혼합분포 군집화 방법	혼합모형 = M개 분포의 가중합	EM 알고리즘 (기댓값 최대화)
추정된 k개의 모형(군집)들 중에서 어느 모형(군집)에서 나왔을 확률이 높은지에 따라서 군집을 분류한다	- 단일모형보다 복잡한 표현식 - 최대가능도 추정을 위해서 EM 알고리즘을 활용한다	E-step: 잠재변수 Z의 기댓값 계산 M-step: 기댓값 이용하여 파라미터 추정 E-M-E-M-... 반복!

자기 조직화 지도 (SOM)
대뇌피질&시각피질의 학습과정을 기반으로 모델화한 비지도 신경망 클러스터링 기법

자기조직화지도 특징	입력층 Input Layer	경쟁층 Competitive Layer
경쟁학습 & 승자독식구조	입력벡터를 받는 층	2차원 m×m격자로 구성된 층
고차원데이터를 저차원뉴런으로 정렬	입력층-경쟁층의 뉴런들은 완전 연결	입력벡터 특성에 따라, 한 점으로 군집화
지도 형태로 형상화	지도: 입력층에서 학습→경쟁층에 정렬	경쟁학습으로 연결강도 재조정을 반복
입력변수의 위치관계를 그대로 보존		경쟁층에 승자 뉴런만 나타남

참고 도서: 빅데이터분석기사 필기_수제비 2021

728x90

'자격증 > 빅데이터분석기사-필기' 카테고리의 다른 글

[빅데이터분석기사 필기 요약] [빅분기 4과목 요약] IV. 빅데이터 결과 해석 - 요약 (1) (2)	2021.04.15
[빅데이터분석기사 필기 요약] [빅분기 3과목 요약] III. 빅데이터 모델링 - 요약 (3) (0)	2021.04.14
[빅데이터분석기사 필기 요약] [빅분기 3과목 요약] III. 빅데이터 모델링 - 요약 (1) (2)	2021.04.12
[빅데이터분석기사 필기 요약] [빅분기 2과목 요약] II. 빅데이터 탐색 - 요약 (2) (0)	2021.04.11
[빅데이터분석기사 필기 요약] [빅분기 2과목 요약] II. 빅데이터 탐색 - 요약 (1) (0)	2021.04.11

관련글 관련글 더보기

300x250

인기포스트

ABOUT ME

미래의 나를 위한 아카이빙 블로그 (E-mail: leesymiu@gmail.com)

LINK

ADMIN

티스토리툴바