-
[빅데이터분석기사 필기 요약] [빅분기 3과목 요약] III. 빅데이터 모델링 - 요약 (2)자격증/빅데이터분석기사-필기 2021. 4. 13. 20:38728x90반응형
[빅데이터분석기사 필기 3과목] III. 빅데이터 모델링
02. 분석기법 적용 - [1] 분석기법
- 회귀분석: 1개 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계기법
- 변수들 사이의 인과관계를 밝히고 모형을 적합하여, 관심있는 변수를 예측/추론하기 위한 분석방법
회귀모형 가정 회귀모형 검증 선형성 독립변수-종속변수 관계 선형 통계적 유의미 F-통계량, p-value 독립성 잔차-독립변수 값 관계없음 회귀계수 유의미 T-통계량, p-value, 신뢰구간 등분산성 오차들의 분산 일정 모형의 설명력 결정계수(R²) 비상관성 오차들끼리 상관없음 모형이 데이터를 적합 잔차 그래프 정상성 오차항이 정규분포 이룸 데이터가 가정 만족 5개 가정 - 편차 vs. 오차 vs. 잔차
편차 Deviation 오차 Error 잔차 Residual 평균과의 차이
= 관측값-평균값 차이
= 관측값이 평균에서 떨어져 있는 정도모집단에서
실젯값과 회귀선의 차이
= 예측값이 정확하지 못한 정도표본집단에서
관측값과 회귀선의 차이
= 추정된 값을 설명하지 못하고 남은 편차- 회귀분석 유형: 단순/ 다중/ 다항/ 곡선/ 로지스틱/ 비선형
단순회귀 다중회귀 다항회귀 곡선회귀 로지스틱회귀 비선형회귀 독립변수 1개
직선독립변수 K개
선형 (1차함수)관계가
1차함수 이상독립변수 1개
곡선종속변수
범주형(2진변수)회귀식 모양이
선형이 아님- 단순선형/ 다중선형/ 로지스틱 회귀분석
- 선형회귀의 문제점: 0 이하 or 1 이상의 값을 예측값으로 줄 수 있으므로, 확률값으로 직접 해석할 수 없음
단순선형 회귀분석 다중선형 회귀분석 로지스틱 회귀분석 회귀식 y=β₀+β₁Xi+ei 회귀식 y=β₀+β₁X₁+...+e 승산(Odds) p / (1-p) 독립변수 1개 독립변수 여러 개 독립변수 범주형 종속변수 1개 종속변수 1개 회귀계수 β₁ > 0 S자 모양 독립-종속관계 선형관계 통계적 유의성 F통계량=MSR/MSE β₁ < 0 역 S자 모양 오차항 독립적 N(0,σ²) F-통계량↑ p-value ↓ R-모형적합 glm() 최소제곱법 최소의 오차제곱합 다중공선성 분산팽창요인 VIF R-탐색적분석 cdplot() 결정계수 R²=SSR/SST (0~1) 변수선택방법 전진/후진/단계적 R-변수선택 step() 용어 설명 최소제곱법 오차제곱합이 최소가 되는 회귀계수를 찾는다 (계수 = 식 앞에 곱해지는 상수) 제곱합 SST=전체제곱합/ SSE=오차제곱합/ SSR=회귀제곱합 결정계수
R² = SSR/SST- 전체 데이터를 회귀모형이 얼마나 잘 설명하고 있는지 보여주는 지표
- 독립변수가 종속변수 변동의 몇 %를 설명하는지 나타내는 지표
- 회귀선의 정확도를 평가함수정된 결정계수 독립변수 개수가 많아지면 결정계수가 높아지는 단점을 보완 다중공선성 독립변수들 사이의 선형관계가 있는지 확인
→ 변수제거/ 주성분회귀/ 능형회귀
- 의사결정나무 (Decision Tree)
- 데이터들이 가진 속성들로부터 분할기준 속성을 판별하고,
분할기준 속성에 따라서 트리형태로 모델링하는 분류 예측 모델
- 분류함수를 활용하여, 의사결정규칙으로 이루어진 나무모양을 그리는 기법
- 연속적으로 발생하는 의사결정문제를 직접적으로 시각화하여, 결정이 이루어지는 시점&결과파악을 쉽게 해줌 - 의사결정나무 종류/ 활용/ 장단점
종류 활용 장점 단점 분류 나무 (분류) 세분화/ 분류 해석의 용이성 비연속성 회귀 나무 (예측) 예측 상호작용 효과 해석 가능 비안정성 차원축소 및 변수선택 비모수적 모형 (가정필요X) 선형성/ 주효과 결여 교호작용 효과파악 유연성&정확도 높음 - 의사결정나무 구성요소: 부모마디/ 자식마디/ 뿌리마디/ 끝마디/ 중간마디/ 가지/ 깊이
부모 마디 자식 마디 뿌리 마디 끝 마디=잎 노드 중간 마디 가지 깊이 상위에
위치함분리됨
2개이상시작 마디
전체포함자식 없음 부모,자식
둘다 있음뿌리-끝까지
연결된 마디들뿌리-끝까지
중간마디 개수- 의사결정나무 분석과정: 성장 - 가지치기 - 타당성평가 - 해석&예측
성장 Growing 가지치기 Pruning 타당성 평가 해석 및 예측 - 적절한 분리규칙을 찾아
나무를 성장시키는 과정
- 정지규칙을 만족하면 중단과대/과소적합 방지 위해
불필요한 가지를 제거
- 오류 크게할 위험 높음
- 부적절한 추론규칙 가짐교차 타당성 등을 이용함
- 이익도표/ 위험도표
- 시험자료 등을 활용- 구축된 모형을 해석
- 분류&예측에 활용- 의사결정나무 성장: X들로 이루어진 입력공간을 재귀적으로 분할하는 과정
분리 기준 분류 규칙 정지 규칙 순수도 (Purity) - 자식마디들이 형성될 때,
입력변수 선택&범주 병합이
이루어질 기준
- 목표변수의 분포를 가장 잘
구별해주는 기준으로 분리- 각 단계에서 최적분리기준에
의한 분할을 찾는 과정 반복!
- 최적 분할은 불순도 감소량을
가장 크게 하는 분할- 현재 마디가 끝 마디가
되도록 하는 규칙
- (ex1) 나무 깊이 지정
- (ex2) 끝마디 자료
최소개수 지정목표변수의 특정범주에
개체들이 포함되어있는 정도
목표변수의 분포를 가장 잘
구별해주는 기준으로 분리하면
부모보다 자식에서 순수도↑- 목표변수에 따른 분리 기준
이산형 목표변수에서 사용 연속형 목표변수에서 사용 카이제곱 통계량의 p-값 ↓ 기댓값과 실젯값의 차이 분산분석의 F-통계량 ↑ p-값 최소화 지니 지수 ↓ 노드 불순도를 나타냄 분산의 감소량 ↑ 예측오차 최소화 엔트로피 지수 ↓ 열역학에서 무질서 정도 - 의사결정나무 알고리즘: CART/ C4.5 & C5.0/ CHAID/ QUEST
CART C4.0 & C5.0 CHAID QUEST - 독립변수 이분화 반복
- 이진 트리형태로 분류
- 가장 널리 사용됨- 목표변수는 반드시 범주형
- 범주 개수만큼 분리
- 가지치기에서 학습자료 사용- 입력변수는 반드시 범주형
- 가지치기 X
- 적당한 크기에서 성장 중지- 편향문제 있는 CART 개선
- 변수선택 편향 없음
- 분리규칙을 2단계로 나눔- 이산: 지니 지수
- 연속: 분산 감소량- 기준: 엔트로피 지수 - 카이제곱 통계량
- F-통계량- 카이제곱 통계량
- F-통계량- 분리: 이진 - 분리: 다지 - 분리: 다지 - 분리: 이진
- 인공신경망 (ANN): 사람 두뇌의 신경세포인 뉴런의 전기신호 전달을 모방을 기계학습 모델
- 변수가 많은 경우/ 복잡한 비선형 관계인 경우에 유용한 모델/ 잡음에 민감 X - 활성화 함수/ 활성 함수: 입력신호의 총합을 출력신호로 변환하는 함수 (얼마나 출력할지 & 활성화 여부를 결정함)
<1세대> 퍼셉트론 등장 <2세대> 다층 퍼셉트론 등장 <3세대> 인공지능 부각 퍼셉트론 (Perceptron)
- 최초의 인공신경망: 입력층+출력층다층 퍼셉트론 (MLP)
- 하나 이상의 은닉층
- 비선형적 분리 가능인공지능 & 빅데이터
- CNN, RNN 등의 딥러닝 기술
- 빅데이터의 수집&분석 가능순방향 신경망: 입력-은닉-출력
- 선형 분류 가능역전파 알고리즘: 출력-은닉-입력
- 오차를 최소화시키도록 학습 진행기울기 소실 해결: tanh, ReLU
- Leaky ReLU, Softmax 등으로 발전XOR 선형 분리 불가 문제
- 선형 분류만 가능한 퍼셉트론으로
XOR 연산을 할 수 없다!기울기 소실 (사라지는 경사)
- 활성함수: 시그모이드 함수
- 편미분 반복하면 기울기가 0에 수렴딥러닝 기술 발전
- CNN: 컨볼루션/ 합성곱 신경망
- RNN: 순환 신경망- 퍼셉트론: 입력값 - 가중치 - 순 입력함수 - 활성함수 - 출력값/예측값 (-1 or 1)
퍼셉트론 구성 활성화 함수 종류 입력값 훈련 데이터 계단함수: 1 or 0 부호함수: +1 or -1 순 입력함수 입력값-가중치 곱하고 모두 합함 시그모이드 함수 기울기소실 원인 (0~1) 활성함수 순 입력함수 값과 임계값 비교 하이퍼볼릭 탄젠트 함수 기울기소실 해결! 출력값 -1 또는 +1를 출력 ReLU 함수 기울기소실 해결/ 뉴런 죽음 가중치 업데이트 예측값-실제값 다르면 업데이트 Leaky ReLU ReLU의 뉴런이 죽는문제 해결!
- 서포트 벡터 머신 (SVM): 데이터들과 거리가 가장 먼 초평면을 선택하여 분리하는, 지도학습기반의 이진선형 분류모델
SVM 구성요소 SVM 특징 초평면 Hyperplane n차원 공간의 (n-1)차원 평면 최적의 분리 초평면 마진 최대화시키는 결정경계 결정 경계 데이터 분류의 기준 훈련시간↑ 정확도↑ 과대적합 가능성↓ 서포트 벡터 결정 경계와 가장 가까운
데이터들의 집합변수 속성 - 모든 속성을 활용O
- 속성간 의존성 고려X마진 (여유공간) 결정 경계-서포트 벡터간 거리 활용 사물/패턴/손글씨숫자 인식 슬랙변수 (여유변수) 허용된 오차를 위한 변수 소프트 마진 SVM 어느정도의 오분류를 허용O - 서포트 벡터 머신 적용기준: 선형 분리가 가능하면 +1과 -1로 분류/ 선형 분리 불가능하면 커널 트릭을 활용함
커널 트릭 Kernel Trick 커널 함수 2차원에서 분류 불가능 → 3차원공간에 매핑하여 선형분류 저차원에서 함수계산만으로 원하는 풀이가 가능함 고차원공간으로 매핑하면서 증가하는 연산복잡성을 해결 가우시안 RBF커널/ 다항식 커널/ 시그모이드 커널 등
- 연관성 분석: 데이터 내부에 존재하는 항목간의 상호관계/ 종속관계를 찾아내는 분석기법 (장바구니 분석)
- 목적변수 없음/ 조건-반응으로 표현됨
- 향상도=1이면 서로 독립
향상도>1이면 양의 상관관계/ 향상도<1이면 음의 상관관계
지지도 Support 신뢰도 Confidence 향상도 Lift A, B를 동시 구매한 비율 조건부 확률: A구매 → B구매 거래간 연관성 정도 P(A⋂B) P(A⋂B) / P(A) P(A⋂B) / P(A)P(B)
- 군집 분석 (Clustering Analysis):
여러 개의 관측값들로부터 유사성에만 기초하여,
n개의 군집으로 집단화하여 집단의 특성을 분석하는 다변량 분석기법 - 군집분석 종류: 계층적 군집/ 비 계층적 군집/ 혼합분포 군집/ 자기조직화지도 등
계층적 군집: 군집개수 정하지 않음 비 계층적 군집: 군집개수 K 미리 정함 병합적 방법: 작은 군집 → 병합해나감 K-평균 군집: k개의 군집 묶음 → 군집평균 재계산 → 반복 분할적 방법: 큰 군집(전체) → 분리해나감 혼합분포 군집: 모수적 모형 기반 군집화 방법 계통도/ 덴드로그램: 결합되는 순서를 나타내는 트리형태 구조 자기 조직화 지도: 비지도 신경망 클러스터링 - 계층적 군집: 유사한 개체를 군집화하는 과정을 반복하여 군집을 형성함
- 군집 간의 거리측정 방법: 개체간 유사성/거리 측정을 위한 방법들 - 최단/ 최장/ 중심/ 평균/ 와드연결법
최단 연결법 최장 연결법 중심 연결법 평균 연결법 와드 연결벌 최솟값으로 측정 최댓값으로 측정 두 군집 중심간 거리 모든항목의 거리평균 군집 내 오차제곱합 - 군집 간의 거리계산:
- 연속형변수 - 수학적거리: 유클리드/ 맨하튼/ 민코프스키
- 연속형변수 - 통계적거리: 표준화/ 마할라노비스
- 명목형변수 - 단순일치/ 자카드계수
- 순서형변수 - 순위상관계수
연속형 변수 거리 명목형 변수 거리 유클리드 거리 차이값들의 제곱합을 제곱근 단순일치 계수 일치하는 속성 / 전체 속성 맨하튼 거리 절댓값들의 합 자카드 계수 유사도 측정 (0~1) 민코프스키 거리 m차원 민코프스키 공간 순위상관 계수 순서형 자료/ 순위 매김 표준화 거리 측정단위를 표준화 마할라노비스 거리 표준화+상관성 동시에 고려 - K-평균 군집: 주어진 데이터를 K개의 군집으로 묶는 알고리즘 (K개 객체선택 - 할당 - 중심갱신 - 반복)
절차: 중심 갱신 반복 단점: 이상값에 민감 - 각 군집 내 자료들의 평균을 계산하여 중심을 갱신
- 중심 변화가 거의 없을 때 or 최대 반복 수까지 반복- 보완방법1: 이상값 미리 제거
- 보완방법2: K-중앙값 군집화- 혼합분포 군집:
데이터가 k개의 모수적 모형의 가중합으로 표현되는
모집단 모형에서 나왔다는 가정 하에, 모수&가중치를 추정
혼합분포 군집화 방법 혼합모형 = M개 분포의 가중합 EM 알고리즘 (기댓값 최대화) 추정된 k개의 모형(군집)들 중에서
어느 모형(군집)에서 나왔을 확률이
높은지에 따라서 군집을 분류한다- 단일모형보다 복잡한 표현식
- 최대가능도 추정을 위해서
EM 알고리즘을 활용한다E-step: 잠재변수 Z의 기댓값 계산
M-step: 기댓값 이용하여 파라미터 추정
E-M-E-M-... 반복!- 자기 조직화 지도 (SOM)
대뇌피질&시각피질의 학습과정을 기반으로 모델화한 비지도 신경망 클러스터링 기법
자기조직화지도 특징 입력층 Input Layer 경쟁층 Competitive Layer 경쟁학습 & 승자독식구조 입력벡터를 받는 층 2차원 m×m격자로 구성된 층 고차원데이터를 저차원뉴런으로 정렬 입력층-경쟁층의 뉴런들은 완전 연결 입력벡터 특성에 따라, 한 점으로 군집화 지도 형태로 형상화 지도: 입력층에서 학습→경쟁층에 정렬 경쟁학습으로 연결강도 재조정을 반복 입력변수의 위치관계를 그대로 보존 경쟁층에 승자 뉴런만 나타남
참고 도서: 빅데이터분석기사 필기_수제비 2021
728x90반응형'자격증 > 빅데이터분석기사-필기' 카테고리의 다른 글
[빅데이터분석기사 필기 요약] [빅분기 4과목 요약] IV. 빅데이터 결과 해석 - 요약 (1) (1) 2021.04.15 [빅데이터분석기사 필기 요약] [빅분기 3과목 요약] III. 빅데이터 모델링 - 요약 (3) (0) 2021.04.14 [빅데이터분석기사 필기 요약] [빅분기 3과목 요약] III. 빅데이터 모델링 - 요약 (1) (2) 2021.04.12 [빅데이터분석기사 필기 요약] [빅분기 2과목 요약] II. 빅데이터 탐색 - 요약 (2) (0) 2021.04.11 [빅데이터분석기사 필기 요약] [빅분기 2과목 요약] II. 빅데이터 탐색 - 요약 (1) (0) 2021.04.11