-
[빅데이터분석기사 필기 요약] III.빅데이터 모델링 - 02. 분석기법 적용 (2) 의사결정나무자격증/빅데이터분석기사-필기 2021. 3. 21. 18:10728x90반응형
빅데이터분석기사 필기 요약
🔑 의사결정나무/ 분류함수(분류규칙)/ 분리기준/ 성장/ 가지치기/ 교차타당성/
카이제곱 통계량/ 지니 지수/ 엔트로피 지수/ 순수도/ CART/ C4.5 & C5.0/ CHAID/ QUEST
III. 빅데이터 모델링
02. 분석기법 적용
1. 분석기법
1. 분석기법
[3] 의사결정나무
(1) 의사결정나무 (Decision Tree) | 분류함수를 활용하여, 의사결정규칙으로 이루어진 나무 모양을 그리는 기법
- 의사결정나무
- 데이터가 가진 속성들로부터
- 분할기준 속성을 판별하고,
- 이에 따라 트리형태로 모델링하는
- 분류예측모델 - 분류함수: 분류 기준으로 사용되는 함수
- 새로운 표본이 관측되었을 때
- 이 표본을 여러 모집단 중
- 어떤 하나의 모집단으로 분류하기 위한 함수 - 시각화: 연속적인 의사결정문제 시각화 → 의사결정 이루어지는 시점/ 성과파악을 쉽게 해줌
- 해석용이: 계산결과가 직접적으로 나타남
(2) 의사결정나무의 구성요소 | 부모마디/ 자식마디/ 뿌리마디/ 끝마디/ 중간마디/ 가지/ 깊이
- 부모마디: 상위에 있는 마디
- 자식마디: 분리되어 나간 2개 이상의 마디
- 뿌리마디: 시작 마디/ 전체 자료 포함
- 끝마디: 자식 마디 없음/ 잎 노드(Leaf Node)
- 중간마디: 부모, 자식마디 모두 있음
- 가지(Branch): 뿌리~끝마디까지 연결된 마디들
- 깊이(Depth): 뿌리~끝마디끼자 중간마디 개수
(3) 해석력과 예측력
- 해석력: 예를 들어, 은행에서 신용평가 결과 부적격판정인 경우, 이유를 해석할 수 있어야 함
- 예측력: 예를 들어, 반응이 좋을 고객 모집방안을 알고자 하는 경우, 예측력에 집중해야 함
(4) 의사결정나무의 분석
- 분석 과정: 성장 → 가지치기 → 타당성평가 → 해석및예측
- 성장(Growing): 분리규칙으로 나무성장 → 정지규칙 만족 시 중단
- 가지치기 (Pruning): 가지 제거 (오류 위험/ 부적절한 추론규칙/ 불필요)
- 타당성 평가: 교차 타당성 등으로 평가 (이익 도표/ 위험 도표/ 시험 자료 등을 이용)
- 해석 및 예측: 모형 해석 → 데이터 분류 및 예측에 활용
- 각 마디에서의 최적 분리규칙: 분리 변수 선택 & 분리 기준에 의해 결정됨
- 분리변수의 P차원 공간에 대한 현재 분할은 이전 분할에 영향 받음
- 성장 (Growing): x 들로 이루어진 입력공간을 재귀적으로 분할하는 과정
- 분류 규칙 (Splitting Rule): 최적 분할은 불순도 감소량을 가장 크게 하는 분할!
- 연속형 분리변수: A = xi ≤ s
- 범주형 분리변수: A = 1,2,4/ Ac = 3 - 분리 기준 (Splitting Criterion)
- 한 부모마디에서 자식마디들이 형성될 때,
- 입력변수의 선택과
- 범주의 병합이 이루어질 기준
- 순수도: 목표변수의 특정 범주에 개체들이 포함되어 있는 정도
- 순수도/불순도 측정 → 목표변수의 분포를 가장 잘 구별해주는 자식마디 형성
- 부모보다 자식마디에서 순수도 증가! - 이산형 목표변수에 사용되는 분리기준: 카이제곱 통계량의 p-value↓/ 지니 지수↓/ 엔트로피 지수 ↓
- p-value가 가장 작은 예측변수&분리
- 지니 지수를 가장 감소시켜주는 예측변수&분리
- 엔트로피 지수가 가장 작은 예측변수&분리 - 연속형 목표변수에 사용되는 분리기준: 분산분석의 F-통계량/ 분산의 감소량
- F-통계량↑ p-value↓ p-value가 가장 작은 예측변수&분리
- 분산의 감소량을 최대화하는 기준&분리 - 정지 규칙 (Stopping Rule): 현재 마디가 끝마디가 되도록 하는 규칙
- 나무 깊이 지정/ 끝마디 레코드 최소 개수 지정
- 분류 규칙 (Splitting Rule): 최적 분할은 불순도 감소량을 가장 크게 하는 분할!
카이제곱 통계량 (χ²) 지니 지수
(Gini Index)엔트로피 지수
(Entropy Index)관측된 실젯값과 기댓값의 차이
실젯값과 가정된 분포 사이의 차이노드 불순도를 나타냄
지니지수 높을수록, 순수도 낮음열역학에서 무질서한 정도,
규칙적이지 않은 정도를 의미함
엔트로피 지수 높을수록, 순수도 낮음- 가지치기 (Pruning): 과대/과소 적합을 방지하기 위해 의사결정나무의 가지를 제거함
- 의사결정나무의 크기 = 복잡도 → 크기가 너무 크면 과대적합/ 너무 작으면 과소적합 위험
- 최적의 크기(복잡도)는 대상자료로부터 추정
- 분류 오류를 크게할 위험 or 부적절한 규칙을 가진 가지를 제거함
- 나무의 끝마디가 너무 나오면, 모형이 과대적합되어 규칙을 현실 문제에 적용할 수 없다..
→ 분류된 관측치의 비율 or MSE 등을 고려하여 과적합 문제를 해결하기 위해 가지치기를 한다!
(5) 의사결정나무 알고리즘 | CART/ C4.5 & C5.0/ CHAID/ QUEST
구분 설명 특징 분리 기준
(불순도 측도)분리 방법
(이진 or 다지)CART - 각 독립변수 이분화 반복
- 이진 트리형태로 분류 수행- 가장 널리 사용 이산 - 지니지수
연속 - 분산감소량이진 분리 C4.5 & C5.0 - 가지치기 시, 학습자료 사용
- 목표변수 반드시 범주형!- 범주 수만큼 분리
(범주형 입력변수)엔트로피 지수 다지 분리 CHAID - 가지치기X
- 적당한 크기에서 성장 중지
- 입력변수 반드시 범주형!- AID를 발전시킴 카이제곱 통계량
F-통계량다지분리 QUEST - 변수선택 편향 거의 없음
- 분리규칙을 2단계로 나눔
분리변수 선택 & 분리점 선택- 편향 문제가 있는
CART의 개선카이제곱 통계량
F-통계량이진 분리 (︶^︶) 편향(Bias)이란, 학습 알고리즘에서 잘못된 가정을 했을 때 발생하는 오차를 말한다.
(6) 의사결정나무 종류 | 분류나무/ 회귀나무 모형
- 의사결정나무는 주어진 입력값에 대해 출력값을 예측하는 모형!
(7) 의사결정나무 활용 및 장단점
- 활용: 세분화/ 분류/ 예측/ 차원축소 및 변수선택/ 교호작용 효과 파악
- 차원축소 및 변수선택: 목표변수에 큰 영향을 미치는 예측변수들을 구분하고자 할 때!
- 교호작용 효과 파악: 여러 예측변수 결합 → 범주의 병합 or 연속형 변수의 이산화
- 교호작용(Interaction): 독립변수간 상호작용이 종속변수에 영향을 주는 현상
- 장점: 해석 용이/ 상호작용 효과 해석 가능/ 비모수적 모형/ 유연성 및 정확도 높음
- 비모수적 모형: 가정 필요X 이상값에 민감X
- 유연성 및 정확도 높음: 대용량 데이터에서도 빠르게 생성 가능
- 단점: 비연속성/ 선형성 or 주효과 결여/ 비안정성
- 비연속성: 연속형변수를 비연속적 값으로 취급 → 경계점 근방에서 예측오류 가능성 큼
- 선형성 or 주효과 결여: 선형모형에서는 각 변수의 영향력을 해석할 수 있는데, 의사결정나무는 불가능..
- 비안정성: Training Data에만 의존하면 과대적합 가능성 → 검증용데이터로 교차타당성 평가 or 가지치기 필요
- 평가: 이익 도표 or 검정용 데이터에 의한 교차 타당성 등을 이용하여, 의사결정나무를 평가함
참고 도서: 빅데이터분석기사 필기_수제비 2021
728x90반응형'자격증 > 빅데이터분석기사-필기' 카테고리의 다른 글
[빅데이터분석기사 필기 요약] III.빅데이터 모델링 - 02. 분석기법 적용 (4) SVM, 연관성분석 (1) 2021.03.23 [빅데이터분석기사 필기 요약] III.빅데이터 모델링 - 02. 분석기법 적용 (3) 인공신경망 (0) 2021.03.22 [빅데이터분석기사 필기 요약] III.빅데이터 모델링 - 02. 분석기법 적용 (1) 회귀분석 (0) 2021.03.20 [빅데이터분석기사 필기 요약] III.빅데이터 모델링 - 01. 분석 모형 설계 (2) (0) 2021.03.18 [빅데이터분석기사 필기 요약] III.빅데이터 모델링 - 01. 분석 모형 설계 (1) (0) 2021.03.17 - 의사결정나무