ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [빅데이터분석기사 필기 요약] III.빅데이터 모델링 - 02. 분석기법 적용 (2) 의사결정나무
    자격증/빅데이터분석기사-필기 2021. 3. 21. 18:10
    728x90
    반응형

    빅데이터분석기사 필기 요약

    🔑 의사결정나무/ 분류함수(분류규칙)/ 분리기준/ 성장/ 가지치기/ 교차타당성/

           카이제곱 통계량/ 지니 지수/ 엔트로피 지수/ 순수도/ CART/ C4.5 & C5.0/ CHAID/ QUEST

     

    III. 빅데이터 모델링

       02. 분석기법 적용

          1. 분석기법

          



     

    1. 분석기법

     

    [3] 의사결정나무

     

    (1) 의사결정나무 (Decision Tree) | 분류함수를 활용하여, 의사결정규칙으로 이루어진 나무 모양을 그리는 기법

    • 의사결정나무
      - 데이터가 가진 속성들로부터
      - 분할기준 속성을 판별하고,
      - 이에 따라 트리형태로 모델링하는
      - 분류예측모델

    • 분류함수: 분류 기준으로 사용되는 함수
      - 새로운 표본이 관측되었을 때
      - 이 표본을 여러 모집단 중
      - 어떤 하나의 모집단으로 분류하기 위한 함수

    • 시각화: 연속적인 의사결정문제 시각화 → 의사결정 이루어지는 시점/ 성과파악을 쉽게 해줌
    • 해석용이: 계산결과가 직접적으로 나타남

     

    (2) 의사결정나무의 구성요소 | 부모마디/ 자식마디/ 뿌리마디/ 끝마디/ 중간마디/ 가지/ 깊이

    • 부모마디: 상위에 있는 마디
    • 자식마디: 분리되어 나간 2개 이상의 마디

    • 뿌리마디: 시작 마디/ 전체 자료 포함
    • 마디: 자식 마디 없음/ 잎 노드(Leaf Node)
    • 중간마디: 부모, 자식마디 모두 있음

    • 가지(Branch): 뿌리~끝마디까지 연결된 마디들
    • 깊이(Depth): 뿌리~끝마디끼자 중간마디 개수

     

     

    (3) 해석력과 예측력

    • 해석력: 예를 들어, 은행에서 신용평가 결과 부적격판정인 경우, 이유를 해석할 수 있어야 함
    • 예측력: 예를 들어, 반응이 좋을 고객 모집방안을 알고자 하는 경우, 예측력에 집중해야 함

     

     

     


     

    (4) 의사결정나무의 분석

    • 분석 과정: 성장 → 가지치기 → 타당성평가 → 해석및예측
      • 성장(Growing): 분리규칙으로 나무성장 → 정지규칙 만족 시 중단
      • 가지치기 (Pruning): 가지 제거 (오류 위험/ 부적절한 추론규칙/ 불필요)
      • 타당성 평가: 교차 타당성 등으로 평가 (이익 도표/ 위험 도표/ 시험 자료 등을 이용)
      • 해석 및 예측: 모형 해석 → 데이터 분류 및 예측에 활용
    • 각 마디에서의 최적 분리규칙: 분리 변수 선택 & 분리 기준에 의해 결정됨
    • 분리변수의 P차원 공간에 대한 현재 분할은 이전 분할에 영향 받음

     

    • 성장 (Growing): x 들로 이루어진 입력공간을 재귀적으로 분할하는 과정
      • 분류 규칙 (Splitting Rule): 최적 분할은 불순도 감소량을 가장 크게 하는 분할!
        - 연속형 분리변수: A = xi ≤ s
        - 범주형 분리변수: A = 1,2,4/ Ac = 3

      • 분리 기준 (Splitting Criterion)
        - 한 부모마디에서 자식마디들이 형성될 때,
        - 입력변수의 선택과
        - 범주의 병합이 이루어질 기준

        - 순수도: 목표변수의 특정 범주에 개체들이 포함되어 있는 정도
        - 순수도/불순도 측정 → 목표변수의 분포를 가장 잘 구별해주는 자식마디 형성
        - 부모보다 자식마디에서 순수도 증가!

      • 이산형 목표변수에 사용되는 분리기준: 카이제곱 통계량의 p-value↓/ 지니 지수↓/ 엔트로피 지수 ↓
        - p-value가 가장 작은 예측변수&분리
        - 지니 지수를 가장 감소시켜주는 예측변수&분리
        - 엔트로피 지수가 가장 작은 예측변수&분리

      • 연속형 목표변수에 사용되는 분리기준: 분산분석의 F-통계량/ 분산의 감소량
        - F-통계량↑ p-value↓ p-value가 가장 작은 예측변수&분리
        - 분산의 감소량을 최대화하는 기준&분리

      • 정지 규칙 (Stopping Rule): 현재 마디가 끝마디가 되도록 하는 규칙
        - 나무 깊이 지정/ 끝마디 레코드 최소 개수 지정
    카이제곱 통계량 (χ²) 지니 지수
    (Gini Index)
    엔트로피 지수
    (Entropy Index)
    관측된 실젯값과 기댓값의 차이
    실젯값과 가정된 분포 사이의 차이
    노드 불순도를 나타냄
    지니지수 높을수록, 순수도 낮음
    열역학에서 무질서한 정도,
    규칙적이지 않은 정도를 의미함
    엔트로피 지수 높을수록, 순수도 낮음

     

     

    • 가지치기 (Pruning): 과대/과소 적합을 방지하기 위해 의사결정나무의 가지를 제거함
      • 의사결정나무의 크기 = 복잡도 → 크기가 너무 크면 과대적합/ 너무 작으면 과소적합 위험
      • 최적의 크기(복잡도)는 대상자료로부터 추정
      • 분류 오류를 크게할 위험 or 부적절한 규칙을 가진 가지를 제거함
      • 나무의 끝마디가 너무 나오면, 모형이 과대적합되어 규칙을 현실 문제에 적용할 수 없다..
        → 분류된 관측치의 비율 or MSE 등을 고려하여 과적합 문제를 해결하기 위해 가지치기를 한다!

     

     

     


     

    (5) 의사결정나무 알고리즘 | CART/ C4.5 & C5.0/ CHAID/ QUEST

     

    구분 설명 특징 분리 기준
    (불순도 측도)
    분리 방법
    (이진 or 다지)
    CART - 각 독립변수 이분화 반복
    - 이진 트리형태로 분류 수행
    - 가장 널리 사용 이산 - 지니지수
    연속 - 분산감소량
    이진 분리
    C4.5 & C5.0 - 가지치기 시, 학습자료 사용
    - 목표변수 반드시 범주형!
    - 범주 수만큼 분리
     (범주형 입력변수)
    엔트로피 지수 다지 분리
    CHAID - 가지치기X 
    - 적당한 크기에서 성장 중지
    - 입력변수 반드시 범주형!
    - AID를 발전시킴 카이제곱 통계량
    F-통계량
    다지분리
    QUEST - 변수선택 편향 거의 없음
    - 분리규칙을 2단계로 나눔
      분리변수 선택 & 분리점 선택
    - 편향 문제가 있는
      CART의 개선
    카이제곱 통계량
    F-통계량
    이진 분리

     

    (︶^︶) 편향(Bias)이란, 학습 알고리즘에서 잘못된 가정을 했을 때 발생하는 오차를 말한다.

     

     

    (6) 의사결정나무 종류 | 분류나무/ 회귀나무 모형

    • 의사결정나무는 주어진 입력값에 대해 출력값을 예측하는 모형!

     

    (7) 의사결정나무 활용 및 장단점

    • 활용: 세분화/ 분류/ 예측/ 차원축소 및 변수선택/ 교호작용 효과 파악
      • 차원축소 및 변수선택: 목표변수에 큰 영향을 미치는 예측변수들을 구분하고자 할 때!
      • 교호작용 효과 파악: 여러 예측변수 결합 → 범주의 병합 or 연속형 변수의 이산화
        - 교호작용(Interaction): 독립변수간 상호작용이 종속변수에 영향을 주는 현상

    • 장점: 해석 용이/ 상호작용 효과 해석 가능/ 비모수적 모형/ 유연성 및 정확도 높음
      • 비모수적 모형: 가정 필요X 이상값에 민감X
      • 유연성 및 정확도 높음: 대용량 데이터에서도 빠르게 생성 가능

    • 단점: 비연속성/ 선형성 or 주효과 결여/ 비안정성
      • 비연속성: 연속형변수를 비연속적 값으로 취급 → 경계점 근방에서 예측오류 가능성 큼
      • 선형성 or 주효과 결여: 선형모형에서는 각 변수의 영향력을 해석할 수 있는데, 의사결정나무는 불가능..
      • 비안정성: Training Data에만 의존하면 과대적합 가능성 → 검증용데이터로 교차타당성 평가 or 가지치기 필요

    • 평가: 이익 도표 or 검정용 데이터에 의한 교차 타당성 등을 이용하여, 의사결정나무를 평가함

     

    참고 도서: 빅데이터분석기사 필기_수제비 2021

     

    728x90
    반응형