ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [빅데이터분석기사 필기 요약] IV.빅데이터 결과 해석 - 01. 분석 모형 평가 및 개선 (1)
    자격증/빅데이터분석기사-필기 2021. 3. 28. 15:49
    728x90
    반응형

    빅데이터분석기사 필기 요약

    🔑 회귀 모형 평가지표/ SSE/ SST/ SSR/ R²=결정계수/ R²adj/ Mallow's Cp/

           분류 모형 평가지표/ 혼동 행렬/ ROC 곡선/ AUC/ 이익도표/ 홀드 아웃 교차 검증/ 다중 교차 검증

           정확도/ 오차비율/ 민감도/ 특이도/ 거짓긍정률/ 정밀도/ F1-score/ 카파통계량

     

    IV. 빅데이터 결과 해석

       01. 분석 모형 평가 및 개선

          1. 분석 모형 평가     

     



     

    1. 분석 모형 평가

     

    < 분석 모형 평가 >

    • 모형의 유용성 판단/ 비교/ 평가 과정은 중요하다!
    • 모형을 만든 것으로 끝이 아니다!
      - 객관적인 평가지표를 통해 실무에서 사용 가능한지 평가
      - 기존 운영시스템과의 연계/ 통합을 통해 지속적인 개선

    • 분석 모형 평가란? 다음 사항들에 대해 분석하는 것!
      - 구축된 모형이 임의의 모형보다 더 우수한 성과를 보이는가
      - 고려된 모형들 중 어느 것이 가장 우수한가

    • 분석 모형 평가 기준
      • 일반화의 가능성: 데이터 확장 적용이 가능한가 → 모집단 내 다른 데이터에서도 결과가 안정적인지 평가
      • 효율성: 필요한 입력변수가 적을수록 효율적
      • 예측&분류 정확성

     

     

     


     

    [1] 평가지표

    모형 종류 회귀 모형 = 예측 모형 분류 모형
    평가 지표 - 실제값(yi)/ 예측값(yi_hat)/ 평균값(y_bar)
    - 오차제곱합 SSE/ 전체제곱합 SST/ 회귀제곱합 SSR
    - R² = SSR/SST, R²adj, Mallow's Cp
    - 혼동 행렬/ 정확도/ 민감도/ 정밀도/ F1-score
    - ROC Curve/ AUC (Area Under ROC)
    - 이익도표 (Gain Chart)

     

    (1) 회귀 모형 평가지표 | SSE/ SST/ SSR/ R² = 결정계수/ R²adj/ Mallow's Cp

    회귀 모형 평가지표

     

    • 회귀 모형 기본 평가지표: SSE(오차제곱합)/ SST(전체제곱합)/ SSR(회귀제곱합)/ AE/ MAE/ RMSE/ MAPE/ MPE

      - SSE = 오차제곱합 = 예측값과 실젯값의 차이(오차) 제곱 합
      - SST = 전체제곱합 = 실젯값과 평균값의 차이 제곱 합
      - SSR = 회귀제곱합 = 예측값과 평균값의 차이 제곱 합

      - AE = Average Error = 평균 오차
      - MAE = Mean Absolute Error = 평균 절대 오차
      - RMSE = Root Mean Squared Error = 평균 제곱근 오차
      - MAPE = Mean Absolute Percentage Error = 평균 절대 백분율 오차
      - MPE = Mean Percentage Error = 평균 백분율 오차


    • 회귀 모형 성능 검증지표: R²(결정계수)/ R²adj(수정된 결정계수)/ Mallow's Cp
      • 결정계수 = 회귀모형이 실제값을 얼마나 잘 나타내는지에 대한 비율 (0~1)
        - 독립변수 개수가 많은 모형의 경우 부적합!
        - 단점: 모형의 변수 개수가 증가할 때, 그 변수가 유의하지 않더라도 결정계수는 증가한다..

      • 수정된 결정계수 = 결정계수의 단점을 보완함 → 수정된 결정계수는 결정계수보다 항상 작음!
        - 유의하지 않은 독립변수를 추가할수록, 패널티 부과 → 감소
        - 모형이 유용한 독립변수를 추가할수록 → 증가
        - 따라서, 독립변수 개수가 많은 모형에 적합!

      • Mallow's Cp = 적절하지 않은 독립변수 추가에 대한 패널티를 부과한 통계량
        - 값이 작을수록, 실젯값을 잘 설명하는 모형임

     


     

    (2) 분류 모형 평가지표 | 혼동 행렬/ ROC 곡선/ AUC/ 이익도표

     

    • 혼동 행렬 (Confusion Matrix) (정오 행렬):
      모델이 분류한 예측범주와 실제 분류범주를 교차표로 정리한 행렬 (N⨉N)

      - 예측값과 실제값의 일치빈도를 통해 모델 정확도 평가
      - 모델 성능을 평가할 수 있는 평가지표 도출:
        정확도/ 오차비율/ 민감도/ 특이도/ 거짓긍정렬/ 정밀도/ F1-score/ 카파통계량

     

    혼동 행렬 (Confusion Matrix)

     

    혼동 행렬을 이용한 평가지표

     

    • ROC 곡선 (ROC Curve)
        - 가로축 = 거짓긍정률  /  X axis = FP rate
        - 세로축 = 민감도          /  Y axis = TP rate
        - FP rate - TP rate 반비례 관계 (Trade-off)

        - ROC 곡선이 왼쪽 꼭대기에 가까울수록, 분류 성능 우수함

        - AUC (Area Under ROC) = ROC 곡선 아래 면적
        - 0.5 ~ 1.0 사이의 값
        - 1에 가까울수록, 모델 정확도 높음

     

     

    • 이익 도표 (Gain Chart): 그래프를 통해 분류모형의 성능을 평가함 (이익 도표 = 이익 곡선 = 리프트 곡선)
      • 이익(Gain)
        - 목표범주에 속한 개체들이
        - 임의로 나눈 등급별
        - 얼마나 분포하고 있는지 나타내는 값

     

     

     


     

    [2] 분석 모형 진단

     

    (1) 데이터 분석 모형의 오류 | 일반화 오류/ 학습 오류

    • 일반화 오류 (Generalization Error): 주어진 데이터의 특성을 지나치게 반영 → 주변특성&단순잡음 묘사 → 과대 적합
    • 학습 오류 (Training Error): 주어진 데이터의 특성을 덜 반영하도록 모형 생성 → 과소 적합

     

    (2) 데이터 분석 모형 검증 | 홀드 아웃 교차 검증/ 다중 교차 검증

    • 홀드 아웃 교차 검증
      - 데이터 집합 구분: 서로 겹치지 않는 학습집합, 시험집합으로 무작위 구분
      - 학습집합으로 분석모형을 구축
      - 시험집합으로 분석모형의 성능 평가

    • 다중 교차 검증
      - 데이터 집합 나눔: 같은 크기의 부분집합 k개로 무작위 나눔
      - k개 부분집합 = 1개는 시험집합 + (k-1)개는 학습집합
      - 종류: Random Sub-Sampling/ K-Fold Cross Validation/ Leave-One-Out Cross Validation/ Bootstrap

     

    (3) 분석 모형 시각화 | 정보 구조화 → 정보 시각화 → 정보 시각표현

    • 시각화: 그래프/그림과 같은 시각적 도구를 통해 의사결정자에게 제공하여, 분석결과를 쉽게 이해할 수 있게 한다!
    • 정보 구조화: 데이터 수집 및 탐색/ 데이터 분류/ 데이터 배열/ 데이터 재배열
    • 정보 시각화: 시각/ 분포/ 관계/ 비교/ 공간 시각화
    • 정보 시각표현: 그래픽 7요소/ 그래픽디자인 기본원리/ 인터랙션(Interaction)/ 시각정보디자인 7원칙

     

    (4) 분석 모형 진단 | 기본 가정 진단/ 잔차의 산점도

    • 선정한 분석모형의 기본가정에 대한 진단이 필요하다!

    • 회귀모형은 잔차의 산점도를 이용하여 모형 진단: 선형성/ 독립성/ 등분산성/ 정상성(정규성)
      - 선형성: 잔차의 산점도
      - 독립성: 잔차의 산점도 - 경향성 없이 일정한 분포인가?
      - 등분산성: 잔차의 산점도 - 전체적으로 고르게 흩어져있는가?
      - 정상성(정규성): 샤피로-윌크 검정/ 콜모고로프-스미르노프 검정/ Q-Q Plot

     

    참고 도서: 빅데이터분석기사 필기_수제비 2021

     

    728x90
    반응형