-
[빅데이터분석기사 필기 요약] IV.빅데이터 결과 해석 - 01. 분석 모형 평가 및 개선 (1)자격증/빅데이터분석기사-필기 2021. 3. 28. 15:49728x90반응형
빅데이터분석기사 필기 요약
🔑 회귀 모형 평가지표/ SSE/ SST/ SSR/ R²=결정계수/ R²adj/ Mallow's Cp/
분류 모형 평가지표/ 혼동 행렬/ ROC 곡선/ AUC/ 이익도표/ 홀드 아웃 교차 검증/ 다중 교차 검증
정확도/ 오차비율/ 민감도/ 특이도/ 거짓긍정률/ 정밀도/ F1-score/ 카파통계량
IV. 빅데이터 결과 해석
01. 분석 모형 평가 및 개선
1. 분석 모형 평가
1. 분석 모형 평가
< 분석 모형 평가 >
- 모형의 유용성 판단/ 비교/ 평가 과정은 중요하다!
- 모형을 만든 것으로 끝이 아니다!
- 객관적인 평가지표를 통해 실무에서 사용 가능한지 평가
- 기존 운영시스템과의 연계/ 통합을 통해 지속적인 개선 - 분석 모형 평가란? 다음 사항들에 대해 분석하는 것!
- 구축된 모형이 임의의 모형보다 더 우수한 성과를 보이는가
- 고려된 모형들 중 어느 것이 가장 우수한가 - 분석 모형 평가 기준
- 일반화의 가능성: 데이터 확장 적용이 가능한가 → 모집단 내 다른 데이터에서도 결과가 안정적인지 평가
- 효율성: 필요한 입력변수가 적을수록 효율적
- 예측&분류 정확성
[1] 평가지표
모형 종류 회귀 모형 = 예측 모형 분류 모형 평가 지표 - 실제값(yi)/ 예측값(yi_hat)/ 평균값(y_bar)
- 오차제곱합 SSE/ 전체제곱합 SST/ 회귀제곱합 SSR
- R² = SSR/SST, R²adj, Mallow's Cp- 혼동 행렬/ 정확도/ 민감도/ 정밀도/ F1-score
- ROC Curve/ AUC (Area Under ROC)
- 이익도표 (Gain Chart)
(1) 회귀 모형 평가지표 | SSE/ SST/ SSR/ R² = 결정계수/ R²adj/ Mallow's Cp
- 회귀 모형 기본 평가지표: SSE(오차제곱합)/ SST(전체제곱합)/ SSR(회귀제곱합)/ AE/ MAE/ RMSE/ MAPE/ MPE
- SSE = 오차제곱합 = 예측값과 실젯값의 차이(오차) 제곱 합
- SST = 전체제곱합 = 실젯값과 평균값의 차이 제곱 합
- SSR = 회귀제곱합 = 예측값과 평균값의 차이 제곱 합
- AE = Average Error = 평균 오차
- MAE = Mean Absolute Error = 평균 절대 오차
- RMSE = Root Mean Squared Error = 평균 제곱근 오차
- MAPE = Mean Absolute Percentage Error = 평균 절대 백분율 오차
- MPE = Mean Percentage Error = 평균 백분율 오차 - 회귀 모형 성능 검증지표: R²(결정계수)/ R²adj(수정된 결정계수)/ Mallow's Cp
- 결정계수 = 회귀모형이 실제값을 얼마나 잘 나타내는지에 대한 비율 (0~1)
- 독립변수 개수가 많은 모형의 경우 부적합!
- 단점: 모형의 변수 개수가 증가할 때, 그 변수가 유의하지 않더라도 결정계수는 증가한다.. - 수정된 결정계수 = 결정계수의 단점을 보완함 → 수정된 결정계수는 결정계수보다 항상 작음!
- 유의하지 않은 독립변수를 추가할수록, 패널티 부과 → 감소
- 모형이 유용한 독립변수를 추가할수록 → 증가
- 따라서, 독립변수 개수가 많은 모형에 적합! - Mallow's Cp = 적절하지 않은 독립변수 추가에 대한 패널티를 부과한 통계량
- 값이 작을수록, 실젯값을 잘 설명하는 모형임
- 결정계수 = 회귀모형이 실제값을 얼마나 잘 나타내는지에 대한 비율 (0~1)
(2) 분류 모형 평가지표 | 혼동 행렬/ ROC 곡선/ AUC/ 이익도표
- 혼동 행렬 (Confusion Matrix) (정오 행렬):
모델이 분류한 예측범주와 실제 분류범주를 교차표로 정리한 행렬 (N⨉N)
- 예측값과 실제값의 일치빈도를 통해 모델 정확도 평가
- 모델 성능을 평가할 수 있는 평가지표 도출:
정확도/ 오차비율/ 민감도/ 특이도/ 거짓긍정렬/ 정밀도/ F1-score/ 카파통계량
- ROC 곡선 (ROC Curve)
- 가로축 = 거짓긍정률 / X axis = FP rate
- 세로축 = 민감도 / Y axis = TP rate
- FP rate - TP rate 반비례 관계 (Trade-off)
- ROC 곡선이 왼쪽 꼭대기에 가까울수록, 분류 성능 우수함
- AUC (Area Under ROC) = ROC 곡선 아래 면적
- 0.5 ~ 1.0 사이의 값
- 1에 가까울수록, 모델 정확도 높음- 이익 도표 (Gain Chart): 그래프를 통해 분류모형의 성능을 평가함 (이익 도표 = 이익 곡선 = 리프트 곡선)
- 이익(Gain)
- 목표범주에 속한 개체들이
- 임의로 나눈 등급별로
- 얼마나 분포하고 있는지 나타내는 값
- 이익(Gain)
[2] 분석 모형 진단
(1) 데이터 분석 모형의 오류 | 일반화 오류/ 학습 오류
- 일반화 오류 (Generalization Error): 주어진 데이터의 특성을 지나치게 반영 → 주변특성&단순잡음 묘사 → 과대 적합
- 학습 오류 (Training Error): 주어진 데이터의 특성을 덜 반영하도록 모형 생성 → 과소 적합
(2) 데이터 분석 모형 검증 | 홀드 아웃 교차 검증/ 다중 교차 검증
- 홀드 아웃 교차 검증
- 데이터 집합 구분: 서로 겹치지 않는 학습집합, 시험집합으로 무작위 구분
- 학습집합으로 분석모형을 구축
- 시험집합으로 분석모형의 성능 평가 - 다중 교차 검증
- 데이터 집합 나눔: 같은 크기의 부분집합 k개로 무작위 나눔
- k개 부분집합 = 1개는 시험집합 + (k-1)개는 학습집합
- 종류: Random Sub-Sampling/ K-Fold Cross Validation/ Leave-One-Out Cross Validation/ Bootstrap
(3) 분석 모형 시각화 | 정보 구조화 → 정보 시각화 → 정보 시각표현
- 시각화: 그래프/그림과 같은 시각적 도구를 통해 의사결정자에게 제공하여, 분석결과를 쉽게 이해할 수 있게 한다!
- 정보 구조화: 데이터 수집 및 탐색/ 데이터 분류/ 데이터 배열/ 데이터 재배열
- 정보 시각화: 시각/ 분포/ 관계/ 비교/ 공간 시각화
- 정보 시각표현: 그래픽 7요소/ 그래픽디자인 기본원리/ 인터랙션(Interaction)/ 시각정보디자인 7원칙
(4) 분석 모형 진단 | 기본 가정 진단/ 잔차의 산점도
- 선정한 분석모형의 기본가정에 대한 진단이 필요하다!
- 회귀모형은 잔차의 산점도를 이용하여 모형 진단: 선형성/ 독립성/ 등분산성/ 정상성(정규성)
- 선형성: 잔차의 산점도
- 독립성: 잔차의 산점도 - 경향성 없이 일정한 분포인가?
- 등분산성: 잔차의 산점도 - 전체적으로 고르게 흩어져있는가?
- 정상성(정규성): 샤피로-윌크 검정/ 콜모고로프-스미르노프 검정/ Q-Q Plot
참고 도서: 빅데이터분석기사 필기_수제비 2021
728x90반응형'자격증 > 빅데이터분석기사-필기' 카테고리의 다른 글
[빅데이터분석기사 필기 요약] IV.빅데이터 결과 해석 - 01. 분석 모형 평가 및 개선 (3) (0) 2021.03.29 [빅데이터분석기사 필기 요약] IV.빅데이터 결과 해석 - 01. 분석 모형 평가 및 개선 (2) (0) 2021.03.29 [빅데이터분석기사 필기 요약] III.빅데이터 모델링 - 02. 분석기법 적용 (12) 비모수 통계 (1) 2021.03.27 [빅데이터분석기사 필기 요약] III.빅데이터 모델링 - 02. 분석기법 적용 (11) 앙상블 분석 (1) 2021.03.27 [빅데이터분석기사 필기 요약] III.빅데이터 모델링 - 02. 분석기법 적용 (10) 비정형 데이터 분석 (0) 2021.03.26