-
[빅데이터분석기사 필기 요약] III.빅데이터 모델링 - 01. 분석 모형 설계 (2)자격증/빅데이터분석기사-필기 2021. 3. 18. 20:27728x90반응형
빅데이터분석기사 필기 요약
🔑 파라미터/ 하이퍼파라미터/ 모델링/ 비즈니스영향도평가/
R/ Python/ 학습용데이터/ 검증용데이터/ 평가용 데이터
III. 빅데이터 모델링
01. 분석 모형 설계
1. 분석 절차 수립
2. 분석 환경 구축
1. 분석 모형 설계
[2] 분석 모형 정의
(1) 분석 모형 정의
- 분석 모형 정의
- 분석 모형을 선정하고,
- 모형에 적합한 변수를 선택하여,
- 모형의 사양(Specification)을 작성한다. - 파라미터 (Parameter): 모델 내부/ 학습된 값
- 하이퍼 파라미터 (Hyper-parameter): 모델 외부/ 결정하는 값
파라미터 하이퍼 파라미터 - 모델 내부에서 확인 가능한 변수
- 모델이 예측 수행 시 요구하는 값들
- 측정되거나, 데이터로부터 학습함
- 수작업으로 측정되지 않음
- 파라미터가 모델의 성능을 결정한다!- 모델 외적인 요소
- 사용자/연구자가 직접 설정/결정하는 값
- 파라미터 값 측정을 위해, 알고리즘 구현과정에서 사용
- 경험에 의해 결정 가능한 값
- 모델의 성능 등을 위해 조절하는 값인공신경망 - 가중치
SVM - Support Vector
회귀분석 - 결정계수신경망 학습 - 학습률
의사결정나무 - 나무의 깊이
KNN - K의 개수(2) 분석 모형 정의 고려사항 | 과소적합/ 과대적합/ 모형선택오류/ 변수누락/ 부적합변수생성/ 동시편향
- 모델 너무 간단 → 과소적합 (Under-fitting): 학습이 부족하여 실제 성능이 떨어짐
- 모델 너무 복잡 → 과대적합 (Over-fitting): 지나친 차수 증가로 실제 데이터에서 성능 떨어짐
- 부적합 모형 현상
- 모형 선택 오류: 적합하지 않은 모형
- 변수 누락: 모델 생성 시 관계있는 변수를 누락
- 부적합 변수 생성: 관련 없는 변수를 포함 → 편향X, 과대적합O
- 동시 편향: 종속변수가 연립방정식의 일부인 경우
(3) 분석 모형 정의 사례
Y = b₀ + b₁ X + e X = 독립변수
Y = 종속변수
b₀, b₁는 파라미터, 계수(Coefficient)
- b₀ = 절편(Intercept)/ 상수값
- b₁ = X의 기울기(Slope)
e = 오차항(Error Term)/ 실제 관측한 Y값과 예측한 Y값의 차이
오차를 최소화하는 계수를 이용하여 모델을 피팅한다~
- lm(): R에서 선형회귀모형을 적용할 때 사용하는 함수
[3] 분석 모형 구축 절차
- 분석 모형 구축 절차: 요건 정의 → 모델링 → 검증 및 테스트 → 적용
(1) 요건 정의 | 분석과제 정의 단계에서 도출된 내용을 구체화
- 분석요건 도출/ 수행방안 설계/ 요건 확정
- 분석요건 도출: 상세하게 도출/ 분석/ 명세화 → 적합성 검토
- 업무 배경/ 주요이슈/ 기대효과/ 제약사항을 사전에 정의 - 수행방안 설계: 간단한 탐색적 분석 → 가설 수립 → 분석 가능성 검토/ 우선순위 부여
- 설계 산출물: 분석계획서, WBS(Work Breakdown Structure) - 요건 확정: 이해관계자와 기획안 공유/ 확정
(2) 모델링 | 상세 분석기법을 적용하여 모델 개발
- 모델링 마트 설계 및 구축/ 탐색적 분석 및 유의변수 도출/ 모델링/ 성능평가
- 모델링 마트 설계 및 구축: 분석대상 데이터 구조화 및 적재 → 모델 마트 구축
- 분석대상 데이터는 전처리를 통해 변수가 식별된 상태~ - 탐색적 분석 및 유의변수 도출: 변수값 분포와 구간 차이 파악 → 유의미한 변수 파악
- 정보 부족하면 → 신속하게 추가변수 개발! - 모델링: 적합한 기법 선택 or 여러 기법 결합하여 적용
- 통계적 모델링이 아님! 지나친 통계적 가설과 유의성 적용X - 경우에 따라서 시뮬레이션 + 최적화기법 결합
- 시뮬레이션: 입력값이 확률분포일 경우 → 처리량과 대기시간 등의 지표로 평가
- 최적화: 입력값이 상숫값일 경우 → 목적 함수 값으로 평가
- 모델링 성능평가: 데이터마이닝에서 성능 판단은 정확도/ 정밀도/ 재현율/ 향상도
- 모형별 학습용 데이터 집합 구축 → 분석 모형 조정 → 모형에 검증용 데이터 적용 → 결과 비교분석(성능평가)
- 정확도 (Accuracy): 실제 분류 범주를 정확하게 예측한 비율 (True를 True라고 예측 + False를 False라고 예측)
- 정밀도 (Precision): True로 예측한 것들 중 실제 True인 비율
- 재현율 (Recall): 실제 True인 것들 중 True로 예측한 비율
- 향상도 (Lift): (항목집합 X가 주어지지 않았을 때의 항목집합 Y의 확률) 대비
(항목집합 X가 주어졌을 때 항목집합 Y의 확률 증가 비율)
(3) 검증 및 테스트 | 데이터 분리 → 자체 검증 → 실제 테스트 결과 도출
- 운영 상황에서 실제 테스트/ 비즈니스 영향도 평가
- 분석용 데이터를 학습용 + 테스트용으로 분리 → 분석용 데이터로 자체 검증
→ 신규 데이터 적용하여 실제 테스트 결과 도출 - 모든 모델링에서 반드시 검증 및 테스트를 거친다!
- 운영상황에서 실제 테스트: 업무 프로세스에 가상 적용 → 테스트 결과 모형에 반영 → 반복
- 비즈니스 영향도 평가: 투자 대비 효과 정량화 기법으로 비즈니스 영향도를 평가함
- 투자 비용 대비 재무 효과(ROI, Return On Investment)가 200~300% 이상임을 증명
- 모델링 성과: 재현율 증가 or 향상도 개선
(︶^︶) 투자 대비 효과 정량화 기법에는,
총소유비용(TCO)/ 투자대비효과(ROI)/ 순현재가치(NPV)/ 내부수익률(IRR)/ 투자회수기간(PP) 등이 있다.
(4) 적용 | 분석결과를 업무 프로세스에 완전히 통합 및 운영 (일, 주, 월 단위)
- 운영 시스템에 적용 및 자동화/ 주기적 리모델링
- 운영 시스템에 적용 및 자동화: 실제 운영환경에 적용 → 자동 모니터링 및 조기경보 시스템
- 모델 성과 기록: 실시간 or 배치 스케줄러 실행
- 자동으로 모니터링하고, 이상 시에만 확인하는 프로세스 수립
- (ex) R Studio Shiny - 주기적 리모델링: 분기/ 반기/ 연 단위로 정기적 재평가 → 모형 재조정 (재학습 or 변수추가)
2. 분석 환경 구축
[1] 분석 도구 선정
(1) R | 통계 프로그래밍 S 언어 기반/ 오픈소스 프로그래밍 언어
- 기능: 사용자 제작 패키지 직접 추가 가능 (15,000여개)/ 강력한 시각화 기능
- 도구: CRAN에서 패키지와 테스트데이터 다운 가능/ R Studio
- 환경: 다양한 OS 지원/ 인터프리터 언어/ 처리 속도 빠른 편
(2) Python | C언어 기반/ 오픈소스 프로그래밍 언어
- 문법: 들여쓰기로 블록 구분
- 기능: 시각화 라이브러리 다양함/ R에 비하면 적은 편
- 도구: 대표 IDE 없음
- 환경: 다양한 OS 지원/ PYPI로 사용자 제작 패키지 설치 가능
[2] 데이터 분할
(1) 데이터 분할 | 학습용/ 검증용/ 평가용 데이터로 분할
- 데이터 분할 이유: 과대적합을 예방하여, 2종 오류(잘못된 귀무가설 채택)를 방지하는 것!
- 학습용 데이터 (Training Data): 알고리즘 학습을 위한 데이터
- 검증용 데이터 (Validation Data): 학습된 모델의 정확도를 계산하기 위한 데이터
- 평가용 데이터 (Test Data): 학습된 모델의 성능을 평가하기 위한 실제 데이터
- 한 번도 사용하지 않은 데이터로 모형 평가 → 이 결과가 모형 평가지표! - 데이터 분할
- 학습용 + 검증용: 학습과정에서 사용 ⇒ 60~80%
- 평가용: 평가과정에서만 사용 ⇒ 20~40%
- 검증용 데이터: 학습과정 중간에 검증 실시/ 모형 튜닝에 사용
- 데이터가 충분하지 않다면 검증용은 생략 (학습용+평가용)
참고 도서: 빅데이터분석기사 필기_수제비 2021
728x90반응형'자격증 > 빅데이터분석기사-필기' 카테고리의 다른 글
[빅데이터분석기사 필기 요약] III.빅데이터 모델링 - 02. 분석기법 적용 (2) 의사결정나무 (0) 2021.03.21 [빅데이터분석기사 필기 요약] III.빅데이터 모델링 - 02. 분석기법 적용 (1) 회귀분석 (0) 2021.03.20 [빅데이터분석기사 필기 요약] III.빅데이터 모델링 - 01. 분석 모형 설계 (1) (0) 2021.03.17 [빅데이터분석기사 필기 요약] II.빅데이터 탐색 - 03. 통계기법 이해 (3) (0) 2021.03.17 [빅데이터분석기사 필기 요약] II.빅데이터 탐색 - 03. 통계기법 이해 (2) (0) 2021.03.17 - 분석 모형 정의