[빅데이터분석기사 필기 요약] III.빅데이터 모델링 - 01. 분석 모형 설계 (2)

자격증/빅데이터분석기사-필기 2021. 3. 18. 20:27

728x90

빅데이터분석기사 필기 요약

🔑 파라미터/ 하이퍼파라미터/ 모델링/ 비즈니스영향도평가/

R/ Python/ 학습용데이터/ 검증용데이터/ 평가용 데이터

III. 빅데이터 모델링

01. 분석 모형 설계

1. 분석 절차 수립

2. 분석 환경 구축

1. 분석 모형 설계

[2] 분석 모형 정의

(1) 분석 모형 정의

분석 모형 정의
- 분석 모형을 선정하고,
- 모형에 적합한 변수를 선택하여,
- 모형의 사양(Specification)을 작성한다.
파라미터 (Parameter): 모델 내부/ 학습된 값
하이퍼 파라미터 (Hyper-parameter): 모델 외부/ 결정하는 값

파라미터	하이퍼 파라미터
- 모델 내부에서 확인 가능한 변수 - 모델이 예측 수행 시 요구하는 값들 - 측정되거나, 데이터로부터 학습함 - 수작업으로 측정되지 않음 - 파라미터가 모델의 성능을 결정한다!	- 모델 외적인 요소 - 사용자/연구자가 직접 설정/결정하는 값 - 파라미터 값 측정을 위해, 알고리즘 구현과정에서 사용 - 경험에 의해 결정 가능한 값 - 모델의 성능 등을 위해 조절하는 값
인공신경망 - 가중치 SVM - Support Vector 회귀분석 - 결정계수	신경망 학습 - 학습률 의사결정나무 - 나무의 깊이 KNN - K의 개수

(2) 분석 모형 정의 고려사항 | 과소적합/ 과대적합/ 모형선택오류/ 변수누락/ 부적합변수생성/ 동시편향

모델 너무 간단 → 과소적합 (Under-fitting): 학습이 부족하여 실제 성능이 떨어짐
모델 너무 복잡 → 과대적합 (Over-fitting): 지나친 차수 증가로 실제 데이터에서 성능 떨어짐
부적합 모형 현상
- 모형 선택 오류: 적합하지 않은 모형
- 변수 누락: 모델 생성 시 관계있는 변수를 누락
- 부적합 변수 생성: 관련 없는 변수를 포함 → 편향X, 과대적합O
- 동시 편향: 종속변수가 연립방정식의 일부인 경우

(3) 분석 모형 정의 사례

Y = b₀ + b₁ X + e

X = 독립변수
Y = 종속변수

b₀, b₁는 파라미터, 계수(Coefficient)
- b₀ = 절편(Intercept)/ 상수값
- b₁ = X의 기울기(Slope)

e = 오차항(Error Term)/ 실제 관측한 Y값과 예측한 Y값의 차이

오차를 최소화하는 계수를 이용하여 모델을 피팅한다~
- lm(): R에서 선형회귀모형을 적용할 때 사용하는 함수

[3] 분석 모형 구축 절차

분석 모형 구축 절차: 요건 정의 → 모델링 → 검증 및 테스트 → 적용

(1) 요건 정의 | 분석과제 정의 단계에서 도출된 내용을 구체화

분석요건 도출/ 수행방안 설계/ 요건 확정
분석요건 도출: 상세하게 도출/ 분석/ 명세화 → 적합성 검토
- 업무 배경/ 주요이슈/ 기대효과/ 제약사항을 사전에 정의
수행방안 설계: 간단한 탐색적 분석 → 가설 수립 → 분석 가능성 검토/ 우선순위 부여
- 설계 산출물: 분석계획서, WBS(Work Breakdown Structure)
요건 확정: 이해관계자와 기획안 공유/ 확정

(2) 모델링 | 상세 분석기법을 적용하여 모델 개발

모델링 마트 설계 및 구축/ 탐색적 분석 및 유의변수 도출/ 모델링/ 성능평가
모델링 마트 설계 및 구축: 분석대상 데이터 구조화 및 적재 → 모델 마트 구축
- 분석대상 데이터는 전처리를 통해 변수가 식별된 상태~
탐색적 분석 및 유의변수 도출: 변수값 분포와 구간 차이 파악 → 유의미한 변수 파악
- 정보 부족하면 → 신속하게 추가변수 개발!
모델링: 적합한 기법 선택 or 여러 기법 결합하여 적용
- 통계적 모델링이 아님! 지나친 통계적 가설과 유의성 적용X
경우에 따라서 시뮬레이션 + 최적화기법 결합
- 시뮬레이션: 입력값이 확률분포일 경우 → 처리량과 대기시간 등의 지표로 평가
- 최적화: 입력값이 상숫값일 경우 → 목적 함수 값으로 평가
모델링 성능평가: 데이터마이닝에서 성능 판단은 정확도/ 정밀도/ 재현율/ 향상도
- 모형별 학습용 데이터 집합 구축 → 분석 모형 조정 → 모형에 검증용 데이터 적용 → 결과 비교분석(성능평가)
- 정확도 (Accuracy): 실제 분류 범주를 정확하게 예측한 비율 (True를 True라고 예측 + False를 False라고 예측)
- 정밀도 (Precision): True로 예측한 것들 중 실제 True인 비율
- 재현율 (Recall): 실제 True인 것들 중 True로 예측한 비율
- 향상도 (Lift): (항목집합 X가 주어지지 않았을 때의 항목집합 Y의 확률) 대비
  (항목집합 X가 주어졌을 때 항목집합 Y의 확률 증가 비율)

(3) 검증 및 테스트 | 데이터 분리 → 자체 검증 → 실제 테스트 결과 도출

운영 상황에서 실제 테스트/ 비즈니스 영향도 평가
분석용 데이터를 학습용 + 테스트용으로 분리 → 분석용 데이터로 자체 검증
→ 신규 데이터 적용하여 실제 테스트 결과 도출
모든 모델링에서 반드시 검증 및 테스트를 거친다!
운영상황에서 실제 테스트: 업무 프로세스에 가상 적용 → 테스트 결과 모형에 반영 → 반복
비즈니스 영향도 평가: 투자 대비 효과 정량화 기법으로 비즈니스 영향도를 평가함
- 투자 비용 대비 재무 효과(ROI, Return On Investment)가 200~300% 이상임을 증명
- 모델링 성과: 재현율 증가 or 향상도 개선

（︶^︶） 투자 대비 효과 정량화 기법에는,

총소유비용(TCO)/ 투자대비효과(ROI)/ 순현재가치(NPV)/ 내부수익률(IRR)/ 투자회수기간(PP) 등이 있다.

(4) 적용 | 분석결과를 업무 프로세스에 완전히 통합 및 운영 (일, 주, 월 단위)

운영 시스템에 적용 및 자동화/ 주기적 리모델링
운영 시스템에 적용 및 자동화: 실제 운영환경에 적용 → 자동 모니터링 및 조기경보 시스템
- 모델 성과 기록: 실시간 or 배치 스케줄러 실행
- 자동으로 모니터링하고, 이상 시에만 확인하는 프로세스 수립
- (ex) R Studio Shiny
주기적 리모델링: 분기/ 반기/ 연 단위로 정기적 재평가 → 모형 재조정 (재학습 or 변수추가)

2. 분석 환경 구축

[1] 분석 도구 선정

(1) R | 통계 프로그래밍 S 언어 기반/ 오픈소스 프로그래밍 언어

기능: 사용자 제작 패키지 직접 추가 가능 (15,000여개)/ 강력한 시각화 기능
도구: CRAN에서 패키지와 테스트데이터 다운 가능/ R Studio
환경: 다양한 OS 지원/ 인터프리터 언어/ 처리 속도 빠른 편

(2) Python | C언어 기반/ 오픈소스 프로그래밍 언어

문법: 들여쓰기로 블록 구분
기능: 시각화 라이브러리 다양함/ R에 비하면 적은 편
도구: 대표 IDE 없음
환경: 다양한 OS 지원/ PYPI로 사용자 제작 패키지 설치 가능

[2] 데이터 분할

(1) 데이터 분할 | 학습용/ 검증용/ 평가용 데이터로 분할

데이터 분할 이유: 과대적합을 예방하여, 2종 오류(잘못된 귀무가설 채택)를 방지하는 것!
학습용 데이터 (Training Data): 알고리즘 학습을 위한 데이터
검증용 데이터 (Validation Data): 학습된 모델의 정확도를 계산하기 위한 데이터
평가용 데이터 (Test Data): 학습된 모델의 성능을 평가하기 위한 실제 데이터
- 한 번도 사용하지 않은 데이터로 모형 평가 → 이 결과가 모형 평가지표!
데이터 분할
- 학습용 + 검증용: 학습과정에서 사용 ⇒ 60~80%
- 평가용: 평가과정에서만 사용 ⇒ 20~40%
- 검증용 데이터: 학습과정 중간에 검증 실시/ 모형 튜닝에 사용
  - 데이터가 충분하지 않다면 검증용은 생략 (학습용+평가용)

참고 도서: 빅데이터분석기사 필기_수제비 2021

728x90

'자격증 > 빅데이터분석기사-필기' 카테고리의 다른 글

[빅데이터분석기사 필기 요약] III.빅데이터 모델링 - 02. 분석기법 적용 (2) 의사결정나무 (0)	2021.03.21
[빅데이터분석기사 필기 요약] III.빅데이터 모델링 - 02. 분석기법 적용 (1) 회귀분석 (0)	2021.03.20
[빅데이터분석기사 필기 요약] III.빅데이터 모델링 - 01. 분석 모형 설계 (1) (0)	2021.03.17
[빅데이터분석기사 필기 요약] II.빅데이터 탐색 - 03. 통계기법 이해 (3) (0)	2021.03.17
[빅데이터분석기사 필기 요약] II.빅데이터 탐색 - 03. 통계기법 이해 (2) (0)	2021.03.17

ABOUT ME

서윤로그

'자격증 > 빅데이터분석기사-필기' 카테고리의 다른 글

티스토리툴바

ABOUT ME

'자격증 > 빅데이터분석기사-필기' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바