ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [빅데이터분석기사 필기 요약] III.빅데이터 모델링 - 01. 분석 모형 설계 (2)
    자격증/빅데이터분석기사-필기 2021. 3. 18. 20:27
    728x90
    반응형

    빅데이터분석기사 필기 요약

    🔑 파라미터/ 하이퍼파라미터/ 모델링/ 비즈니스영향도평가/

           R/ Python/ 학습용데이터/ 검증용데이터/ 평가용 데이터

     

    III. 빅데이터 모델링

       01. 분석 모형 설계

          1. 분석 절차 수립

          2. 분석 환경 구축

          



     

    1. 분석 모형 설계

     

    [2] 분석 모형 정의

     

    (1) 분석 모형 정의

    • 분석 모형 정의
      - 분석 모형을 선정하고,
      - 모형에 적합한 변수를 선택하여,
      - 모형의 사양(Specification)을 작성한다.

    • 파라미터 (Parameter): 모델 내부/ 학습된 값
    • 하이퍼 파라미터 (Hyper-parameter): 모델 외부/ 결정하는 값
    파라미터 하이퍼 파라미터
                            - 모델 내부에서 확인 가능한 변수
                            - 모델이 예측 수행 시 요구하는 값들
                            - 측정되거나, 데이터로부터 학습
                            - 수작업으로 측정되지 않음
                            - 파라미터가 모델의 성능을 결정한다!
                - 모델 외적인 요소
                - 사용자/연구자가 직접 설정/결정하는 값
                - 파라미터 값 측정을 위해, 알고리즘 구현과정에서 사용
                - 경험에 의해 결정 가능한 값
                - 모델의 성능 등을 위해 조절하는 값
                                              인공신경망 - 가중치
                                              SVM - Support Vector
                                              회귀분석 - 결정계수
                                         신경망 학습 - 학습률
                                         의사결정나무 - 나무의 깊이
                                         KNN - K의 개수

     

     

    (2) 분석 모형 정의 고려사항 | 과소적합/ 과대적합/ 모형선택오류/ 변수누락/ 부적합변수생성/ 동시편향

    • 모델 너무 간단과소적합 (Under-fitting): 학습이 부족하여 실제 성능이 떨어짐
    • 모델 너무 복잡과대적합 (Over-fitting): 지나친 차수 증가로 실제 데이터에서 성능 떨어짐

    • 부적합 모형 현상
      - 모형 선택 오류: 적합하지 않은 모형
      - 변수 누락: 모델 생성 시 관계있는 변수를 누락
      - 부적합 변수 생성: 관련 없는 변수를 포함 → 편향X, 과대적합O
      - 동시 편향: 종속변수가 연립방정식의 일부인 경우

     

    (3) 분석 모형 정의 사례

     Y  =  b₀  +  b₁ X  +  e      X = 독립변수
        Y = 종속변수


        b₀, b₁는 파라미터, 계수(Coefficient)
         - b₀ = 절편(Intercept)/ 상수값
         - b₁ = X의 기울기(Slope)

        e = 오차항(Error Term)/ 실제 관측한 Y값과 예측한 Y값의 차이

        오차를 최소화하는 계수를 이용하여 모델을 피팅한다~
        - lm(): R에서 선형회귀모형을 적용할 때 사용하는 함수

     

     

     


     

    [3] 분석 모형 구축 절차

     

    • 분석 모형 구축 절차: 요건 정의 → 모델링 → 검증 및 테스트 → 적용

     

    (1) 요건 정의 | 분석과제 정의 단계에서 도출된 내용을 구체화

    • 분석요건 도출/ 수행방안 설계/ 요건 확정
    • 분석요건 도출: 상세하게 도출/ 분석/ 명세화 → 적합성 검토
      - 업무 배경/ 주요이슈/ 기대효과/ 제약사항을 사전에 정의
    • 수행방안 설계: 간단한 탐색적 분석 → 가설 수립 → 분석 가능성 검토/ 우선순위 부여
      - 설계 산출물: 분석계획서, WBS(Work Breakdown Structure)
    • 요건 확정: 이해관계자와 기획안 공유/ 확정

     

    (2) 모델링 | 상세 분석기법을 적용하여 모델 개발

    • 모델링 마트 설계 및 구축/ 탐색적 분석 및 유의변수 도출/ 모델링/ 성능평가
    • 모델링 마트 설계 및 구축: 분석대상 데이터 구조화 및 적재 → 모델 마트 구축
      - 분석대상 데이터는 전처리를 통해 변수가 식별된 상태~
    • 탐색적 분석 및 유의변수 도출: 변수값 분포와 구간 차이 파악 → 유의미한 변수 파악
      - 정보 부족하면 → 신속하게 추가변수 개발!
    • 모델링: 적합한 기법 선택 or 여러 기법 결합하여 적용
      - 통계적 모델링이 아님! 지나친 통계적 가설과 유의성 적용X

    • 경우에 따라서 시뮬레이션 + 최적화기법 결합
      • 시뮬레이션: 입력값이 확률분포일 경우 → 처리량과 대기시간 등의 지표로 평가
      • 최적화: 입력값이 상숫값일 경우 → 목적 함수 값으로 평가

    • 모델링 성능평가: 데이터마이닝에서 성능 판단은 정확도/ 정밀도/ 재현율/ 향상도
      - 모형별 학습용 데이터 집합 구축 → 분석 모형 조정 → 모형에 검증용 데이터 적용 → 결과 비교분석(성능평가)
      • 정확도 (Accuracy): 실제 분류 범주를 정확하게 예측한 비율 (True를 True라고 예측 + False를 False라고 예측)
      • 정밀도 (Precision): True로 예측한 것들 중 실제 True인 비율
      • 재현율 (Recall): 실제 True인 것들 중 True로 예측한 비율
      • 향상도 (Lift): (항목집합 X가 주어지지 않았을 때의 항목집합 Y의 확률) 대비
                                 (항목집합 X가 주어졌을 때 항목집합 Y의 확률 증가 비율)

     

    (3) 검증 및 테스트 | 데이터 분리 → 자체 검증 → 실제 테스트 결과 도출

    • 운영 상황에서 실제 테스트/ 비즈니스 영향도 평가
    • 분석용 데이터를 학습용 + 테스트용으로 분리 → 분석용 데이터로 자체 검증
      → 신규 데이터 적용하여 실제 테스트 결과 도출
    • 모든 모델링에서 반드시 검증 및 테스트를 거친다!
    • 운영상황에서 실제 테스트: 업무 프로세스에 가상 적용 → 테스트 결과 모형에 반영 → 반복 

    • 비즈니스 영향도 평가: 투자 대비 효과 정량화 기법으로 비즈니스 영향도를 평가함
      - 투자 비용 대비 재무 효과(ROI, Return On Investment)가 200~300% 이상임을 증명
      - 모델링 성과: 재현율 증가 or 향상도 개선

    (︶^︶) 투자 대비 효과 정량화 기법에는,

                          총소유비용(TCO)/ 투자대비효과(ROI)/ 순현재가치(NPV)/ 내부수익률(IRR)/ 투자회수기간(PP) 등이 있다.

     

     

    (4) 적용 | 분석결과를 업무 프로세스에 완전히 통합 및 운영 (일, 주, 월 단위)

    • 운영 시스템에 적용 및 자동화/ 주기적 리모델링
    • 운영 시스템에 적용 및 자동화: 실제 운영환경에 적용 → 자동 모니터링 및 조기경보 시스템
      - 모델 성과 기록: 실시간 or 배치 스케줄러 실행
      - 자동으로 모니터링하고, 이상 시에만 확인하는 프로세스 수립
      - (ex) R Studio Shiny
    • 주기적 리모델링: 분기/ 반기/ 연 단위로 정기적 재평가 → 모형 재조정 (재학습 or 변수추가)

     

     

     


     

    2. 분석 환경 구축

     

    [1] 분석 도구 선정

     

    (1) R | 통계 프로그래밍 S 언어 기반/ 오픈소스 프로그래밍 언어

    • 기능: 사용자 제작 패키지 직접 추가 가능 (15,000여개)/ 강력한 시각화 기능
    • 도구: CRAN에서 패키지와 테스트데이터 다운 가능/ R Studio
    • 환경: 다양한 OS 지원/ 인터프리터 언어/ 처리 속도 빠른 편

     

    (2) Python | C언어 기반/ 오픈소스 프로그래밍 언어

    • 문법: 들여쓰기로 블록 구분
    • 기능: 시각화 라이브러리 다양함/ R에 비하면 적은 편
    • 도구: 대표 IDE 없음
    • 환경: 다양한 OS 지원/ PYPI로 사용자 제작 패키지 설치 가능

     

    [2] 데이터 분할

     

    (1) 데이터 분할 | 학습용/ 검증용/ 평가용 데이터로 분할

    데이터 분할

     

    • 데이터 분할 이유: 과대적합을 예방하여, 2종 오류(잘못된 귀무가설 채택)를 방지하는 것!
    • 학습용 데이터 (Training Data): 알고리즘 학습을 위한 데이터
    • 검증용 데이터 (Validation Data): 학습된 모델의 정확도를 계산하기 위한 데이터
    • 평가용 데이터 (Test Data): 학습된 모델의 성능을 평가하기 위한 실제 데이터
      - 한 번도 사용하지 않은 데이터로 모형 평가 → 이 결과가 모형 평가지표!

    • 데이터 분할
      • 학습용 + 검증용: 학습과정에서 사용 ⇒ 60~80%
      • 평가용: 평가과정에서만 사용 ⇒ 20~40%
      • 검증용 데이터: 학습과정 중간에 검증 실시/ 모형 튜닝에 사용
        - 데이터가 충분하지 않다면 검증용은 생략 (학습용+평가용)

     

    참고 도서: 빅데이터분석기사 필기_수제비 2021

     

    728x90
    반응형