ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [빅데이터분석기사 필기 요약] IV.빅데이터 결과 해석 - 01. 분석 모형 평가 및 개선 (4)
    자격증/빅데이터분석기사-필기 2021. 4. 1. 16:32
    728x90
    반응형

    빅데이터분석기사 필기 요약

    🔑 과대적합방지/ 데이터증강/ 모델복잡도감소/ 가중치규제/ L1규제/ L2규제/ 드롭아웃/

           매개변수최적화/ 확률적 경사 하강법/ 모멘텀/ AdaGrad/ Adam/

           취합방법론/ 다수결/ 배깅/ 페이스팅/ 랜덤서브스페이스/ 랜덤패치/ 랜덤포레스트/

           부스팅방법론/ 에이다부스트/ 그래디언트부스트

     

    IV. 빅데이터 결과 해석

       01. 분석 모형 평가 및 개선

          1. 분석 모형 평가

          2. 분석 모형 개선

     



     

    2. 분석 모형 개선

     

    [1] 과대 적합 방지

     

    (1) 과대 적합 (Over-fitting) | 지나친 학습 → 일반화↓

    • 과대 적합
      - 제한된 학습데이터셋에
      - 지나치게 특화되어,
      - 새로운 데이터에 대한
      - 오차가 매우 커지는 현상

    • 과대 적합이 발생하는 경우: 모델 파라미터 개수 많음/ 학습데이터셋 부족

    • 일반화 (Generalization): 테스트데이터에 대해 높은 성능을 갖춤/ 정상추정함/ 과소&과대적합 X
      - 과소 적합: 지나치게 단순한 모델/ 데이터에 내재된 구조를 학습하지 못함
      - 과대 적합: 지나치게 학습데이터에 적합/ 일반화 떨어짐

     

    (2) 과대 적합 방지 | 데이터 증강/ 모델 복잡도 감소/ 가중치 규제/ 드롭아웃

    • 데이터 증강 (Data Augmentation)
      데이터 양이 적을 경우, 데이터를 변형하여 양을 늘림 
    • 모델 복잡도 감소
      은닉층 개수 감소/ 모델 수용력 낮춤 → 모델 복잡도 줄일 수 있음

    • 가중치 규제 적용: 개별 가중치 값을 제한 → 복잡한 모델을 간단하게!
      • 비용함수 (Cost Function): 관측값과 연산값의 차이를 도출
        → 비용함수 최소화를 위해서, 가중치들이 작아져야 함!

      • λ = 규제 강도를 정하는 하이퍼 파라미터
        →  λ 값이 크면, 가중치 규제를 위해 추가한 항들을 작게 유지하는 것을 우선함

      • L1 규제: 모든 가중치들의 절댓값 합계를 비용함수에 추가  →  λ |w|
      • L2 규제: 모든 가중치들의 제곱합을 비용함수에 추가           →  (1/2) λw²

     

    • 드롭아웃 (Dropout): 학습 과정에서 신경망 일부를 사용하지 않음
      • 특정 뉴런/조합에 너무 의존적인 인공신경망이 되는 것을 방지
      • 매번 랜덤으로 뉴런 선택 → 서로 다른 신경망들을 앙상블하는 것과 같은 효과
      • 신경망 학습 과정에서만 사용하는 기법
      • 예측 과정에서는 드롭아웃을 사용하지 않음

    • 드롭아웃 유형: 초기(DNN)/ 공간적(CNN)/ 시간적(RNN) 드롭아웃
      • 초기 드롭아웃 - DNN 에서 사용
        - p의 확률로 노드들을 생략하여 학습함
        - 일반적으로 p = 0.5

      • 공간적 드롭아웃 - CNN 에서 사용
        - 피처맵 내 노드 전체에 대해 드롭아웃 적용 여부를 결정함 

      • 시간적 드롭아웃 - RNN 에서 사용
        - 노드가 아닌, 연결선 일부를 생략하여 학습함 (Drop Connection)

     

     

     


     

    [2] 매개변수 최적화

     

    (1) 매개변수 (Parameter) | 데이터 학습을 통해, 모델 내부에서 결정되는 변수

     

     

    (2) 매개변수 최적화 (Parameter Optimization)

    • 손실함수 (Loss Function): 학습모델의 출력값과 레이블 실제값의 차이(오차)
    • 모델 학습의 목적 = 매개변수 최적화
      - 손실함수의 값을 최소화하는 매개변수를 찾는 것
      - 오차를 최소화하는 가중치와 편향을 찾는 것

     

    (3) 매개변수 종류: 가중치 & 편향

    • 가중치 (Weight): "곱"
      - 입력값마다 각기 다르게 곱해지는 수치
      - y = ax+b 에서 절편 a 해당

    • 편향 (Bias): "합"
      - 가중합에 더해주는 상수
      - y = ax+b 에서 기울기 b 에 해당

     

    (4) 매개변수 최적화 기법 | 확률적 경사 하강법/ 모멘텀/ AdaGrad/ Adam

    • 2차원 손실함수 그래프를 이용하여 매개변수 최적화를 수행
      • X 축 = 가중치 (Wi)
      • Y 축 = 손실값 (=오차)
      • 그래프에서 기울기 = 0인 지점 = 손실값이 최소화되는 지점 = 최적의 매개변수를 찾을 수 있음

    • 매개변수 최적화 과정은 학습률에 따라서 달라짐
      • 학습률 적음 → 매우 느린 학습 → 최적화에 많은 시간 소요
      • 학습률 높음 → 기울기=0 지점을 지나침 → 최적화 실패..
      • 학습률 적당 → 기울기=0 지점 찾음 → 최적화 성공!
    확률적 경사 하강법 모멘텀 AdaGrad Adam
    SGD; Stochastic
    Gradient Descent
    Momentum Adaptive Gradient Algorithm Adaptive Moment Estimation
    - 먼저 손실함수 기울기 구함
      → 기울기따라 조금씩 아래로
      → 손실함수 최소 지점 도달
    - 최적점 근처에서 느리게 진행
    - 모멘텀 = SGD + 속도
    - 기울기방향으로 가속됨
    - 학습률 감소 기법을 적용
    - 기울기 큰 부분에서 크게 학습
    - 최적점에 가까워질수록
      학습률 줄임→조금씩적게 학습
    - Adam = 모멘텀 + AdaGrad
    - 탐색경로 또한 모멘텀과
       AdaGrad를 합친 양상
    경로: 지그재그로 크게 변함 공이 그릇 바닥을 구르듯 움직임
    지그재그 정도 덜함
    처음에 큰폭이었다가
    → 갱신 움직임 크게 줄어듦
    공이 그릇 바닥을 구르듯 움직임
    모멘텀모다 좌우 흔들림 적음

     

     

    • 확률적 경사 하강법 (SGD): 기울기를 구할 때 1개의 데이터를 무작위로 선택함 (확률적)
      • 문제점: 지역극소점에 갇히는 문제 자주 발생
        - 손실함수 그래프에서 지역극소점(Local)에 갇혀서, 전역극소점(Global)을 찾지 못하는 경우가 많음
        - 손실함수가 방향에 따라 기울기가 달라지는 비등방성 함수일 경우 매우 비효율적

      • SGD의 단점 개선을 위해 고안된 방법론들이 모멘텀/ AdaGrad/ Adam
      • 탐색경로: 지그재그로 크게 변함

     

    • 모멘텀 (Momentum): SGD + 속도
      • 기울기가 줄어도, 누적된 기울기 값에 의해 → 탐색경로의 변위가 줄어들어서 → 빠르게 최적점으로 수렴
      • X축의 한 방향으로 일정한 가속/ Y축 방향 속도는 일정하지 않음
      • 관성의 방향을 고려하여, 진동과 폭을 줄이는 효과
      • 모멘텀 갱신경로
        - 공이 그릇 바닥을 구르듯 움직임
        - SGD보다 지그재그 덜함

     

    • AdaGrad (Adaptive Gradient Algorithm): 학습 진행할수록 학습률 감소시킴
      • 학습률 감소 기법 적용
        - 손실함수 처음 부분: 기울기 큼 → 학습률 큼
        - 최적점에 가까워짐: 기울기 감소 → 학습률 줄여서 조금씩 작게 학습
      • 최적점 탐색경로
        - 손실함수 처음 부분: y축 방향으로 기울기 큼 → 큰 폭으로 움직임
        - 최적점에 가까워짐: y축 방향으로 갱신 강도 빠르게 감소 → 큰 폭으로 작아짐
      • 각각의 매개변수에 맞는 학습률 값을 만들어줌
      • 탐색경로: 지그재그 움직임이 빠르게 줄어든다!

     

    • Adam (Adaptive Moment Estimation): 모멘텀 + AdaGrad
      • Adam 갱신경로
        - 모멘텀처럼 공이 그릇 바닥을 구르듯 움직임
        - 모멘텀보다 좌우 흔들림 적음

     

     

     


     

    [3] 분석 모형 융합

     

    (1) 취합 방법론 (Aggregation) | 다수결/ 배깅/ 페이스팅/ 랜덤 서브스페이스/ 랜덤 패치/ 랜덤 포레스트

    다수결
    (Majority Voting)
    배깅
    (Bagging)
    페이스팅
    (Pasting)
    랜덤
    서브스페이스
    랜덤
    패치
    랜덤
    포레스트
    -여러모형 결과 종합
    -다수결로 최종 설정
    -직접투표: 단순투표
    -간접투표: 가중치
    -복원추출
      학습데이터 나눔
    -중복 허용하므로
      편향가능성 있음
    -비복원추출
     학습데이터 나눔
    -중복사용X
    -다차원 독립변수중
     일부 차원만 선택
    -즉, 특성 샘플링!

    -학습데이터는
     모두 사용함
    -종속&독립변수
     일부만 랜덤사용
    -학습데이터,특성
     모두 샘플링!
    -의사결정나무결합
    -독립변수 차원
     랜덤하게 감소시킴,
     그중에서 선택!

    -모형성능 변동감소

     

     

    (2) 부스팅 방법론 (Boosting) | 에이다/ 그래디언트 부스트

    • 에이다 부스트 (AdaBoost) = 적응 부스트 (Adaptive Boost)
      - 약한 모형 각각을 순차적으로 적용하는 과정에서,
      - 잘 분류된 샘플 가중치 낮추고,
      - 오 분류된 샘플 가중치 높여서,
      - 샘플 분포를 변화시키는 기법

    • 그레디언트 부스트 (Gradient Boost)
      - 약한 모형 각각을 순차적으로 적용하는 과정에서,
      - 오 분류된 샘플 에러를 최적화하는 기법

     


     

    [4] 최종 모형 선정

     

    (1) 최종 모형 선정 절차 | 최종 모형 평가 기준 선정 → 최종 모형 분석 결과 검토 → 알고리즘별로 결과 비교

    • 평가 기준 선정: 정확도/ 재현율/ 정밀도 등의 평가지표 이용
    • 분석 결과 검토: 평가 기준, 실질적인 활용 가능성에 대한 검토
    • 알고리즘별 결과 비교: 알고리즘별로 파라미터를 변경하며 수행 → 변경 전후의 차이점 비교, 결과 기록

     

    참고 도서: 빅데이터분석기사 필기_수제비 2021

     

    728x90
    반응형