ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [빅데이터분석기사 필기 요약] [빅분기 3과목 요약] III. 빅데이터 모델링 - 요약 (2)
    자격증/빅데이터분석기사-필기 2021. 4. 13. 20:38
    728x90
    반응형

     


     

     

    [빅데이터분석기사 필기 3과목] III. 빅데이터 모델링

     

    02. 분석기법 적용 - [1] 분석기법

     

     

    • 회귀분석: 1개 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계기법
    • 변수들 사이의 인과관계를 밝히고 모형을 적합하여, 관심있는 변수를 예측/추론하기 위한 분석방법
    회귀모형 가정 회귀모형 검증
    선형성     독립변수-종속변수 관계 선형 통계적 유의미 F-통계량, p-value
    독립성     잔차-독립변수 값 관계없음 회귀계수 유의미 T-통계량, p-value, 신뢰구간
    등분산성 오차들의 분산 일정 모형의 설명력 결정계수(R²)
    비상관성 오차들끼리 상관없음 모형이 데이터를 적합 잔차 그래프
    정상성     오차항이 정규분포 이룸 데이터가 가정 만족 5개 가정

     

     

    • 편차 vs. 오차 vs. 잔차
    편차 Deviation 오차 Error 잔차 Residual
    평균과의 차이
    = 관측값-평균값 차이
    = 관측값이 평균에서 떨어져 있는 정도
    모집단에서
    실젯값과 회귀선의 차이
    = 예측값이 정확하지 못한 정도
    표본집단에서
    관측값과 회귀선의 차이
    = 추정된 값을 설명하지 못하고 남은 편차

     

     

    • 회귀분석 유형: 단순/ 다중/ 다항/ 곡선/ 로지스틱/ 비선형
    단순회귀 다중회귀 다항회귀 곡선회귀 로지스틱회귀 비선형회귀
    독립변수 1개
    직선
    독립변수 K개
    선형 (1차함수)
    관계가
    1차함수 이상
    독립변수 1개
    곡선
    종속변수
    범주형(2진변수)
    회귀식 모양이
    선형이 아님

     

     

    • 단순선형/ 다중선형/ 로지스틱 회귀분석
    • 선형회귀의 문제점: 0 이하 or 1 이상의 값을 예측값으로 줄 수 있으므로, 확률값으로 직접 해석할 수 없음
    단순선형 회귀분석 다중선형 회귀분석 로지스틱 회귀분석
    회귀식 y=β₀+β₁Xi+ei 회귀식 y=β₀+β₁X₁+...+e 승산(Odds) p / (1-p)
    독립변수 1개 독립변수 여러 개 독립변수 범주형
    종속변수 1개 종속변수 1개 회귀계수 β₁ > 0      S자 모양
    독립-종속관계 선형관계 통계적 유의성 F통계량=MSR/MSE β₁ < 0 역 S자 모양
    오차항 독립적 N(0,σ²) F-통계량↑ p-value ↓ R-모형적합 glm()
    최소제곱법 최소의 오차제곱합 다중공선성 분산팽창요인 VIF R-탐색적분석 cdplot()
    결정계수 R²=SSR/SST (0~1) 변수선택방법 전진/후진/단계적 R-변수선택 step()

     

    용어 설명
    최소제곱법 오차제곱합이 최소가 되는 회귀계수를 찾는다 (계수 = 식 앞에 곱해지는 상수)
    제곱합 SST=전체제곱합/ SSE=오차제곱합/ SSR=회귀제곱합
    결정계수
    R² = SSR/SST
    - 전체 데이터를 회귀모형이 얼마나 잘 설명하고 있는지 보여주는 지표
    - 독립변수가 종속변수 변동의 몇 %를 설명하는지 나타내는 지표
    - 회귀선의 정확도를 평가함
    수정된 결정계수 독립변수 개수가 많아지면 결정계수가 높아지는 단점을 보완
    다중공선성 독립변수들 사이의 선형관계가 있는지 확인
    → 변수제거/ 주성분회귀/ 능형회귀

     


     

    • 의사결정나무 (Decision Tree)
      - 데이터들이 가진 속성들로부터 분할기준 속성을 판별하고,
        분할기준 속성에 따라서 트리형태로 모델링하는 분류 예측 모델
      - 분류함수를 활용하여, 의사결정규칙으로 이루어진 나무모양을 그리는 기법
      - 연속적으로 발생하는 의사결정문제를 직접적으로 시각화하여, 결정이 이루어지는 시점&결과파악을 쉽게 해줌

    • 의사결정나무 종류/ 활용/ 장단점
    종류 활용 장점 단점
    분류 나무 (분류) 세분화/ 분류 해석의 용이성 비연속성
    회귀 나무 (예측) 예측 상호작용 효과 해석 가능 비안정성
      차원축소 및 변수선택 비모수적 모형 (가정필요X) 선형성/ 주효과 결여
      교호작용 효과파악 유연성&정확도 높음  

     

     

    • 의사결정나무 구성요소: 부모마디/ 자식마디/ 뿌리마디/ 끝마디/ 중간마디/ 가지/ 깊이
    부모 마디 자식 마디 뿌리 마디 끝 마디=잎 노드 중간 마디 가지 깊이
    상위에
    위치함
    분리됨
    2개이상
    시작 마디
    전체포함
    자식 없음 부모,자식
    둘다 있음
    뿌리-끝까지
    연결된 마디들
    뿌리-끝까지
    중간마디 개수

     

     

    • 의사결정나무 분석과정: 성장 - 가지치기 - 타당성평가 - 해석&예측
    성장 Growing 가지치기 Pruning 타당성 평가 해석 및 예측
    - 적절한 분리규칙을 찾아
       나무를 성장시키는 과정
    - 정지규칙을 만족하면 중단
    과대/과소적합 방지 위해
    불필요한 가지를 제거

    - 오류 크게할 위험 높음
    - 부적절한 추론규칙 가짐
    교차 타당성 등을 이용함
    - 이익도표/ 위험도표
    - 시험자료 등을 활용
    - 구축된 모형을 해석
    - 분류&예측에 활용

     

     

    • 의사결정나무 성장: X들로 이루어진 입력공간을 재귀적으로 분할하는 과정
    분리 기준 분류 규칙 정지 규칙 순수도 (Purity)
    - 자식마디들이 형성될 때,
      입력변수 선택&범주 병합이
      이루어질 기준
    - 목표변수의 분포를 가장 잘
      구별해주는 기준으로 분리
    - 각 단계에서 최적분리기준에
      의한 분할을 찾는 과정 반복!
    - 최적 분할은 불순도 감소량
      가장 크게 하는 분할
    - 현재 마디가 끝 마디가
      되도록 하는 규칙

    - (ex1) 나무 깊이 지정
    - (ex2) 끝마디 자료
                  최소개수 지정
    목표변수의 특정범주에
    개체들이 포함되어있는 정도
    목표변수의 분포를 가장 잘
    구별해주는 기준으로 분리하면

    부모보다 자식에서 순수도↑

     

     

    • 목표변수에 따른 분리 기준
    이산형 목표변수에서 사용 연속형 목표변수에서 사용
    카이제곱 통계량의 p-값 ↓ 기댓값과 실젯값의 차이 분산분석의 F-통계량 ↑ p-값 최소화
    지니 지수 ↓ 노드 불순도를 나타냄 분산의 감소량 ↑ 예측오차 최소화
    엔트로피 지수 ↓ 열역학에서 무질서 정도    

     

     

    • 의사결정나무 알고리즘: CART/ C4.5 & C5.0/ CHAID/ QUEST
    CART C4.0 & C5.0 CHAID QUEST
    - 독립변수 이분화 반복
    - 이진 트리형태로 분류
    - 가장 널리 사용됨
    - 목표변수는 반드시 범주형
    - 범주 개수만큼 분리
    - 가지치기에서 학습자료 사용
    - 입력변수는 반드시 범주형
    - 가지치기 X
    - 적당한 크기에서 성장 중지
    - 편향문제 있는 CART 개선
    - 변수선택 편향 없음
    - 분리규칙을 2단계로 나눔
    - 이산: 지니 지수
    - 연속: 분산 감소량
    - 기준: 엔트로피 지수 - 카이제곱 통계량
    - F-통계량
    - 카이제곱 통계량
    - F-통계량
    - 분리: 이진 - 분리: 다지 - 분리: 다지 - 분리: 이진

     


     

    • 인공신경망 (ANN): 사람 두뇌의 신경세포인 뉴런의 전기신호 전달을 모방을 기계학습 모델
      - 변수가 많은 경우/ 복잡한 비선형 관계인 경우에 유용한 모델/ 잡음에 민감 X

    • 활성화 함수/ 활성 함수: 입력신호의 총합을 출력신호로 변환하는 함수 (얼마나 출력할지 & 활성화 여부를 결정함)
    <1세대> 퍼셉트론 등장 <2세대> 다층 퍼셉트론 등장 <3세대> 인공지능 부각
    퍼셉트론 (Perceptron)
    - 최초의 인공신경망: 입력층+출력층
    다층 퍼셉트론 (MLP)
    - 하나 이상의 은닉층
    - 비선형적 분리 가능
    인공지능 & 빅데이터
    - CNN, RNN 등의 딥러닝 기술
    - 빅데이터의 수집&분석 가능
    순방향 신경망: 입력-은닉-출력
    - 선형 분류 가능
    역전파 알고리즘: 출력-은닉-입력
    - 오차를 최소화시키도록 학습 진행
    기울기 소실 해결: tanh, ReLU
    - Leaky ReLU, Softmax 등으로 발전
    XOR 선형 분리 불가 문제
    - 선형 분류만 가능한 퍼셉트론으로
      XOR 연산을 할 수 없다!
    기울기 소실 (사라지는 경사)
    - 활성함수: 시그모이드 함수
    - 편미분 반복하면 기울기가 0에 수렴
    딥러닝 기술 발전
    - CNN: 컨볼루션/ 합성곱 신경망
    - RNN: 순환 신경망

     

     

    • 퍼셉트론: 입력값 - 가중치 - 순 입력함수 - 활성함수 - 출력값/예측값 (-1 or 1)
    퍼셉트론 구성 활성화 함수 종류
    입력값 훈련 데이터 계단함수: 1 or 0 부호함수: +1 or -1
    순 입력함수 입력값-가중치 곱하고 모두 합함 시그모이드 함수 기울기소실 원인 (0~1)
    활성함수 순 입력함수 값과 임계값 비교 하이퍼볼릭 탄젠트 함수 기울기소실 해결!
    출력값 -1 또는 +1를 출력 ReLU 함수 기울기소실 해결/ 뉴런 죽음
    가중치 업데이트 예측값-실제값 다르면 업데이트 Leaky ReLU ReLU의 뉴런이 죽는문제 해결!

     


     

    • 서포트 벡터 머신 (SVM): 데이터들과 거리가 가장 먼 초평면을 선택하여 분리하는, 지도학습기반의 이진선형 분류모델
    SVM 구성요소 SVM 특징
    초평면 Hyperplane n차원 공간의 (n-1)차원 평면 최적의 분리 초평면 마진 최대화시키는 결정경계
    결정 경계 데이터 분류의 기준 훈련시간↑ 정확도↑ 과대적합 가능성↓
    서포트 벡터 결정 경계와 가장 가까운
    데이터들의 집합
    변수 속성 - 모든 속성을 활용O
    - 속성간 의존성 고려X
    마진 (여유공간) 결정 경계-서포트 벡터간 거리 활용 사물/패턴/손글씨숫자 인식
    슬랙변수 (여유변수) 허용된 오차를 위한 변수 소프트 마진 SVM 어느정도의 오분류를 허용O

     

     

    • 서포트 벡터 머신 적용기준: 선형 분리가 가능하면 +1과 -1로 분류/ 선형 분리 불가능하면 커널 트릭을 활용함
    커널 트릭 Kernel Trick 커널 함수
    2차원에서 분류 불가능 → 3차원공간에 매핑하여 선형분류 저차원에서 함수계산만으로 원하는 풀이가 가능함
    고차원공간으로 매핑하면서 증가하는 연산복잡성을 해결 가우시안 RBF커널/ 다항식 커널/ 시그모이드 커널 등

     


     

    • 연관성 분석: 데이터 내부에 존재하는 항목간의 상호관계/ 종속관계를 찾아내는 분석기법 (장바구니 분석)
    • 목적변수 없음/ 조건-반응으로 표현됨
    • 향상도=1이면 서로 독립
      향상도>1이면 양의 상관관계/ 향상도<1이면 음의 상관관계
    지지도 Support 신뢰도 Confidence 향상도 Lift
    A, B를 동시 구매한 비율 조건부 확률: A구매 → B구매 거래간 연관성 정도
    P(A⋂B) P(A⋂B) / P(A) P(A⋂B) / P(A)P(B)

     


     

    • 군집 분석 (Clustering Analysis):
      여러 개의 관측값들로부터 유사성에만 기초하여,
       n개의 군집으로 집단화하여 집단의 특성을 분석하는 다변량 분석기법


    • 군집분석 종류: 계층적 군집/ 비 계층적 군집/ 혼합분포 군집/ 자기조직화지도 등
    계층적 군집: 군집개수 정하지 않음 비 계층적 군집: 군집개수 K 미리 정함
    병합적 방법: 작은 군집 → 병합해나감 K-평균 군집: k개의 군집 묶음 → 군집평균 재계산 → 반복
    분할적 방법: 큰 군집(전체) → 분리해나감 혼합분포 군집: 모수적 모형 기반 군집화 방법
    계통도/ 덴드로그램: 결합되는 순서를 나타내는 트리형태 구조 자기 조직화 지도: 비지도 신경망 클러스터링

     

     

    • 계층적 군집: 유사한 개체를 군집화하는 과정을 반복하여 군집을 형성함
    • 군집 간의 거리측정 방법: 개체간 유사성/거리 측정을 위한 방법들 - 최단/ 최장/ 중심/ 평균/ 와드연결법
    최단 연결법 최장 연결법 중심 연결법 평균 연결법 와드 연결벌
    최솟값으로 측정 최댓값으로 측정 두 군집 중심간 거리 모든항목의 거리평균 군집 내 오차제곱합

     

     

    • 군집 간의 거리계산:
      - 연속형변수 - 수학적거리: 유클리드/ 맨하튼/ 민코프스키
      - 연속형변수 - 통계적거리: 표준화/ 마할라노비스
      - 명목형변수 - 단순일치/ 자카드계수
      - 순서형변수 - 순위상관계수
    연속형 변수 거리 명목형 변수 거리
    유클리드 거리 차이값들의 제곱합을 제곱근 단순일치 계수 일치하는 속성 / 전체 속성
    맨하튼 거리 절댓값들의 합 자카드 계수 유사도 측정 (0~1)
    민코프스키 거리 m차원 민코프스키 공간 순위상관 계수 순서형 자료/ 순위 매김
    표준화 거리 측정단위를 표준화    
    마할라노비스 거리 표준화+상관성 동시에 고려    

     

     

    • K-평균 군집: 주어진 데이터를 K개의 군집으로 묶는 알고리즘 (K개 객체선택 - 할당 - 중심갱신 - 반복)
    절차: 중심 갱신 반복 단점: 이상값에 민감
    - 각 군집 내 자료들의 평균을 계산하여 중심을 갱신
    - 중심 변화가 거의 없을 때 or 최대 반복 수까지 반복
    - 보완방법1: 이상값 미리 제거
    - 보완방법2: K-중앙값 군집화

     

     

    • 혼합분포 군집:
      데이터가 k개의 모수적 모형의 가중합으로 표현되는
      모집단 모형에서 나왔다는 가정 하에, 모수&가중치를 추정
    혼합분포 군집화 방법 혼합모형 = M개 분포의 가중합 EM 알고리즘 (기댓값 최대화)
    추정된 k개의 모형(군집)들 중에서
    어느 모형(군집)에서 나왔을 확률이
    높은지에 따라서 군집을 분류한다
    - 단일모형보다 복잡한 표현식
    - 최대가능도 추정을 위해서
      EM 알고리즘을 활용한다
    E-step: 잠재변수 Z의 기댓값 계산
    M-step: 기댓값 이용하여 파라미터 추정
    E-M-E-M-... 반복!

     

     

    • 자기 조직화 지도 (SOM)
      대뇌피질&시각피질의 학습과정을 기반으로 모델화한 비지도 신경망 클러스터링 기법
    자기조직화지도 특징 입력층 Input Layer 경쟁층 Competitive Layer
    경쟁학습 & 승자독식구조 입력벡터를 받는 층 2차원 m×m격자로 구성된 층
    고차원데이터를 저차원뉴런으로 정렬 입력층-경쟁층의 뉴런들은 완전 연결 입력벡터 특성에 따라, 한 점으로 군집화
    지도 형태로 형상화 지도: 입력층에서 학습→경쟁층에 정렬 경쟁학습으로 연결강도 재조정을 반복
    입력변수의 위치관계를 그대로 보존   경쟁층에 승자 뉴런만 나타남

     


     

    참고 도서: 빅데이터분석기사 필기_수제비 2021

     

     

    728x90
    반응형