ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [빅데이터분석기사 필기 요약] III.빅데이터 모델링 - 02. 분석기법 적용 (1) 회귀분석
    자격증/빅데이터분석기사-필기 2021. 3. 20. 22:11
    728x90
    반응형

    빅데이터분석기사 필기 요약

    🔑 회귀분석/ 선형성/ 독립성/ 등분산성/ 비상관성/ 정상성

           추정/ 최소제곱법/ 회귀계수/ 결정계수/ F-통계량/ 로지스틱회귀분석/ 다중공선성

     

    III. 빅데이터 모델링

       02. 분석기법 적용

          1. 분석기법

          



     

    1. 분석기법

     

    [1] 회귀 분석

     

    (1) 회귀 분석 (Regression Analysis) | 1개 이상의 독립변수가 종속변수에 미치는 영향을 추정

    • 회귀 분석
      - 변수들 사이의 인과관계를 밝히고
      - 모형을 적합하여
      - 관심있는 변수를 예측/추론

    • 변수: 영향을 주는 변수(x)/ 영향을 받는 변수(y)
      - 영향을 주는 변수 = 독립변수 = 설명변수 = 예측변수
      - 영향을 받는 변수 = 종속변수 = 반응변수 = 결과변수

    • 가정: 선형성/ 독립성/ 등분산성/ 비상관성/ 정상성
      - 단순모형: 선형성 검증 / 다중모형: 5개 가정 모두 검증
      • 선형성: 독립변수와 종속변수의 선형관계
      • 독립성: 잔차와 독립변수 상관X
      • 등분산성: 오차들의 분산 일정
      • 비상관성: 오차들 간 상관X
      • 정상성: 오차항(잔차항)이 정규분포

    • 모형 검증 체크리스트: 통계적 유의미/ 회귀계수/ 설명력/ 데이터 적합/ 가정 만족
      • 통계적 유의미: F-통계량, p-value 확인
      • 회귀계수 :계수의 T-통계량, p-value, 신뢰구간 확인
      • 설명력: 결정계수 확인
      • 데이터 적합: 잔차 그래프 → 회귀 진단
      • 가정 만족: 5개 가정 모두 만족?

    (︶^︶) 변수(Variable)이란, 수식에 따라서 변하는 값을 말한다.

    (︶^︶) 계수(Coefficient)란, '인자'의 뜻으로 쓰이며 식 앞에 곱해지는 상수를 의미한다.

     

     

    •  편차 vs. 오차 vs. 잔차
      • 편차(Deviation): 평균과의 차이 = 관측값이 평균값에서 떨어져 있는 정도

      • 오차(Error): 모집단에서 실젯값과 회귀선의 차이 즉, 정확치와 관측값의 차이
        - 예측하기 위한 추정치와 실젯값의 차이 = 예측값이 정확하지 못한 정도

      • 잔차(Residual): 표본에서 나온 관측값과 회귀선의 차이
        - 평균이 아닌, 회귀식 등으로 추정된 추정치와의 차이
        - 추정된 값을 설명할 수 없어서 아직도 남아있는 편차 = 편차 일부분

     

     

     


     

    (2) 회귀 분석 유형 | 단순선형/ 다중선형

    • 단순선형 회귀 분석 (Simple Linear Regression Analysis): 독립변수 1개/ 종속변수 1개/ 오차항 있는 선형관계
      • 회귀식: yi = β₀ + β₁xi + ei
        - 오차항 ei는 독립적, N(0, σ²)의 분포

      • 회귀계수 추정: 최소제곱법 사용하여 추정
        - 최소제곱법(Least Square Method): 오차 제곱의 합이 가장 최소가 되는 회귀계수를 찾는다!

      • 회귀분석 검정: 결정계수를 계산하여 결과가 적합한지 검증
        - 회귀계수 검정: β₀ = 0 이면, 추정식은 의미없음
        - 회귀직선 적합도/정확도 평가: 결정계수(R²) (0 ≤ R² ≤ 1) 

      • 선형회귀의 문제점: 0 이하의 값 or 1 이상의 값을 예측값으로 줄 수 있음 → 확률값으로 직접 해석할 수 없음
    선형 회귀 예시
      - 결정계수(R²) = (회귀제곱합) / (전체제곱합)
                                 = SSR / SST = SST / (SSR+SSE)

      - 회귀모형이 전체데이터를 얼마나 잘 설명하는지 보여줌
      - 추정된 회귀식/회귀직선이 얼마나 타당/적합한지 검토
      - 독립변수가 종속변수 변동의 몇 %를 설명하는지 나타냄
      - 총 변동 중, 회귀모형에 의해 설명되는 변동이 차지하는 비율

      ※ 수정된 결정계수 (Adjusted R-squared)
       독립변수 개수가 많아지면, 독립변수가 유의하지 않아도
       결정계수가 높아진다는 단점 → 이럴 때 수정된 R² 사용함

     

    SSE
    Error Sum of Squares
    SST
    Total Sum of Squares
    SSR
    Regression Sum of Squares
    오차 제곱합 전체 제곱합 회귀 제곱합

     

     

    • 다중선형 회귀 분석 (Multi Linear Regression Analysis): 독립변수 여러 개/ 종속변수 1개
      • 모형의 통계적 유의성: F-통계량으로 확인
        - F-통계량↑ p-value↓ → p-value < 0.05 이면 귀무가설 기각 → 모형이 통계적으로 유의하다!
        - F = MSR/MSE = (SSR/k) / {SSE/(n-k-1)}

      • 회귀분석 검정:
        - 회귀계수: t-통계량
        - 회귀선: 결정계수
        - 모형적합성: 잔차와 종속변수의 산점도
        - 다중공선성: VIF, 상태지수

      • 다중공선성 (Multicolinearity):
        다중회귀분석에서 독립변수들 간 선형관계가 존재한다면 → 정확한 회귀계수 추정 어려움

        - 분산팽창요인 (VIF): 4 < VIF 다중공선성 존재/ 10 < VIF 심각한 문제
        - 상태지수: 10 < 상태지수 이면 문제있음/ 30 < 상태지수 이면 심각!
        - 다중공선성 문제 발생 → 변수 제거/ 주성분 회귀/ 능형 회귀 (Ridge Regression) 적용

    (︶^︶) F-통계량은 분산이 동일하다고 가정되는 두 모집단으로부터,

                         독립적인 두 표본을 추출했을 때, 두 표본분산의 비율이다.

    (︶^︶) 주성분회귀(PCR)란, 독립변수들의 주성분들을 추출하여 회귀모델을 만드는 기법을 말한다.

    (︶^︶) 능형회귀(Ridge Regression)는 최소제곱합에 패널티 항을 추가하여 추정하여, 분산을 줄여주는 효과가 있다.

     

     

    • 주성분 분석: 서로 상관성이 높은 변수들을 선형결합으로 요약, 축소하는 기법
      - 변수들의 분산 방식의 패턴을 간결하게 표현하는 주성분 변수를 원래 변수의 선형결합으로 추출하는 통계기법
      - 분석을 통해 나타나는 주성분으로 변수들 사이의 구조를 쉽게 이해하는 건 어렵다..요약하는 게 주 목적!

     

     

     


     

    [2] 로지스틱 회귀 분석

     

    (1) 로지스틱 회귀 분석 (Logistic Regression Analysis) | 반응변수(종속변수)가 범주형, 분류 목적으로 사용

    • 로지스틱 회귀 분석
      - 새로운 설명변수(독립변수) 값이 주어질 때
      - 반응변수(종속변수)의 각 범주
      - 속할 확률이 어느정도인지 추정하여
      - 추정 확률을 기준치에 따라 분류

    • 로지스틱 회귀모형의 사용
      - 클래스가 알려진 데이터에서
      - 각 클래스내의 관측치들에 대한
      - 유사성을 찾는 데 사용할 수 있다.


    • 승산 (오즈; Odds) = 실패에 비해 성공할 확률의 비 =  p / (1-p)
      • 회귀식: log( π(x) / (1-π(x)) ) = α + β₁x
        - π(x) = P(Y=1 | x)

      • 회귀계수 β₁ 부호에 따라 로지스틱 함수 그래프 모양이 달라짐
        ⇒  β₁ > 0 -      S자
        ⇒  β₁ < 0 - 역 S자

      • R 함수
        - glm(): 모형 적합 함수
        - cdplot(): 연속형변수의 변화에 따른 범주형변수의 조건부분포 조회 (탐색적 분석)
        - step(): 변수 선택 함수

     

    참고 도서: 빅데이터분석기사 필기_수제비 2021

     

    728x90
    반응형