ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [빅데이터분석기사 필기 요약] IV.빅데이터 결과 해석 - 01. 분석 모형 평가 및 개선 (3)
    자격증/빅데이터분석기사-필기 2021. 3. 29. 18:49
    728x90
    반응형

    빅데이터분석기사 필기 요약

    🔑 모집단평균/ Z-검정/ T-검정/ 분산분석/ 모집단분산/ 카이제곱검정/ F-검정/ 적합도검정/

           정규성검정/ 샤피로-윌크 검정/ 콜모고로프-스미르노프 검정(K-S검정)/ Q-Q Plot

     

    IV. 빅데이터 결과 해석

       01. 분석 모형 평가 및 개선

          1. 분석 모형 평가

     

     

     



     

    1. 분석 모형 평가

     

    [4] 모수 유의성 검정

     

    가설검정 유형

     

    (1) 모집단과 모수 관계

    • 모집단 (Population): 분석/관심 대상 전체 그룹
    • 모수 (Parameter): 모집단을 설명하는 어떤 값/ 모집단의 특성을 나타내는 값

    • 표본 (Sample): 모집단 일부/ 모집단 분석을 위해 추출한 한 집단의 관측치
    • 통계량 (Statistic): 모집단을 설명하는 어떤 값을 표본으로부터 구한 값/ 표본의 특성을 나타내는 값

     

    (2) 모집단 평균에 대한 유의성 검정 | Z-검정/ T-검정/ 분산분석

    Z-Test T-Test ANOVA
    검정통계량 분포를 귀무가설 하에서
    정규분포로 근사할 수 있는 통계검정
    검정통계량이 귀무가설 하에서
    T-분포를 따르는 통계검정
    2개 이상 집단간 비교/ F-분포 이용
    - 정규분포 가정
    - 모분산을 이미 알고 있는 경우
    - 추출된 표본이 같은 모집단에 속하는가
    - 두 집단간 평균 비교
    - 모분산을 모르는 경우/ 표본분산으로 대체
    - 표본이 정규성/등분산성/독립성 등을
       만족할 경우에 적용함
    - 집단 내 분산/ 집단 간 분산
    - 분산 비교로 얻은 F-분포를 이용함
    - 일원 분산분석: 독립변수 1개
    - 이원 분산분석: 독립변수 2개

     

     

    • T-분포: 표준정규분포와 유사
      • 0 중심 좌우대칭 but 꼬리가 더 길고 평평함
      • 정규분포의 평균을 측정할 때 많이 사용하는 분포
      • 적은 표본으로 모집단 평균을 추정하기 위해, 정규분포 대신 사용하는 확률분포
      • 자유도(= 표본개수-1) 증가할수록, 표준정규분포에 가까워짐
      • 중심극한정리: 표본개수가 충분히 크다면/자유도가 30이 넘으면, 정규분포에 가까워진다!

     

    (3) 모집단 분산에 대한 유의성 검정 | 카이제곱검정/ F-검정

    카이제곱검정 F-검정
    관찰빈도와 기대빈도가 유의하게 다른가 두 표본의 분산 차이가 통계적으로 유의한가
    두 모집단 분산 간 비율에 대한 검정
    - 두 집단간 동질성 검정
    - 모집단이 정규분포 따름 & 분산 알고 있는 경우
    - 카이제곱분포에 기초
    - F = s₁² / s₂² (s = 표본분산)
    - 활용사례: 동질성 검정/ 평균 벡터 검정/ 상관계수=0 ?

     

     

    • 카이제곱분포:  χ = Z₁² + Z₂² + Z₃² + ... + Zn²
      • 각각 독립인 표준정규분포를 취하는 확률변수 Z의 제곱의 합인 χ 를 따르는 확률 분포
      • 자유도 n 이 작을수록, 왼쪽으로 치우침
      • 자유도 n이 클수록, 정규분포에 가까워짐

     

     

     


     

    [5] 적합도 검정

     

    (1) 적합도 검정 | 표본집단 분포가 특정이론을 따르고 있는지 검정

    • 기법 유형: 가정된 확률이 정해진 경우 & 아닌경우
      • 가정된 확률 검정: 카이제곱검정
      • 가정된 확률 없음 → 정규성 검정: 샤피로-윌크 검정/ 콜모고로프-스미르노프 검정/ Q-Q Plot

     

    (2) 적합도 검정 기법

    • chisq.test() → p-value > 0.05 → 관측된 데이터가 가정된 확률을 따른다!
    • 정규성 검정: 정규성 가정을 만족하지 못한다면, 모형 타당성이 떨어지고 신뢰성을 의심받을 수 있음! 검정 필요!!
    샤피로-윌크 검정 콜모고로프-스미르노프 검정 Q-Q Plot
    Shapiro-Wilk Test K-S Test Quantile-Quantile Plot
    - shapiro.test()
    - 함수에서 수치형 벡터 1개만 사용가능
    - 데이터가 적은 경우 사용 (5,000개 이하)
    - H0: 표본은 정규분포를 따른다
    - ks.test()
    - 함수에서 x=검정할 데이터, y=이론적분포
    - y를 입력하지 않으면 표준정규분포로 계산
    - 데이터가 많은 경우 사용 (2,000개 이상)
    - 그래프 이용
    - 정규성가정을 시각적으로 검정
    - 대각선 참조선을 따라서 값들이 분포하면,    정규성 가정을 만족한다고 판단함
    - 기준 모호/ 주관적

     

    Q-Q Plot


     

    참고 도서: 빅데이터분석기사 필기_수제비 2021

     

    728x90
    반응형