ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [빅데이터분석기사 필기 요약] III.빅데이터 모델링 - 02. 분석기법 적용 (12) 비모수 통계
    자격증/빅데이터분석기사-필기 2021. 3. 27. 15:16
    728x90
    반응형

    빅데이터분석기사 필기 요약

    🔑 비모수통계/ 부호 검정/ 윌콕슨 부호 순위 검정/ 윌콕슨 순위 합 검정/ 대응 표본 검정/

           크루스칼-왈리스 검정/ 런 검정

     

    III. 빅데이터 모델링

       02. 분석기법 적용

          1. 분석기법

          2. 고급 분석기법



     

    2. 고급 분석기법

     

    [8] 비모수 통계

     

    (1) 비모수 통계

    • 비모수 통계 (Non-parametric statistics)
      - 평균, 분산과 같은
      - 모집단의 분포에 대한 (분포 무관)
      - 모수성을 가정하지 않고 = 모수에 대한 가정을 전제하지 않고
      - 분석하는 통계적 방법


    • 그럼 모수는??
      • 모수: 모집단의 분포 특성을 규정짓는 척도 & 모집단의 특성치
      • 모수에 대한 통계적 추론: 모집단에서 추출한 표본 특성을 분석 → 모수에 대한 추론

    • 비모수 통계의 특징
      • 통계량: 빈도/ 부호/ 순위
      • 데이터가 모수적 분석방법이 가정한 특성을 불만족하는 경우에 사용!

    • 비모수 통계의 장점
      • 모수성 가정 불만족으로 인한 오류 가능성 작음
      • 모수적 방법보다 통계량 계산 & 직관적 이해 쉬움
      • 모집단 분포와 무관하게 사용 가능
      • 샘플 개수 작아도 사용 가능 (10개 미만)
      • 이상값 영향 적음

     

     

     


    • 비모수 통계 검정방법 종류
    구분 비모수 통계 모수 통계
    단일 표본 (1) 부호 검정
    윌콕슨 부호 순위 검정
    단일표본 T-검정
    두 표본 (2) 윌콕슨 부호 합 검정 독립표본 T-검정
    부호 검정
    윌콕슨 부호 순위 검정
    대응표본 T-검정
    분산 분석 크루스칼-윌리스 검정 ANOVA
    무작위성 (임의성) 런 검정 -
    상관 분석 (연관성) 스피어만 순위 상관계수 피어슨 상관계수

     


     

    (2) 단일 표본 부호 검정 | 부호 검정, 윌콕슨 부호 순위 검정

      부호 검정
    Sign Test
    윌콕슨 부호 순위 검정
    Wilcoxon Signed Rank Test
    설명 - 차이의 부호 O / 차이의 크기 X
    - 중위수와 자료의 차이를 부호로 전환 (-), (+)
    - 차이의 부호 O / 차이의 크기 O
    - 단일 표본 & 대응 표본에서 중위수에 대한 검정
    가정 - 기본 가정: 연속적 & 독립적인 분포
    - 분포의 대칭성 가정: 없어도 된다~
    - 기본 가정: 연속적 & 독립적인 분포
    - 분포의 대칭성 가정: 반드시 필요 O
    가설 - H0: θ = θ₀ (ex. 중위수는 20이다.)
    - H1: θ ≠, >, < θ₀
    - H0: θ = θ₀ (ex. 중위수는 20이다.)
    - H1: θ ≠, >, < θ₀
    검정
    절차
    &
    특징
    - 가정한 중위수 θ₀와 같은 데이터
      제외하고 남은 표본 개수를 n으로 둔다!

    - 차이가 양수이면 Ψi = 1
    - 차이가 음수이면 Ψi = 0
    - 검정통계량 B = ∑Ψi


    - 위치 모수 θ₀와 같은 데이터는 표본에서 제외
    - Yi = Xi - θ₀ = 표본 데이터와 중위수의 차이값

    - Ri+ = |Yi|들의 순위 (가장 높은 값 = n)
      |Yi|가 동점(tie)인 경우 평균순위 사용!

    - 차이가 양수이면 Ψi = 1
    - 차이가 음수이면 Ψi = 0
    - 검정통계량 W+ = ∑ΨiRi+

     

    (3) 두 표본 검정 | 윌콕슨 순위 합 검정, 대응 표본 검정

      윌콕슨 순위 합 검정
    Wilcoxon Rank Sum Test
    대응 표본 검정
    Paired Sample Test
    설명 - 윌콕슨 순위합 = 만-휘트니 U검정
    - 두 표본의 혼합표본(=표본1+표본2) 순위 합을 이용
    - 모집단 1개에 2가지 처리
    - 각 쌍의 차이값을 통해, 두 중위수의 차이 검정
    - 각 쌍의 차이값 = Di = Yi - Xi
    가정 - 기본: 연속적 & 동일한 분포의 독립적인 모집단 2개
    - 분포의 대칭성 가정: 반드시 필요 O
    Di = 연속적 분포 & 중위수 δ
    D 에 대해서 단일표본에서와 같은
    부호 검정 & 윌콕슨 부호 순위 검정을 사용한다!
    가설 - ∆ = 두 모집단의 중위수의 차이값
    - H0: ∆ = 0 (두 모집단의 중위수가 같다.)

    - H1: ∆ ≠, >, < 0
    - δ = Di들의 중위수
    - H0: δ = 0 (두 쌍의 중위수가 같다.)

    - H1: δ ≠, >, < 0
    검정
    절차
    &
    특징
    - 두 표본의 표본 개수 m≥n, N=m+n
    - 개수 많은 표본 Xi / 개수 더 적은 표본 Yj
    - 혼합표본에서 Yj의 순위 Rj 계산
    - 동점 있으면 → 평균 순위 사용!
    - 검정통계량  W = ∑Rj - {n(n+1)}/2
    부호 검정
    - 검정통계량 B = ∑Ψi

    윌콕슨 부호 순위 검정
    - 검정통계량 W+ = ∑ΨiRi+

     

     

     


     

    (4) 크루스칼-왈리스 검정 | 분산분석

    • 크루스칼-왈리스 검정 (Kruskal-Wallis Test)
      • 3개 이상의 집단의 분포 비교
      • 3개 이상의 그룹별 중위수 비교
      • 각 그룹의 표본 개수는 다를 수 있음
      • 모수적 방법의 One-way ANOVA와 같은 목적!

    • 가설 설정
      • H0: 각 그룹간 중위수는 같다. (ex. A, B, C 3개 그룹의 식이요법은 모두 차이가 없음)
      • H1: 적어도 1개 그룹의 중위수는 다르다.

    • 순위 부여: 혼합표본(N) 크기순 나열 → 가장 높은 값은 N, 가장 낮은 값은 1로 순위를 부여함
    • 값 계산: 각 그룹 순위 합/ 평균 순위/ 총 평균 순위를 계산함

     

    (5) 런 검정 | 연속적인 값들의 임의성(무작위성)

    • 런 검정 (Run Test) (Wald-Wolfowitz Runs Test)
      - 변수값 2개를 가지는
      - 연속적인 측정값들이
      - 어떤 패턴/경향 없이
      - 임의적(무작위적)으로 나타나는 것이 맞는가?

    • : 동일한 측정값들의 시작~끝까지의 덩어리

    • 런 검정의 가정
      • 변수값을 2개 가져야 함 (ex. 동전 앞면, 뒷면)
      • 이분화된 자료가 아니면 → 기준값을 이용하여 이분화 해야 함
        - 기준값은 평균값/ 중위수/ 최빈값/ 또는 다른 지정값으로 사용 가능

    • 가설 설정
      • H0: 연속적인 측정값들이 임의적이다.
      • H1: 연속적인 측정값들이 임의적이지 않다. (어떤 패턴/경향이 있다.)

    런 검정의 검정 통계량


     

    참고 도서: 빅데이터분석기사 필기_수제비 2021

     

    728x90
    반응형