-
[빅데이터분석기사 필기 요약] III.빅데이터 모델링 - 02. 분석기법 적용 (12) 비모수 통계자격증/빅데이터분석기사-필기 2021. 3. 27. 15:16728x90반응형
빅데이터분석기사 필기 요약
🔑 비모수통계/ 부호 검정/ 윌콕슨 부호 순위 검정/ 윌콕슨 순위 합 검정/ 대응 표본 검정/
크루스칼-왈리스 검정/ 런 검정
III. 빅데이터 모델링
02. 분석기법 적용
1. 분석기법
2. 고급 분석기법
2. 고급 분석기법
[8] 비모수 통계
(1) 비모수 통계
- 비모수 통계 (Non-parametric statistics)
- 평균, 분산과 같은
- 모집단의 분포에 대한 (분포 무관)
- 모수성을 가정하지 않고 = 모수에 대한 가정을 전제하지 않고
- 분석하는 통계적 방법 - 그럼 모수는??
- 모수: 모집단의 분포 특성을 규정짓는 척도 & 모집단의 특성치
- 모수에 대한 통계적 추론: 모집단에서 추출한 표본 특성을 분석 → 모수에 대한 추론
- 비모수 통계의 특징
- 통계량: 빈도/ 부호/ 순위
- 데이터가 모수적 분석방법이 가정한 특성을 불만족하는 경우에 사용!
- 비모수 통계의 장점
- 모수성 가정 불만족으로 인한 오류 가능성 작음
- 모수적 방법보다 통계량 계산 & 직관적 이해 쉬움
- 모집단 분포와 무관하게 사용 가능
- 샘플 개수 작아도 사용 가능 (10개 미만)
- 이상값 영향 적음
- 비모수 통계 검정방법 종류
구분 비모수 통계 모수 통계 단일 표본 (1) 부호 검정
윌콕슨 부호 순위 검정단일표본 T-검정 두 표본 (2) 윌콕슨 부호 합 검정 독립표본 T-검정 부호 검정
윌콕슨 부호 순위 검정대응표본 T-검정 분산 분석 크루스칼-윌리스 검정 ANOVA 무작위성 (임의성) 런 검정 - 상관 분석 (연관성) 스피어만 순위 상관계수 피어슨 상관계수
(2) 단일 표본 부호 검정 | 부호 검정, 윌콕슨 부호 순위 검정
부호 검정
Sign Test윌콕슨 부호 순위 검정
Wilcoxon Signed Rank Test설명 - 차이의 부호 O / 차이의 크기 X
- 중위수와 자료의 차이를 부호로 전환 (-), (+)- 차이의 부호 O / 차이의 크기 O
- 단일 표본 & 대응 표본에서 중위수에 대한 검정가정 - 기본 가정: 연속적 & 독립적인 분포
- 분포의 대칭성 가정: 없어도 된다~- 기본 가정: 연속적 & 독립적인 분포
- 분포의 대칭성 가정: 반드시 필요 O가설 - H0: θ = θ₀ (ex. 중위수는 20이다.)
- H1: θ ≠, >, < θ₀- H0: θ = θ₀ (ex. 중위수는 20이다.)
- H1: θ ≠, >, < θ₀검정
절차
&
특징- 가정한 중위수 θ₀와 같은 데이터를
제외하고 남은 표본 개수를 n으로 둔다!
- 차이가 양수이면 Ψi = 1
- 차이가 음수이면 Ψi = 0
- 검정통계량 B = ∑Ψi- 위치 모수 θ₀와 같은 데이터는 표본에서 제외
- Yi = Xi - θ₀ = 표본 데이터와 중위수의 차이값
- Ri+ = |Yi|들의 순위 (가장 높은 값 = n)
|Yi|가 동점(tie)인 경우 평균순위 사용!
- 차이가 양수이면 Ψi = 1
- 차이가 음수이면 Ψi = 0
- 검정통계량 W+ = ∑ΨiRi+
(3) 두 표본 검정 | 윌콕슨 순위 합 검정, 대응 표본 검정
윌콕슨 순위 합 검정
Wilcoxon Rank Sum Test대응 표본 검정
Paired Sample Test설명 - 윌콕슨 순위합 = 만-휘트니 U검정
- 두 표본의 혼합표본(=표본1+표본2) 순위 합을 이용- 모집단 1개에 2가지 처리
- 각 쌍의 차이값을 통해, 두 중위수의 차이 검정
- 각 쌍의 차이값 = Di = Yi - Xi가정 - 기본: 연속적 & 동일한 분포의 독립적인 모집단 2개
- 분포의 대칭성 가정: 반드시 필요 ODi = 연속적 분포 & 중위수 δ
D 에 대해서 단일표본에서와 같은
부호 검정 & 윌콕슨 부호 순위 검정을 사용한다!가설 - ∆ = 두 모집단의 중위수의 차이값
- H0: ∆ = 0 (두 모집단의 중위수가 같다.)
- H1: ∆ ≠, >, < 0- δ = Di들의 중위수
- H0: δ = 0 (두 쌍의 중위수가 같다.)
- H1: δ ≠, >, < 0검정
절차
&
특징- 두 표본의 표본 개수 m≥n, N=m+n
- 개수 많은 표본 Xi / 개수 더 적은 표본 Yj
- 혼합표본에서 Yj의 순위 Rj 계산
- 동점 있으면 → 평균 순위 사용!
- 검정통계량 W = ∑Rj - {n(n+1)}/2부호 검정
- 검정통계량 B = ∑Ψi
윌콕슨 부호 순위 검정
- 검정통계량 W+ = ∑ΨiRi+
(4) 크루스칼-왈리스 검정 | 분산분석
- 크루스칼-왈리스 검정 (Kruskal-Wallis Test)
- 3개 이상의 집단의 분포 비교
- 3개 이상의 그룹별 중위수 비교
- 각 그룹의 표본 개수는 다를 수 있음
- 모수적 방법의 One-way ANOVA와 같은 목적!
- 가설 설정
- H0: 각 그룹간 중위수는 같다. (ex. A, B, C 3개 그룹의 식이요법은 모두 차이가 없음)
- H1: 적어도 1개 그룹의 중위수는 다르다.
- 순위 부여: 혼합표본(N) 크기순 나열 → 가장 높은 값은 N, 가장 낮은 값은 1로 순위를 부여함
- 값 계산: 각 그룹 순위 합/ 평균 순위/ 총 평균 순위를 계산함
(5) 런 검정 | 연속적인 값들의 임의성(무작위성)
- 런 검정 (Run Test) (Wald-Wolfowitz Runs Test)
- 변수값 2개를 가지는
- 연속적인 측정값들이
- 어떤 패턴/경향 없이
- 임의적(무작위적)으로 나타나는 것이 맞는가? - 런: 동일한 측정값들의 시작~끝까지의 덩어리
- 런 검정의 가정
- 변수값을 2개 가져야 함 (ex. 동전 앞면, 뒷면)
- 이분화된 자료가 아니면 → 기준값을 이용하여 이분화 해야 함
- 기준값은 평균값/ 중위수/ 최빈값/ 또는 다른 지정값으로 사용 가능
- 가설 설정
- H0: 연속적인 측정값들이 임의적이다.
- H1: 연속적인 측정값들이 임의적이지 않다. (어떤 패턴/경향이 있다.)
런 검정의 검정 통계량
참고 도서: 빅데이터분석기사 필기_수제비 2021
728x90반응형'자격증 > 빅데이터분석기사-필기' 카테고리의 다른 글
[빅데이터분석기사 필기 요약] IV.빅데이터 결과 해석 - 01. 분석 모형 평가 및 개선 (2) (0) 2021.03.29 [빅데이터분석기사 필기 요약] IV.빅데이터 결과 해석 - 01. 분석 모형 평가 및 개선 (1) (0) 2021.03.28 [빅데이터분석기사 필기 요약] III.빅데이터 모델링 - 02. 분석기법 적용 (11) 앙상블 분석 (1) 2021.03.27 [빅데이터분석기사 필기 요약] III.빅데이터 모델링 - 02. 분석기법 적용 (10) 비정형 데이터 분석 (0) 2021.03.26 [빅데이터분석기사 필기 요약] III.빅데이터 모델링 - 02. 분석기법 적용 (9) 딥러닝 분석 (0) 2021.03.25 - 비모수 통계 (Non-parametric statistics)