-
[빅데이터분석기사 필기 요약] IV.빅데이터 결과 해석 - 01. 분석 모형 평가 및 개선 (3)자격증/빅데이터분석기사-필기 2021. 3. 29. 18:49728x90반응형
빅데이터분석기사 필기 요약
🔑 모집단평균/ Z-검정/ T-검정/ 분산분석/ 모집단분산/ 카이제곱검정/ F-검정/ 적합도검정/
정규성검정/ 샤피로-윌크 검정/ 콜모고로프-스미르노프 검정(K-S검정)/ Q-Q Plot
IV. 빅데이터 결과 해석
01. 분석 모형 평가 및 개선
1. 분석 모형 평가
1. 분석 모형 평가
[4] 모수 유의성 검정
(1) 모집단과 모수 관계
- 모집단 (Population): 분석/관심 대상 전체 그룹
- 모수 (Parameter): 모집단을 설명하는 어떤 값/ 모집단의 특성을 나타내는 값
- 표본 (Sample): 모집단 일부/ 모집단 분석을 위해 추출한 한 집단의 관측치
- 통계량 (Statistic): 모집단을 설명하는 어떤 값을 표본으로부터 구한 값/ 표본의 특성을 나타내는 값
(2) 모집단 평균에 대한 유의성 검정 | Z-검정/ T-검정/ 분산분석
Z-Test T-Test ANOVA 검정통계량 분포를 귀무가설 하에서
정규분포로 근사할 수 있는 통계검정검정통계량이 귀무가설 하에서
T-분포를 따르는 통계검정2개 이상 집단간 비교/ F-분포 이용 - 정규분포 가정
- 모분산을 이미 알고 있는 경우
- 추출된 표본이 같은 모집단에 속하는가- 두 집단간 평균 비교
- 모분산을 모르는 경우/ 표본분산으로 대체
- 표본이 정규성/등분산성/독립성 등을
만족할 경우에 적용함- 집단 내 분산/ 집단 간 분산
- 분산 비교로 얻은 F-분포를 이용함
- 일원 분산분석: 독립변수 1개
- 이원 분산분석: 독립변수 2개- T-분포: 표준정규분포와 유사
- 0 중심 좌우대칭 but 꼬리가 더 길고 평평함
- 정규분포의 평균을 측정할 때 많이 사용하는 분포
- 적은 표본으로 모집단 평균을 추정하기 위해, 정규분포 대신 사용하는 확률분포
- 자유도(= 표본개수-1) 증가할수록, 표준정규분포에 가까워짐
- 중심극한정리: 표본개수가 충분히 크다면/자유도가 30이 넘으면, 정규분포에 가까워진다!
(3) 모집단 분산에 대한 유의성 검정 | 카이제곱검정/ F-검정
카이제곱검정 F-검정 관찰빈도와 기대빈도가 유의하게 다른가 두 표본의 분산 차이가 통계적으로 유의한가
두 모집단 분산 간 비율에 대한 검정- 두 집단간 동질성 검정
- 모집단이 정규분포 따름 & 분산 알고 있는 경우
- 카이제곱분포에 기초- F = s₁² / s₂² (s = 표본분산)
- 활용사례: 동질성 검정/ 평균 벡터 검정/ 상관계수=0 ?- 카이제곱분포: χ = Z₁² + Z₂² + Z₃² + ... + Zn²
- 각각 독립인 표준정규분포를 취하는 확률변수 Z의 제곱의 합인 χ 를 따르는 확률 분포
- 자유도 n 이 작을수록, 왼쪽으로 치우침
- 자유도 n이 클수록, 정규분포에 가까워짐
[5] 적합도 검정
(1) 적합도 검정 | 표본집단 분포가 특정이론을 따르고 있는지 검정
- 기법 유형: 가정된 확률이 정해진 경우 & 아닌경우
- 가정된 확률 검정: 카이제곱검정
- 가정된 확률 없음 → 정규성 검정: 샤피로-윌크 검정/ 콜모고로프-스미르노프 검정/ Q-Q Plot
(2) 적합도 검정 기법
- chisq.test() → p-value > 0.05 → 관측된 데이터가 가정된 확률을 따른다!
- 정규성 검정: 정규성 가정을 만족하지 못한다면, 모형 타당성이 떨어지고 신뢰성을 의심받을 수 있음! 검정 필요!!
샤피로-윌크 검정 콜모고로프-스미르노프 검정 Q-Q Plot Shapiro-Wilk Test K-S Test Quantile-Quantile Plot - shapiro.test()
- 함수에서 수치형 벡터 1개만 사용가능
- 데이터가 적은 경우 사용 (5,000개 이하)
- H0: 표본은 정규분포를 따른다- ks.test()
- 함수에서 x=검정할 데이터, y=이론적분포
- y를 입력하지 않으면 표준정규분포로 계산
- 데이터가 많은 경우 사용 (2,000개 이상)- 그래프 이용
- 정규성가정을 시각적으로 검정
- 대각선 참조선을 따라서 값들이 분포하면, 정규성 가정을 만족한다고 판단함
- 기준 모호/ 주관적
참고 도서: 빅데이터분석기사 필기_수제비 2021
728x90반응형'자격증 > 빅데이터분석기사-필기' 카테고리의 다른 글
[빅데이터분석기사 필기 요약] IV.빅데이터 결과 해석 - 02. 분석 결과 해석 및 활용 (1) (0) 2021.04.02 [빅데이터분석기사 필기 요약] IV.빅데이터 결과 해석 - 01. 분석 모형 평가 및 개선 (4) (0) 2021.04.01 [빅데이터분석기사 필기 요약] IV.빅데이터 결과 해석 - 01. 분석 모형 평가 및 개선 (2) (0) 2021.03.29 [빅데이터분석기사 필기 요약] IV.빅데이터 결과 해석 - 01. 분석 모형 평가 및 개선 (1) (0) 2021.03.28 [빅데이터분석기사 필기 요약] III.빅데이터 모델링 - 02. 분석기법 적용 (12) 비모수 통계 (1) 2021.03.27