-
[빅데이터분석기사 필기 요약] II.빅데이터 탐색 - 03. 통계기법 이해 (2)자격증/빅데이터분석기사-필기 2021. 3. 17. 00:20728x90반응형
빅데이터분석기사 필기 요약
🔑 표본추출/ 확률분포/ 포아송분포/ 베르누이분포/ 이항분포/
정규분포/ 표준정규분포/ T-분포/ 카이제곱분포/ F-분포/ 표본분포II. 빅데이터 탐색
03. 통계기법 이해
1. 기술 통계
1. 기술 통계
[2] 표본 추출
(1) 표본 추출 기법 | 단순 무작위/ 계통/ 층화/ 군집 추출
- 단순 무작위 추출: 정해진 규칙없이 표본 추출
- 계통 추출: 일정한 간격으로 표본 추출
- 층화 추출: 여러 계층 나눔 → 계층별로 무작위 추출
- 계층: 내부 동질/ 외부 이질
- (ex) 지역별 여론조사 - 군집 추출: 여러 군집 나눔 → 일부 군집의 전체 or 일부 추출
- 군집: 계층과 다르게 성질 고려X
(2) 자료 측정 (Measurement) | 대상의 특정한 속성을 숫자 or 기호로 표시
- 척도 (Scale): 명목척도/ 순서척도/ 구간척도/ 비율척도
질적 속성 양적 속성 명목척도
Nominal Scale순서척도
Ordinal Scale구간척도
Interval Scale비율척도
Ratio Scale분류목적
등호연산 가능 (=, ≠)대소관계
비교연산 가능 (>, <)서열과
의미있는 차이 가짐구간 척도 + 척도간 비율
승제연산 가능 (÷, ×)(ex) 이메일 주소/ 계정/ 성별 (ex) 직급/ 영화평점/ 선호도 (ex) 온도/ 지능지수 (ex) 질량/ 개수/ 길이
[3] 확률분포
(1) 확률분포 (Probability Distribution)
- 확률분포: 확률변수가 특정한 값을 가질 확률을 나타내는 분포
- 확률변수: 확률적인 과정에 따라 값이 결정되는 변수
(2) 확률분포의 종류 | 이산확률분포/ 연속확률분포
- 이산확률분포 (Discrete Probability Distribution): 포아송/ 베르누이/ 이항분포
- 이산확률변수는 하나씩 셀 수 있는 값을 취함 (X = 0, 1, 2, 3, ...)
포아송 분포 베르누이 분포 이항 분포 🔑 발생 횟수 🔑 1번 시행 🔑 n번 시행 주어진 시간, 영역에서
어떤 사건의 발생횟수시행 결과
성공 or 실패n번 시행/ 각 시행 확률 = p
k번 성공할 확률분포- 연속확률분포 (Continuous Probability Distribution): 정규분포/ 표준정규분포/ T-분포/ 카이제곱분포/ F-분포
- 연속확률변수는 실수와 같이 연속적인 값을 취함
- 카이제곱분포: 표본통계량이 표본분산일 때 표본 분포
정규분포 표준정규분포 (Z-분포) T-분포 카이제곱분포 F-분포 N(μ, σ²)
종모양 분포Z(0, 1)
X를 Z로 정규화정규분포라는 건 알고
모표준편차는 모를때!서로 독립적인 K개의
표준정규 확률변수
각각 제곱해서 합함독립적인
카이제곱분포에서
두 확률변수의 비
[4] 표본 분포
(1) 표본 분포 (Sampling Distribution) | 표본이 가지는 추정량의 확률분포
- 표본 분포
- 모집단에서 추출한
- 크기가 n개로 일정한
- 표본이 가지는 추정량의 확률분포 - 표본의 특성을 보여주는 통계량(Statistics)에 의해
모집단의 특성을 보여주는 모수(Parameter)를 추론한다!
(2) 표본 분포 용어 | 모집단/ 모수/ 통계량/ 추정량/ 표준편차/ 표준오차
- 모집단 (Population): 분석 대상 집단 전체
- 모수 (Parameter): 모집단을 특성을 나타내는 대푯값
- 통계량 (Statistics): 표본에서 얻은 평균, 표준오차와 같은 값
- 통계량을 통해 모수를 추정함
- 표본에 따라 달라지므로 통계량은 확률변수임 - 추정량 (Estimator): 모수 추정을 위해 구한 통계량
- 표준편차 (Standard Deviation): 자료의 변동 정도
- 표준오차 (Standard Error): 통계량의 변동 정도
- 평균을 낸 값들의 표준편차
(3) 표본 조사 용어 | 표본오차/ 비표본오차/ 표본편의
- 표본 (Sample): 모집단의 특성을 추정하기 위해, 조사하는 모집단의 일부분
- 표본 조사: 모집단 일부분을 조사하는 행위
- 표본오차 (Sampling Error): 모집단을 대표할 수 있는 것들이 추출되지 못해서 발생하는 오차
- 비표본오차 (Non-Sampling Error): 표본오차를 제외한 모든 오차 (조사과정 부주의, 실수, 알 수 없는 원인 등)
- 표본편의 (Sampling Bias): 표본추출 방법에서 생기는 오차 (모수를 작게 or 크게 추정)
- 확률화(Randomization): 모집단으로부터 편의되지 않은 표본을 추출하는 절차
- 확률화 절차로 추출한 확률표본으로, 표본편의를 최소화할 수 있음~
(3) 표본 분포와 관련된 법칙 | 큰 수의 법칙/ 중심 극한 정리
- 큰 수의 법칙 (Law Large Number)
표본 개수 n이 커질수록 → 표본평균 분산이 0에 가까워짐
→ 즉, 데이터 퍼짐이 적어짐 → 표본평균과 모평균이 비슷해짐 - 중심 극한 정리 (Central Limit Theorem)
표본 개수 n이 커질수록 → 모집단 분포와 상관없이, 표본분포가 정규분포에 근사
(4) 표본 분포의 유형 | Z-분포/ T-분포/ 카이제곱 분포/ F-분포
참고 도서: 빅데이터분석기사 필기_수제비 2021
728x90반응형'자격증 > 빅데이터분석기사-필기' 카테고리의 다른 글
[빅데이터분석기사 필기 요약] III.빅데이터 모델링 - 01. 분석 모형 설계 (1) (0) 2021.03.17 [빅데이터분석기사 필기 요약] II.빅데이터 탐색 - 03. 통계기법 이해 (3) (0) 2021.03.17 [빅데이터분석기사 필기 요약] II.빅데이터 탐색 - 03. 통계기법 이해 (1) (0) 2021.03.16 [빅데이터분석기사 필기 요약] II.빅데이터 탐색 - 02. 데이터 탐색 (2) (0) 2021.03.15 [빅데이터분석기사 필기 요약] II.빅데이터 탐색 - 02. 데이터 탐색 (1) (0) 2021.03.15 - 단순 무작위 추출: 정해진 규칙없이 표본 추출