-
[빅데이터분석기사 필기 요약] II.빅데이터 탐색 - 03. 통계기법 이해 (1)자격증/빅데이터분석기사-필기 2021. 3. 16. 12:20728x90반응형
빅데이터분석기사 필기 요약
🔑 기술통계/ 기초통계량/ 평균/ 중위수/ 최빈값/ 범위/ 분산/ 표준편차/ 평균의 표준오차/ 분포(첨도, 왜도)/
상관분석/ 회귀분석/ 선형성/ 등분산성/ 독립성/ 비상관성/ 정규성/ 분산분석/ 주성분분석/ 판별분석
II. 빅데이터 탐색
03. 통계기법 이해
1. 기술 통계
1. 기술 통계
- 기술 통계 (Descriptive Statistics)
- 데이터 분석을 목적으로 수집된 데이터를
- 확률·통계적으로
- 정리·요약하는 기초적인 통계 - 기술통계 목적: 분석 초기 단계에, 데이터 분포의 특징을 파악하고자 함!
- 기술통계 방법
- 통계적 수치 계산: 평균/ 분산/ 표준편차
- 그래프 활용: 막대 그래프/ 파이 그래프
- 를 통해 데이터에 대한 전반적인 이해를 도움
[1] 데이터 요약
(1) 기초통계량 | 평균/ 중위수/ 최빈값/ 범위/ 분산/ 표준편차/ 평균의 표준오차/ 분포(첨도, 왜도)
- 평균 (Mean): (자료를 모두 더한 값) / (자료 개수)
- 같은 가중치/ 이상값에 민감
- 모평균: 조사하는 모집단의 평균
- 표본평균: 모집한의 일부분인 표본(Sample)의 평균 - 중위수 (Median): 오름차순 정렬 → 중앙에 위치한 데이터값
- 특이값 영향 X - 최빈값 (Mode): 빈도수가 가장 높은 데이터값
- 범위 (Range): 최댓값(Max) - 최솟값(Min)
- 분산 (Variance): 평균으로부터 흩어진 정도
- 모분산: {(각 데이터값과 평균과의 편차) 제곱의 합} / n
- 표본분산: {(각 데이터 값과 평균과의 편차) 제곱의 합} / (n-1)
- 제곱의 합을 하는 이유: 양의 편차와 음의 편차를 그대로 합하면 0이 되버린다..
(︶^︶) 표본분산은 n-1로 나누는 이유:
모집단에서 표본을 추출하는 단계에서 자유도가 1 빠졌다고 생각하면 쉽다!
(︶^︶) 자유도 (Degree of Freedom) 란, 통계적 추정을 할 때
표본자료 중 모집단에 대한 정보를 주는 독립적인 자료의 수 - 표준편차 (SD; Standard Deviation): 분산의 양의 제곱근
- 분산과 마찬가지로 표본/모집단의 표준편차 - 평균의 표준오차 (표준오차) (SEM; Standard Error of Mean, SE; Standard Error): 표본평균의 표준편차
- 표본의 각 평균들이 전체평균으로부터 평균적으로 얼마나 떨어져 있는가!
- 모집단에서 수많은 표본추출 → 표본들마다 평균 계산 → 각 평균들에 대한 전체 평균 계산
- 분포 (Distribution)
- 분포의 형태 - 첨도 (Kurtosis): 분포의 뾰족한 정도를 설명하는 통계량
- 첨도 = 0: 표준정규분포
- 첨도 > 0: 뾰족! (첨용)
- 첨도 < 0: 납작! (평용) - 분포의 대칭성 - 왜도 (Skewness): 분포의 기울어진 정도/ 비대칭성을 나타내는 통계량
- 왜도 = 0: 좌우대칭
- 왜도 > 0: 오른쪽으로 긴 꼬리
- 왜도 < 0: 왼쪽으로 긴 꼬리
- 분포의 형태 - 첨도 (Kurtosis): 분포의 뾰족한 정도를 설명하는 통계량
(2) 상관분석 (Correlation Analysis) | 2개 이상의 변수간의 연관성의 정도를 측정, 분석하는 방법
- 연관성의 정도: 한 변수가 다른 변수와 어떤 연관성을 가지고 변화하는가
- 분석 방법: 단순상관분석(2변수)/ 다중상관분석(3이상)
- 분석 종류: 수치적/ 명목적/ 순서적 데이터 변수
수치적 데이터 명목적 데이터 순서적 데이터 - 두 변수간의 선형적 연관성을
계량적으로 파악한다.
- 피어슨 상관계수 (-1 ≤ r ≤ +1)- 두 변수간의 연관성을
계량적으로 파악한다.
- 카이제곱 검정- 순서가 의미있는 두 변수간의
연관성, 상관관계를 검정한다.
- 스피어만 순위상관계수
(두 변수가 함께 변하는 정도)를
(두 변수가 각각 변하는 정도)로 나눔
분류표상의 발생빈도를 기반으로 추론
원데이터 대신 순위로 계산함(3) 회귀분석 (Regression Analysis) | 1개 이상의 독립변수들이 종속변수에 미치는 영향을 추정
- 종류 : 단순회귀모형/ 다중회귀모형
종류 단순 회귀모형 다중 회귀모형 독립변수 1개, 수치형 2개 이상
수치형, 범주형종속변수 1개 수치형 1개 수치형 - 적합성평가: 모형에 대한 적합성을 평가
- 분산분석표 : 회귀식이 통계적으로 유의한가
- 결정계수 R²: 모형의 설명력 확인
- 전제조건: 선형성/ 등분산성/ 독립성/ 비상관성/ 정규성 → 잔차 그래프로 확인
- 선형성: 독립변수와 종속변수간 선형관계 존재
- 등분산성: 잔차들의 분산은 같음
- 독립성: 잔차와 독립변수 값은 독립적(상관X)
- 비상관성: 찬자들끼리 독립적(상관X)
- 정규성: 잔차는 정규분포 따름(평균=0, 분산=σ²)
- 분산분석표 : 회귀식이 통계적으로 유의한가
- 독립변수 선택방법: 전진선택법/ 후진선택법/ 단계적방법(전진+후진)
(4) 분산분석 (ANOVA; Analysis of Variance) | 2개 이상의 집단간 비교
- 분산분석 특징
- (집단 내 분산)과 (집단 간 분산)의 비교를 통해 2개 이상의 집단간 비교를 수행
- 분산을 계산하여 집단 간 통계적인 차이를 판정
- F-검정 통계량: (집단 내 분산) 대비 (집단 간 분산)이 몇 배 더 큰지 나타내는 값 - 종류: 일원/ 이원/ 다변량 분산분석/ 공분산 분석
- 독립변수에 의한 집단간 종속변수의 평균 차이를 비교
- 공분산 분석: 연속형 외생변수가 종속변수에 미치는 영향을 제거 → 순수한 집단간 평균 차이를 비교
종류 일원 분산분석
(ANOVA)이원 분산분석
(Two-way ANOVA)다변량 분산분석
(MANOVA)독립변수 1개 2개 - 종속변수 1개 1개 2개 이상 (5) 주성분 분석 (PCA; Principal Component Analysis)
- 주성분 변수를 원래 변수의 선형결합으로 추출하는 통계기법
- 주성분 변수: 원래 변수 정보를 축약한 변수
- 일부 주성분에 의해, 원래 변수의 변동이 충분히 설명되는가!
- 가장 적은 개수의 주성분으로 분산의 최대량을 설명한다.
- 원래 변수 P개, 주성분 개수 K개 → P >> K
(6) 판별 분석 (Discrimination Analysis) | 집단을 구별하는 분석
- 집단에 대한 정보 → 집단 구별 가능한 판별규칙/판별함수 생성 → 새로운 개체는 어떤 집단에 속하는지 판별
참고 도서: 빅데이터분석기사 필기_수제비 2021
728x90반응형'자격증 > 빅데이터분석기사-필기' 카테고리의 다른 글
[빅데이터분석기사 필기 요약] II.빅데이터 탐색 - 03. 통계기법 이해 (3) (0) 2021.03.17 [빅데이터분석기사 필기 요약] II.빅데이터 탐색 - 03. 통계기법 이해 (2) (0) 2021.03.17 [빅데이터분석기사 필기 요약] II.빅데이터 탐색 - 02. 데이터 탐색 (2) (0) 2021.03.15 [빅데이터분석기사 필기 요약] II.빅데이터 탐색 - 02. 데이터 탐색 (1) (0) 2021.03.15 [빅데이터분석기사 필기 요약] II.빅데이터 탐색 - 01. 데이터 전처리 (4) (0) 2021.03.14 - 기술 통계 (Descriptive Statistics)