-
[빅데이터분석기사 필기 요약] [빅분기 2과목 요약] II. 빅데이터 탐색 - 요약 (2)자격증/빅데이터분석기사-필기 2021. 4. 11. 23:09728x90반응형
[빅데이터분석기사 필기 2과목] II. 빅데이터 탐색
02. 데이터 탐색
- 데이터 탐색: 데이터 분석 전, 그래프/통계적 방법으로 다양한 각도에서 데이터 특징 파악&직관적으로 보는 분석방법
- 탐색적 데이터 분석(EDA)의 4가지 주제: 저항성/ 잔차해석/ 자료재표현/ 현시성 (Four R's)
저항성 잔차 해석 자료 재표현 현시성 Resistance Residuals Re-expression Representation 이상값에 영향 적게 받음 주 경향으로부터 벗어난 정도 적당한 척도로 바꾸는 것 쉽게 이해할 수 있도록 시각화 - 개별 변수/ 다차원 데이터 탐색 방법
범주형 (질적) 수치형 (양적) 범주형-범주형 수치형-수치형 범주형-수치형 - 명목척도&순위척도
- 빈도수/ 최빈값/ 비율
- 막대형 그래프- 등간척도&비율척도
- 평균/ 분산/ 표준편차
- 박스플롯/히스토그램- 교차 빈도
- 백분율/비율- 상관성&추세성
- 피어슨 상관계수
- 산점도/기울기- 그룹별 비교
- 박스플롯- 상관관계 분석: 2개 이상의 변수간 상호연관성의 존재여부&강도를 측정하는 분석방법
- 공분산 (경향)
- 상관계수 (방향성&경향)
공분산 Covariance 피어슨 상관계수 카이제곱 검정 (교차분석) 스피어만 순위 상관계수 두 변수간 상관정도&경향 수치적 데이터 명목적 데이터 순서적 데이터 0보다 크면 상승/ 작으면 하강 범위: (-1, +1) (ex) 지역, 종교, 성별 등 (ex) 성적 순위, 만족도 등 - 기초통계량
- 중심경향성: 평균/ 중위수/ 최빈값
- 산포도: 범위/ 분산/ 표준편차/ 변동계수/ 사분위수범위
- 분포: 왜도/ 첨도
- 변동계수(CV): 측정단위가 서로 다른 자료의 흩어진 정도를 상대적으로 비교하기 위함
중심 경향성 산포도 (흩어진 정도) 분포 평균 총합 / 변수개수 범위 Max - Min 왜도 좌/우 치우친 정도 중위수 중앙에 위치한 값 분산 평균으로부터 편차 첨도 뾰족한 정도 최빈값 가장 많이 관측됨 표준편차 분산의 양의제곱근 변동계수 CV 표준편차 / 평균 사분위수 범위 IQR Q3-Q1 - 데이터 분포: 왜도 & 첨도
왜도 Skewness 첨도 Kurtosis 왼쪽 편포
Negative Skew왜도 < 0 첨도 < 0 납작 Mean < Median < Mode 첨도 > 0 뾰족 오른쪽 편포
Positive Skew왜도 > 0 첨도 = 0 정규분포 Mode < Median < Mean - 시공간 데이터: 시간에 따라 위치/형상이 변하는 데이터 (공간적 객체에 시간의 개념이 추가됨)
- 이산적 변화: 수집주기 일정하지 않음
- 연속적 변화: 수집주기 일정함/ 일종의 함수로 표현 - 문자열 처리 함수들: split, find, left, mid
split(문자열,구분자) find(찾는문자, 문자열) left(문자열, n) mid(문자열, 시작위치, n) 공백/쉼표 등으로 나눔 찾는문자의 문자열 반환 가장 왼쪽부터 문자열 n개 시작위치부터 문자열 n개
03. 통계기법 이해
- 기술 통계 (Descriptive Statistics):
수집된 데이터를 확률/통계적으로 정리/요약하는 기초적인 통계 (분포의 특징을 파악) - 기초 통계량: 평균/ 중위수/ 최빈값/ 범위/ 분산/ 표준편차/ 평균의 표준편차/ 첨도/ 왜도
- 평균: 이상값 민감/ 중위수: 특이값 영향 X
분산 Variance 평균의 표준오차 SE 평균으로부터 흩어진 정도
- 모분산 = (편차 제곱합) / n
- 표본분산 = (편차 제곱합) / (n-1)표본평균의 표준편차
각 표본마다 평균계산
→ 각 평균들의 전체평균 계산- 회귀 분석/ 분산 분석/ 주성분 분석/ 판별 분석
- 판별 분석: 집단에 대한 정보 → 판별규칙/함수 생성 → 새로운 개체가 어떤 집단에 속하는지 판별
회귀분석 분산분석 ANOVA 주성분분석 PCA 독립변수가 종속변수에 미치는 영향 추정 2개 이상의 집단간 비교 일부 주성분으로 원래변수 변동을 설명 결정계수 모형 설명력 확인 F-검정통계량 분산비교 최소의 주성분으로 분산의 최대량 설명 전제조건 선형성/ 등분산성/
독립성/ 비상관성/
정규성일원
이원
다변량독립변수 1개
독립변수 2개
종속변수 2개이상주성분변수 원래변수들의
선형결합독립변수 선택 전진/ 후진/ 단계 공분산 분석 외생변수 영향제거 - 표본 추출: 단순 무작위 추출/ 계통 추출/ 층화 추출/ 군집 추출
계통 추출 층화 추출 군집 추출 일정한 간격으로 추출 여러 계층별로 무작위 추출
계층: 내부동질/ 외부이질일부 군집의 전체/일부를 추출
군집: 성질 고려하지 않음!(ex) 번호 끝자리 5로 끝나는 사람 선정 (ex) 지역별/도별로 무작위 100명 선정 (ex) 검정/노랑/파랑 공 100개→파랑 추출 - 자료 측정: 질적속성 - 명목척도/ 순서척도 & 양적속성 - 구간척도/ 비율척도
질적 속성 양적 속성 명목척도 순서척도 구간척도 비율척도 분류목적 대소관계 서열과 의미있는 차이 구간척도 + 비율 의미있음 등호연산(=,≠) 비교연산(>,<) (ex) 온도 승제연산(÷,×) - 확률분포: 이산확률분포/ 연속확률분포
이산확률분포 하나씩 셀 수 있는 값 연속확률분포 실수와 같은 연속적인 값 포아송 분포 주어진 시간동안 사건 발생횟수 정규분포 종모양 분포 베르누이 분포 1번 시행 → 성공/실패 표준정규분포 Z(0,1) ⇒ X를 Z로 정규화 이항 분포 n번 시행 → k번 성공확률 T-분포 모집단이 정규분포
모표준편차는 모름~카이제곱분포 표준정규 확률변수 제곱합 F-분포 카이제곱분포 두 확률변수 비 - 표본분포: 표본이 가지는 추정량의 확률분포
- 표본의 특성을 보여주는 통계량에 의해, 모집단의 특성을 보여주는 모수를 추론
용어 의미 모집단 분석 대상 집단 전체 모수 모집단 특성을 나타내는 대표값 표본(샘플) 모집단 특성을 추정하기 위해 추출/조사하는 모집단의 일부분 통계량 표본의 특성을 나타냄 (확률변수) (표본에서 얻은 평균, 표준오차 등) 추정량 모수 추정을 위해 구한 통계량 표준오차 통계량의 변동 정도 표본오차 모집단을 대표할 수 있는 것들이 추출되지 못해서 발생하는 오차 비표본오차 표본오차를 제외한 모든오차 (부주의, 실수 등) 큰 수의 법칙 표본 개수(n)가 커질수록, 표본평균과 모평균이 비슷해짐 중심극한정리(CLT) 표본 개수(n)가 커질수록, 모집단 분포와 상관없이, 표본분포가 정규분포와 근사 - 추론 통계: 점 추정/ 구간 추정
점 추정 모수를 하나의 값으로 추정 구간 추정 범위로 모수 추정 & 신뢰도 제시 점 추정
조건불편성/ 효율성/
일치성/ 충족성신뢰 수준 - 구간에 모수가 포함될 확률
- 귀무가설이 참일때 참으로 판단하는 확률
- 신뢰수준 = 1 - α (유의수준 = α)사용되는
통계표본평균/ 표본분산/
중위수/ 최빈값신뢰 구간 신뢰수준 기준으로 추정됨
통계적으로 유의미한 모수 범위- 가설 (Hypothesis): 모수에 대한 가정/ 잠정적인 결론
귀무가설 H0 대립가설 H1 현재까지 주장되어 온 것
기존과 비교하여 변화/차이가 없음표본을 통해 확실한 근거를 가지고
입증하고자 하는 가설 (연구가설)- 가설 검정: 대립가설을 채택할 수 있는지 평가하는 과정
- 모집단에 대한 통계적 가설(대립가설) 수립 → 표본 추출 → 통계적 가설(대립가설)의 진위를 판단
- 가설 설정 → 유의수준α 설정 → 검정방법 설정 → p-value 산출 → 유의수준과 p-value 비교
- p-value > α : 귀무가설 채택- p-value < α : 귀무가설 기각 (대립가설 채택)
- 검정 통계량: 가설검정의 대상이 되는 모수를 추론하기 위해 사용하는 표본 통계량
- 귀무가설이 참이라는 전제 하에, 모집단으로부터 추출된 확률표본의 정보를 이용함 - 가설 검정 오류: 모집단 일부인 표본을 기반으로 모집단에 대해 판단하므로, 오류 발생 가능성이 항상 존재함
제 1종 오류 (α = 유의수준)
제 2종 오류 (β = 베타수준)귀무가설이 참인데, 기각하게 되는 오류 (H0 T → F)
귀무가설이 거짓인데, 채택하게 되는 오류 (H0 F → T)p-value
유의확률- 제 1종 오류를 범할 확률 (귀무가설이 참인데 기각하게 될 확률)
- 귀무가설이 맞다고 가정할 때 얻은 결과보다, 극단적인 결과가 실제로 관측될 확률
- 귀무가설이 맞다고 가정할 때, 얻은 검정통계량보다 크거나 같은 값을 얻을 수 있는 확률
- 귀무가설을 맞다고 가정할 때, 표본 이상으로 극단적인 결과를 얻을 확률
- 귀무가설을 지지하는 방향으로 검정통계량이 나올 확률
참고 도서: 빅데이터분석기사 필기_수제비 2021
728x90반응형'자격증 > 빅데이터분석기사-필기' 카테고리의 다른 글
[빅데이터분석기사 필기 요약] [빅분기 3과목 요약] III. 빅데이터 모델링 - 요약 (2) (0) 2021.04.13 [빅데이터분석기사 필기 요약] [빅분기 3과목 요약] III. 빅데이터 모델링 - 요약 (1) (2) 2021.04.12 [빅데이터분석기사 필기 요약] [빅분기 2과목 요약] II. 빅데이터 탐색 - 요약 (1) (0) 2021.04.11 [빅데이터분석기사 필기 요약] [빅분기 1과목 요약] I. 빅데이터 분석 기획 - 요약 (2) (1) 2021.04.10 [빅데이터분석기사 필기 요약] [빅분기 1과목 요약] I.빅데이터 분석 기획 - 요약 (1) (1) 2021.04.10