[빅데이터분석기사 필기 요약] [빅분기 2과목 요약] II. 빅데이터 탐색

[빅데이터분석기사 필기 요약] [빅분기 2과목 요약] II. 빅데이터 탐색 - 요약 (2)

자격증/빅데이터분석기사-필기 2021. 4. 11. 23:09

728x90

[빅데이터분석기사 필기 2과목] II. 빅데이터 탐색

02. 데이터 탐색

데이터 탐색: 데이터 분석 전, 그래프/통계적 방법으로 다양한 각도에서 데이터 특징 파악&직관적으로 보는 분석방법
탐색적 데이터 분석(EDA)의 4가지 주제: 저항성/ 잔차해석/ 자료재표현/ 현시성 (Four R's)

저항성	잔차 해석	자료 재표현	현시성
Resistance	Residuals	Re-expression	Representation
이상값에 영향 적게 받음	주 경향으로부터 벗어난 정도	적당한 척도로 바꾸는 것	쉽게 이해할 수 있도록 시각화

개별 변수/ 다차원 데이터 탐색 방법

범주형 (질적)	수치형 (양적)	범주형-범주형	수치형-수치형	범주형-수치형
- 명목척도&순위척도 - 빈도수/ 최빈값/ 비율 - 막대형 그래프	- 등간척도&비율척도 - 평균/ 분산/ 표준편차 - 박스플롯/히스토그램	- 교차 빈도 - 백분율/비율	- 상관성&추세성 - 피어슨 상관계수 - 산점도/기울기	- 그룹별 비교 - 박스플롯

상관관계 분석: 2개 이상의 변수간 상호연관성의 존재여부&강도를 측정하는 분석방법
- 공분산 (경향)
- 상관계수 (방향성&경향)

공분산 Covariance	피어슨 상관계수	카이제곱 검정 (교차분석)	스피어만 순위 상관계수
두 변수간 상관정도&경향	수치적 데이터	명목적 데이터	순서적 데이터
0보다 크면 상승/ 작으면 하강	범위: (-1, +1)	(ex) 지역, 종교, 성별 등	(ex) 성적 순위, 만족도 등

기초통계량
- 중심경향성: 평균/ 중위수/ 최빈값
- 산포도: 범위/ 분산/ 표준편차/ 변동계수/ 사분위수범위
- 분포: 왜도/ 첨도

- 변동계수(CV): 측정단위가 서로 다른 자료의 흩어진 정도를 상대적으로 비교하기 위함

중심 경향성		산포도 (흩어진 정도)		분포
평균	총합 / 변수개수	범위	Max - Min	왜도	좌/우 치우친 정도
중위수	중앙에 위치한 값	분산	평균으로부터 편차	첨도	뾰족한 정도
최빈값	가장 많이 관측됨	표준편차	분산의 양의제곱근
		변동계수 CV	표준편차 / 평균
		사분위수 범위 IQR	Q3-Q1

데이터 분포: 왜도 & 첨도

왜도 Skewness		첨도 Kurtosis
왼쪽 편포 Negative Skew	왜도 < 0	첨도 < 0	납작
왼쪽 편포 Negative Skew	Mean < Median < Mode	첨도 > 0	뾰족
오른쪽 편포 Positive Skew	왜도 > 0	첨도 = 0	정규분포
오른쪽 편포 Positive Skew	Mode < Median < Mean

시공간 데이터: 시간에 따라 위치/형상이 변하는 데이터 (공간적 객체에 시간의 개념이 추가됨)
- 이산적 변화: 수집주기 일정하지 않음
- 연속적 변화: 수집주기 일정함/ 일종의 함수로 표현
문자열 처리 함수들: split, find, left, mid

split(문자열,구분자)	find(찾는문자, 문자열)	left(문자열, n)	mid(문자열, 시작위치, n)
공백/쉼표 등으로 나눔	찾는문자의 문자열 반환	가장 왼쪽부터 문자열 n개	시작위치부터 문자열 n개

03. 통계기법 이해

기술 통계 (Descriptive Statistics):
수집된 데이터를 확률/통계적으로 정리/요약하는 기초적인 통계 (분포의 특징을 파악)
기초 통계량: 평균/ 중위수/ 최빈값/ 범위/ 분산/ 표준편차/ 평균의 표준편차/ 첨도/ 왜도
- 평균: 이상값 민감/ 중위수: 특이값 영향 X

분산 Variance	평균의 표준오차 SE
평균으로부터 흩어진 정도 - 모분산 = (편차 제곱합) / n - 표본분산 = (편차 제곱합) / (n-1)	표본평균의 표준편차 각 표본마다 평균계산 → 각 평균들의 전체평균 계산

회귀 분석/ 분산 분석/ 주성분 분석/ 판별 분석
판별 분석: 집단에 대한 정보 → 판별규칙/함수 생성 → 새로운 개체가 어떤 집단에 속하는지 판별

회귀분석		분산분석 ANOVA		주성분분석 PCA
독립변수가 종속변수에 미치는 영향 추정		2개 이상의 집단간 비교		일부 주성분으로 원래변수 변동을 설명
결정계수	모형 설명력 확인	F-검정통계량	분산비교	최소의 주성분으로	분산의 최대량 설명
전제조건	선형성/ 등분산성/ 독립성/ 비상관성/ 정규성	일원 이원 다변량	독립변수 1개 독립변수 2개 종속변수 2개이상	주성분변수	원래변수들의 선형결합
독립변수 선택	전진/ 후진/ 단계	공분산 분석	외생변수 영향제거

표본 추출: 단순 무작위 추출/ 계통 추출/ 층화 추출/ 군집 추출

계통 추출	층화 추출	군집 추출
일정한 간격으로 추출	여러 계층별로 무작위 추출 계층: 내부동질/ 외부이질	일부 군집의 전체/일부를 추출 군집: 성질 고려하지 않음!
(ex) 번호 끝자리 5로 끝나는 사람 선정	(ex) 지역별/도별로 무작위 100명 선정	(ex) 검정/노랑/파랑 공 100개→파랑 추출

자료 측정: 질적속성 - 명목척도/ 순서척도 & 양적속성 - 구간척도/ 비율척도

질적 속성		양적 속성
명목척도	순서척도	구간척도	비율척도
분류목적	대소관계	서열과 의미있는 차이	구간척도 + 비율 의미있음
등호연산(=,≠)	비교연산(>,<)	(ex) 온도	승제연산(÷,×)

확률분포: 이산확률분포/ 연속확률분포

이산확률분포	하나씩 셀 수 있는 값	연속확률분포	실수와 같은 연속적인 값
포아송 분포	주어진 시간동안 사건 발생횟수	정규분포	종모양 분포
베르누이 분포	1번 시행 → 성공/실패	표준정규분포	Z(0,1) ⇒ X를 Z로 정규화
이항 분포	n번 시행 → k번 성공확률	T-분포	모집단이 정규분포 모표준편차는 모름~
		카이제곱분포	표준정규 확률변수 제곱합
		F-분포	카이제곱분포 두 확률변수 비

표본분포: 표본이 가지는 추정량의 확률분포
표본의 특성을 보여주는 통계량에 의해, 모집단의 특성을 보여주는 모수를 추론

용어	의미
모집단	분석 대상 집단 전체
모수	모집단 특성을 나타내는 대표값
표본(샘플)	모집단 특성을 추정하기 위해 추출/조사하는 모집단의 일부분
통계량	표본의 특성을 나타냄 (확률변수) (표본에서 얻은 평균, 표준오차 등)
추정량	모수 추정을 위해 구한 통계량
표준오차	통계량의 변동 정도
표본오차	모집단을 대표할 수 있는 것들이 추출되지 못해서 발생하는 오차
비표본오차	표본오차를 제외한 모든오차 (부주의, 실수 등)
큰 수의 법칙	표본 개수(n)가 커질수록, 표본평균과 모평균이 비슷해짐
중심극한정리(CLT)	표본 개수(n)가 커질수록, 모집단 분포와 상관없이, 표본분포가 정규분포와 근사

추론 통계: 점 추정/ 구간 추정

점 추정	모수를 하나의 값으로 추정	구간 추정	범위로 모수 추정 & 신뢰도 제시
점 추정 조건	불편성/ 효율성/ 일치성/ 충족성	신뢰 수준	- 구간에 모수가 포함될 확률 - 귀무가설이 참일때 참으로 판단하는 확률 - 신뢰수준 = 1 - α (유의수준 = α)
사용되는 통계	표본평균/ 표본분산/ 중위수/ 최빈값	신뢰 구간	신뢰수준 기준으로 추정됨 통계적으로 유의미한 모수 범위

가설 (Hypothesis): 모수에 대한 가정/ 잠정적인 결론

귀무가설 H0	대립가설 H1
현재까지 주장되어 온 것 기존과 비교하여 변화/차이가 없음	표본을 통해 확실한 근거를 가지고 입증하고자 하는 가설 (연구가설)

가설 검정: 대립가설을 채택할 수 있는지 평가하는 과정
- 모집단에 대한 통계적 가설(대립가설) 수립 → 표본 추출 → 통계적 가설(대립가설)의 진위를 판단
- 가설 설정 → 유의수준α 설정 → 검정방법 설정 → p-value 산출 → 유의수준과 p-value 비교
- p-value > α : 귀무가설 채택- p-value < α : 귀무가설 기각 (대립가설 채택)

검정 통계량: 가설검정의 대상이 되는 모수를 추론하기 위해 사용하는 표본 통계량
- 귀무가설이 참이라는 전제 하에, 모집단으로부터 추출된 확률표본의 정보를 이용함
가설 검정 오류: 모집단 일부인 표본을 기반으로 모집단에 대해 판단하므로, 오류 발생 가능성이 항상 존재함

제 1종 오류 (α = 유의수준)
제 2종 오류 (β = 베타수준)

귀무가설이 참인데, 기각하게 되는 오류 (H0 T → F)
귀무가설이 거짓인데, 채택하게 되는 오류 (H0 F → T)

p-value
유의확률

- 제 1종 오류를 범할 확률 (귀무가설이 참인데 기각하게 될 확률)
- 귀무가설이 맞다고 가정할 때 얻은 결과보다, 극단적인 결과가 실제로 관측될 확률
- 귀무가설이 맞다고 가정할 때, 얻은 검정통계량보다 크거나 같은 값을 얻을 수 있는 확률
- 귀무가설을 맞다고 가정할 때, 표본 이상으로 극단적인 결과를 얻을 확률
- 귀무가설을 지지하는 방향으로 검정통계량이 나올 확률

참고 도서: 빅데이터분석기사 필기_수제비 2021

728x90

'자격증 > 빅데이터분석기사-필기' 카테고리의 다른 글

[빅데이터분석기사 필기 요약] [빅분기 3과목 요약] III. 빅데이터 모델링 - 요약 (2) (0)	2021.04.13
[빅데이터분석기사 필기 요약] [빅분기 3과목 요약] III. 빅데이터 모델링 - 요약 (1) (2)	2021.04.12
[빅데이터분석기사 필기 요약] [빅분기 2과목 요약] II. 빅데이터 탐색 - 요약 (1) (0)	2021.04.11
[빅데이터분석기사 필기 요약] [빅분기 1과목 요약] I. 빅데이터 분석 기획 - 요약 (2) (1)	2021.04.10
[빅데이터분석기사 필기 요약] [빅분기 1과목 요약] I.빅데이터 분석 기획 - 요약 (1) (2)	2021.04.10

ABOUT ME

서윤로그

'자격증 > 빅데이터분석기사-필기' 카테고리의 다른 글

티스토리툴바

ABOUT ME

'자격증 > 빅데이터분석기사-필기' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바