-
[빅데이터분석기사 필기 요약] II.빅데이터 탐색 - 02. 데이터 탐색 (1)자격증/빅데이터분석기사-필기 2021. 3. 15. 13:31728x90반응형
빅데이터분석기사 필기 요약
🔑 데이터 탐색/ EDA/ Four R's/ 저항성/ 잔차해석/ 자료재표현/ 현시성/
상관관계 분석/ 산점도/ 공분산(경향)/ 상관계수(방향+강도)
II. 빅데이터 탐색
02. 데이터 탐색
1. 데이터 탐색 기초
1. 데이터 탐색 기초
[1] 데이터 탐색 개요
(1) 데이터 탐색의 개념
- 데이터 탐색
- 데이터 분석 전,
- 그래프나 통계적인 방법으로 다양한 각도에서
- 데이터 특징을 파악하고, 직관적으로 보는 분석방법 - 데이터 탐색 도구: 도표/ 그래프/ 요약통계
(2) 탐색적 데이터 분석 (EDA; Exploratory Data Analysis) 의 4가지 주제 | 저항성/ 잔차해석/ 자료재표현/ 현시성
- Four R's: Resistance/ Residuals/ Re-expression/ Representation
- 저항성: 부분적 변동에 민감하지 않음
- 오류점, 이상값의 영향을 적게 받음
- (ex) 평균보다 저항성이 큰 중위수를 대푯값으로 선호함 - 잔차 해석: 주 경향에서 벗어난 특징 파악
- 잔차: 관찰 값들이 주 경향으로부터 벗어난 정도
- 보통과 다른 특징/ 왜 존재하는지 탐색 - 자료 재표현: 원래 변수를 적당한 척도로 바꾸는 것
- 데이터 분석 및 해석을 단순화
- 로그/ 제곱근/ 역수 변환
- 데이터 구조파악에 도움 (분포의 대칭성/ 선형성/ 안정성 등) - 현시성: 분석 결과를 쉽게 이해할 수 있도록 시각화
- 현시성 = 데이터 시각화, Display, Visualization
- 숨어있는 정보 시각화 → 자료 구조를 효율적으로 파악
(3) 개별 변수 탐색 방법 | 개별 데이터
- 범주형(질적) 데이터: 명목척도/ 순위척도
- 분포 특성을 중심성/ 변동성 측면에서 파악
- 빈도수/ 최빈값/ 비율/ 백분율 등
- 막대 그래프 활용 - 수치형(양적) 데이터: 등간척도/ 비율척도
- 분포 특성을 중심성/ 변동성/ 정규성 측면에서 파악
- 평균/ 분산/ 표준편차/ 첨도/ 왜도 등
- 박스플롯/ 히스토그램 활용
(4) 다차원 데이터 탐색 방법 | 데이터의 조합
- 범주-범주: 연관성을 분석
- 빈도수/ 비율 활용 → 교차빈도/ 비율/ 백분율 분석 등
- 막대 그래프 - 수치-수치: 상관성/ 추세성을 분석
- 산점도/ 기울기 활용
- 공분산: 방향성 파악
- 피어슨 상관계수: 방향/강도 파악 - 범주-수치: 그룹간 비교
- 각 그룹별 수치형 변수의 기술통계량을 비교
- 박스 플롯
[2] 상관관계 분석
(1) 상관관계 분석의 개념
- 상관관계 분석 (Correlation Analysis)
- 2개 이상의 변수 사이의
- 상호연관성의 존재 여부와
- 연관성의 강도를 측정하는 분석 방법
(2) 변수 사이의 상관관계 종류
- 양의 상관관계 (+): 한 변수↑ 다른 변수↑
- 음의 상관관계 (-): 한 변수↑ 다른 변수↓
- 상관관계 없음 (0): 무관하게 변화
(3) 상관관계의 표현방법 | 산점도/ 공분산(경향)/ 상관계수(방향+강도)
- 산점도(Scatter Plot)
- 공분산(Covariance): 2개 변수간 상관 정도/ 경향
- 0보다 큰가 작은가!
- Cov > 0: 상승 경향
- Cov < 0: 하강 경향
- 단위에 따라 값의 크기가 달라짐 → 강도 나타낼 수 없음..
- 상관계수(Correlation Coefficient): 2개 변수간 방향성/ 강도
- 범위: -1 ≤ r ≤ 1
- 1에 가까울수록 강한 양의 상관관계/ -1에 가까울수록 강한 음의 상관관계
(4) 상관관계 분석의 종류
- 변수의 개수에 따라 → 단순 상관 분석/ 다중 상관 분석
- 단순 상관 분석: 2개 변수 사이의 상관성
- 다중 상관 분석: 3개 이상 변수 사이의 상관성 - 변수의 속성에 따라 → 수치적/ 명목적/ 순서적 데이터
- 수치적 데이터: 피어슨 상관계수
- 전제조건: 두 변수의 분산이 동일하다!
- (ex) 키와 몸무게/ 수입과 지출 - 명목적 데이터: 카이제곱 검정 (교차분석)
- 분류의 의미만 가지므로, 상관계수 계산은 의미 없다~
- (ex) 지역/ 종교/ 성별 - 순서적 데이터: 스피어만 순위상관계수
- 한 변수를 단조 증가함수로 변환하여 다른 변수를 나타낼 수 있는 정도
- 두 변수간의 비선형적인 관계도 나타낼 수 있음!
- (ex) 성적 순위/ 만족도
- 수치적 데이터: 피어슨 상관계수
참고 도서: 빅데이터분석기사 필기_수제비 2021
728x90반응형'자격증 > 빅데이터분석기사-필기' 카테고리의 다른 글
[빅데이터분석기사 필기 요약] II.빅데이터 탐색 - 03. 통계기법 이해 (1) (0) 2021.03.16 [빅데이터분석기사 필기 요약] II.빅데이터 탐색 - 02. 데이터 탐색 (2) (0) 2021.03.15 [빅데이터분석기사 필기 요약] II.빅데이터 탐색 - 01. 데이터 전처리 (4) (0) 2021.03.14 [빅데이터분석기사 필기 요약] II.빅데이터 탐색 - 01. 데이터 전처리 (3) (1) 2021.03.14 [빅데이터분석기사 필기 요약] II.빅데이터 탐색 - 01. 데이터 전처리 (2) (0) 2021.03.14 - 데이터 탐색