[빅데이터분석기사 필기 요약] II.빅데이터 탐색 - 02. 데이터 탐색 (2)

자격증/빅데이터분석기사-필기 2021. 3. 15. 17:41

728x90

빅데이터분석기사 필기 요약

🔑 중심경향성/ 산포도/ 분포/ 히스토그램/ 막대형 그래프/ 박스 플롯/ 산점도/
시공간 데이터/ 다변량 데이터/ 비정형 데이터

II. 빅데이터 탐색

02. 데이터 탐색

1. 데이터 탐색 기초

2. 고급 데이터 탐색

1. 데이터 탐색 기초

[3] 기초통계량 추출 및 이해

(1) 기초통계량 구분 | 중심 경향성/ 산포도/ 분포

중심 경향성	산포도	분포
평균 중위수 최빈값	범위 분산 표준편차 변동계수 사분위 수 범위	왜도 첨도

(2) 중심 경향성의 통계량 | 평균/ 중위수/ 최빈값

평균 (Mean): (변수 값들의 합) / (변수 개수)
- 이상값에 의한 변동 변화 심함
중위수 (Median): 크기 순서로 오름차순 정렬 → 중앙에 위치한 값
- 변수 홀수 개: (n+1) / 2 번째
- 변수 짝수 개: n/2 번째와 (n+2)/2 번째의 평균
최빈값 (Mode): 가장 많이 관측되는 값

(3) 산포도(흩어진 정도)의 통계량 | 범위/ 분산/ 표준편차/ 변동계수/ 사분위 수 범위

범위 (Range): 최댓값(Max) - 최솟값(Min)
분산 (Variance): 평균으로부터 흩어진 정도
- 편차들의 제곱 합
- 모분산은 N으로/ 표본분산은 (n-1)으로 나눔
표준편차 (Standard Deviation): 분산의 양의 제곱근
변동계수 (CV; Coefficient of Variation): 측정 단위가 다른 자료의 흩어진 정도를 상대적으로 비교함
- (표준편차) / (표본평균)
- 값이 클수록 상대적인 차이가 큼
- 변동계수 = 상대 표준편차
사분위 수 범위 (IQR; InterQuartile Range): 자료들의 중간 50%에 포함되는 자료의 산포도
- IQR = Q₃ - Q₁
- Q₁ = 중위수를 기준으로 좌측의 중위수
- Q₃ = 중위수를 기준으로 우측의 중위수

(4) 분포(치우친/뾰족한 정도)의 통계량 | 왜도/ 첨도

왜도 (Skewness): 분포가 좌/우로 치우친 정도
- 왼쪽 편포: 왜도 < 0 (Negative Skew) (아래그림에서 분포 가운데 있는 회색점선이 왼쪽으로 치우쳐서 왼쪽편포임)
  왼쪽 꼬리가 긴 분포: Mean < Median < Mode
- 오른쪽 편포: 왜도 > 0 (Positive Skew) (회색 점선이 오른쪽으로 치우쳐서 오른쪽 편포임)
  오른쪽 꼬리가 긴 분포: Mode < Median < Mean
- 정규 분포: 왜도 = 0
  평균 중심으로 대칭인 분포: Mode = Mean = Median

첨도 (Kurtosis): 정규분포곡선으로부터 위/아래로 뾰족한 정도
- 첨도 < 0: 납작~
- 첨도 > 0: 뾰족~~
- 첨도 = 0: 정규분포

[4] 시각적 데이터 탐색

(1) 시각화 도구 | 히스토그램/ 막대형 그래프/ 박스 플롯/ 산점도

(2) 히스토그램 (Histogram) | 자료 분포 형태를 직사각형 형태로 시각화

가로축: 수치형 데이터
막대: 붙어 있음/ 넓이 일정O

(3) 막대형 그래프 (Barplot) | 여러 항목들의 많고 적음을 비교함

항목별 수향을 막대 길이로 표현
가로축: 수치형 데이터 아니어도 됨~
막대: 떨어져 있음/ 넓이 일정X

(4) 박스 플롯 (Boxplot) | 집합의 범위/ 중앙값/ 이상값을 빠르게 확인할 수 있는 시각화 기법

박스 플롯 = 상자 그림 = 상자 수염 그림
Q1 = 제 1사분위 = 중앙값 기준으로 하위 50% 중에서 중앙값 = 전체 데이터 중 하위 25%에 해당하는 값
Q2 = 제 2사분위 = 중위수 = 정 가운데 순위에 해당하는 값
Q3 = 제 3사분위 = 중앙값 기준으로 상위 50% 중에서 중앙값 = 전제 데이터 중 상위 25%에 해당하는 값
하위 경계 = Q₁ - 1.5 ⨉ IQR
상위 경계 = Q₃ + 1.5 ⨉ IQR
이상값 = 수염보다 바깥쪽에 있는 데이터

(5) 산점도 (Scatter Plot) | 좌표평면 상에 각 관찰점을 표시하는 시각화 기법

2개의 연속형 변수 간의 관계를 볼 수 있음

2. 고급 데이터 탐색

[1] 시공간 데이터 탐색

(1) 시공간 데이터 (Spatio-Temporal Data)

시공간 데이터 개념
- 공간적 객체에
- 시간적 개념이 추가되어
- 시간에 따라, 위치나 형상이 변하는 데이터
시공간 데이터 특징: 거리속성/ 시간속성
- 이산적 변화: 수집 주기 일정 X → 시간 변화에 따라 데이터 추가됨
- 연속적 변화: 수집 주기 일정O → 함수로 연속적인 변화를 표현함
시공간 데이터 타입
- 포인트: 하나의 노드
- 라인: 두개의 노드 + 하나의 세그먼트
- 폴리곤: n개의 노드 + n개의 세그먼트
- 폴리라인: n개의 노드 + n-1개의 세그먼트

(2) 시공간 데이터 탐색 절차

주소를 행정구역으로 변환: 문자열 처리함수로 변환 (split, find, left, mid)
- split(문자열, 구분자): 공백/쉼표 등을 기준으로 나눔
- find(찾는 문자, 문자열): 찾는 문자의 인덱스 반환
- left(문자열, n): 가장 왼쪽부터 n개의 문자열 반환
- mid(문자열, 시작위치, n): 문자열의 시작위치부터 n개 만큼 문자열 반환
주소를 좌표계로 변환: 위도, 경도로 반환 (지오코딩 서비스)
행정구역, 좌표계를 지도에 표시: 코로플레스 지도/ 카토그램/ 버블플롯맵

코로플레스 지도 (Choropleth Map)	카토그램 (Cartogram)	버블플롯맵 (Bubble Plot Map)
- 등치지역도 - 데이터 값 크기에 따라 영역 색칠 - 지역 면적 ≠ 실제 데이터 값 크기	- 변량비례도 - 데이터 값 크기에 따라 면적 왜곡 - 직관적으로 인지 가능	- 위도, 경도 적용 - 좌표를 원으로! - 원 크기, 색깔 반영

[2] 다변량 데이터 탐색

(1) 다변량 데이터

변량 (Variance): 조사대상의 특징/성질을 숫자 or 문자로 나타낸 값
유형: 종속변수(Y) 수에 따라 → 일변량/ 이변량/ 다변량 데이터
- 일변량: 각 단위에 대해 1개의 속성만 측정
- 이변량: 2개의 특성을 측정
- 다변량: 2개 이상의 특성을 측정

(2) 변량 데이터 탐색

일변량 데이터 탐색 방법
- 기술 통계량: 평균/ 분산/ 표준편차 등
- 그래프 통계량: 히스토그램/ 상자그림 등
이변량 데이터 탐색 방법: 동시 관측 → 변수간 관계 밝히기!
다변량 데이터 탐색 방법: 분석 전에 시각적으로 탐색 → 산점도 행렬/ 별 그림/ 등고선 그림 등

(3) 다변량 데이터 탐색 도구 | 산점도 행렬/ 별 그림

산점도 행렬: 두 변수간 산점도를 행렬로 → 변수간 연관성 표현
- 그림 행렬: 변수 최대 20개/ 가능한 모든 조합!
- 개별 Y대 개별 X행렬: 각 xy조합의 그래프들
별 그림
- 점: 각 변수에 대응
- 반경: 각 변숫값에 비례

[3] 비정형 데이터 탐색

(1) 비정형 데이터 (Unstructured Data) | 구조화 되지 않은 데이터 (이미지/ 영상/ 텍스트)

(2) 비정형 데이터의 유형 및 탐색방법

비정형 데이터
- 텍스트: 정형 데이터로 변환 → 단어 빈도
  - 탐색방법: 파싱(Parsing) 후 탐색
- 이미지: 픽셀마다 수치화 → CNN 등의 딥러닝 기법
  - 탐색방법: 응용소프트웨어 활용
반정형 데이터: XML/ JSON/ HTML
- 탐색방법: 각 파서를 이용하여 파싱 후 탐색

(3) 비정형 데이터 탐색 플랫폼 | HDFS/ 맵리듀스/ 주키퍼/ Avro/ Hive/ Pig/ HCatalog

참고 도서: 빅데이터분석기사 필기_수제비 2021

728x90

'자격증 > 빅데이터분석기사-필기' 카테고리의 다른 글

[빅데이터분석기사 필기 요약] II.빅데이터 탐색 - 03. 통계기법 이해 (2) (0)	2021.03.17
[빅데이터분석기사 필기 요약] II.빅데이터 탐색 - 03. 통계기법 이해 (1) (0)	2021.03.16
[빅데이터분석기사 필기 요약] II.빅데이터 탐색 - 02. 데이터 탐색 (1) (0)	2021.03.15
[빅데이터분석기사 필기 요약] II.빅데이터 탐색 - 01. 데이터 전처리 (4) (0)	2021.03.14
[빅데이터분석기사 필기 요약] II.빅데이터 탐색 - 01. 데이터 전처리 (3) (1)	2021.03.14

ABOUT ME

서윤로그

'자격증 > 빅데이터분석기사-필기' 카테고리의 다른 글

티스토리툴바

ABOUT ME

'자격증 > 빅데이터분석기사-필기' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바