[빅데이터분석기사 필기 요약] I.빅데이터 분석 기획 - 03. 데이터 수집 및 저장 계획 (2)

자격증/빅데이터분석기사-필기 2021. 3. 11. 19:41

728x90

빅데이터분석기사 필기 요약

🔑 데이터 속성/ 데이터 측정 척도/ 명목척도/ 순서척도/ 등간척도/ 비율척도/ 데이터 변환/ 평활화/ 집계/ 일반화/ 정규화

I. 빅데이터 분석 기획

03. 데이터 수집 및 저장 계획

1. 데이터 수집 및 전환

1. 데이터 수집 및 전환

[2] 데이터 유형 및 속성 파악

(1) 데이터 유형 | 구조/ 시간/ 저장 형태 관점에 따라 분류함

구조 관점: 정형/ 비정형/ 반정형
스키마 구조 또는 연산 가능 여부에 따라 분류한다.
- 정형 데이터: 스키마(형태) 구조 기반 형태/ 고정된 필드에 저장/ 일관성 O/ 칼럼, 로우 구조
  - 관계형 데이터베이스(RDB), 스프레드시트(SpreadSheet)/ ERP/ CRM/ SCM
- 반정형 데이터: 스키마 구조 형태 가짐/ 메타데이터 포함/ 일관성 X
  - XML/ HTML/ 웹 로그/ 시스템 로그/ 알람/ JSON/ RSS/ 센서 데이터
- 비정형 데이터: 스키마 구조 형태 X/ 고정된 필드 X
  - SNS/ 웹 게시판/ 텍스트/ 이미지/ 오디오/ 비디오

시간 관점: 실시간/ 비실시간
시간 관점 또는 활용 주기에 따라 분류한다.
- 실시간 데이터: 생성된 이후 수 초 ~ 수 분 이내에 처리되어야 의미있는 현재 데이터
  - 센서 데이터/ 알람/ 시스템 로그/ 네트워크 장비 로그/ 보안 장비 로그
- 비실시간 데이터: 생성된 이후 수 시간 or 수 주 이후에 처리되어야 의미있는 과거 데이터
  - 통계/ 웹 로그/ 서비스 로그/ 구매 정보/ 디지털 헬스케어 정보

저장 형태 관점: 파일/ 데이터베이스/ 콘텐츠/ 스트림 데이터
- 파일 데이터: 파일 형식으로 저장/ 크기가 대용량 or 개수가 다수인 데이터
- 데이터베이스 데이터: 데이터 종류 or 성격에 따라 데이터베이스의 컬럼 또는 테이블 등에 저장된 데이터
  - 관계형 데이터베이스(RDBMS), NoSQL, 인메모리 데이터베이스
- 콘텐츠 데이터: 개별적 객체로 구분될 수 있는 미디어 데이터
  - 텍스트/ 이미지/ 오디오/ 비디오 등
- 스트림 데이터: 네트워크를 통해 실시간 전송되는 데이터
  - 센서 데이터/ HTTP 트랜잭션/ 알람 등

(2) 데이터 속성 파악

수집 데이터 종류: 정형/ 반정형/ 비정형
- 정형: 고정된 컬럼/ 행열에 의해 속성 구별/ 스키마를 지원함
- 반정형: 정형 데이터의 스키마에 해당하는 메타데이터를 가짐
- 비정형: 대표적으로는 텍스트 데이터나 멀티미디어 데이터
데이터 형태에 따른 분류: 정성적/ 정량적
- 정성적: 언어, 문자 형태/ 저장, 검색, 분석에 많은 비용 소모
- 정량적: 수치, 도형, 기호 형태/ 정형화된 데이터이므로 비용 소모 적음

데이터 속성 파악
- 범주형(Categorical, 질적변수): 특성에 따라 범주로 구분하여 측정되는 변수
  - 연산 불가/ 각 범주에 속한 개수, 퍼센트를 다룸/ 원그래프, 막대그래프 등
  
  - 명목형(Nominal): 명사형/ 순서없음/ 이름만 의미를 부여함 ⇒ 같다(=), 다르다(≠)만 가능
  - 순서형(Ordinal): 순서가 의미를 부여함 (ex. 상태 양호=3, 보통=2, 나쁨=1) ⇒ 대소관계(<, >)만 비교 가능
- 수치형(Measure, 양적변수): 양적인 수치로 측정되는 변수
  - 연산 가능/ 히스토그램, 시계열그래프 등
  
  - 이산형(Discrete): 하나하나 셀 수 있음 (ex. 맞은 문제 개수, 방문 횟수)
  - 연속형(Continuous): 변수가 구간 안의 모든 값을 가질 수 있는 경우 (ex. 키, 몸무게)
  ※ 나이: 시간이 지나면서 계속 늘어나는 연속형 변수지만, 1년 단위로 측정한다면 이산형 변수이다!

데이터 속성에 대한 측정 척도: 범주형 변수는 명목, 서열, 등간 척도/ 수치형 변수는 비율, 간혹 등간 척도
- 명목 척도: 임의의 범주로 분류 → 기호나 숫자를 부여 (분류의 수치화)
  - 척도 값은 "분류"의 의미만!
  - (ex) 혈액형, 지역 번호, 출신 국가, 직업 구분 등
  - 같다, 다르다만 비교 가능
- 서열 척도/ 순위 척도: 임의의 기준에 따라 상대적인 비교 및 순위화
  - 척도 값이 분류와 서열 순서를 가짐/ 수치의 크기나 차이는 의미 없음!
  - (ex) 맛집 별점, 선호도 조사, 이용자 등급 등
  - 대소 관계만 비교 가능
- 등간 척도/ 간격 척도/ 거리 척도: 비계량적인 변수를 정량적인 방법으로 측정
  - 각 대상을 별도로 평가/ 동일 간격화로 크기 간 차이를 비교할 수 있음!
  - (ex) 온도, 미세먼지 수치, 당뇨 수치, 5점 척도 등
  - 순서뿐만 아니라 간격도 의미 있음
- 비율 척도: 균등 간격/ 절대 영점 있음/ 비율 계산 가능한 척도
  - 순서 의미 있음/ 간격 의미 있음/ 사칙연산 가능!
  - (ex) 나이, 키, 금액, 거리, 넓이, 소득, 부피, 질량 등
  ◽ 속성 값을 연산했을 때 의미 있으면 비율척도, 의미 없으면 등간척도!

변수 유형	척도 유형	범주	순위	같은 간격	절대 영점
범주형	명목척도	O
범주형	순위척도	O	O
연속형	등간척도	O	O	O
연속형	비율척도	O	O	O	O

[3] 데이터 변환

(1) 데이터 저장 전처리 절차

데이터 저장 전처리 절차
- 데이터 저장 전, 후로 활용 목적에 맞도록 적절한 처리가 필요하다.
- 데이터 저장관리: 데이터 전/후처리 → 저장 → 보안관리 → 품질관리
데이터 저장 전·후처리 시 고려사항
- 전처리: 데이터 유형 분류 기준을 적용할 수 있는 기능/ 데이터 변환 기능/ 변환 여부 확인 기능/
변환 실패 시 재시도 및 취소 기능/ 변환된 데이터 저장 기능을 제공해야 한다.
- 후처리: 이상값 변환 또는 자동 추천 기능/ 집계 시 데이터 요약 기능/ 변환, 패턴, 이벤트 감시 기능/
변환 로그 저장 관리 기능을 제공해야 한다.
데이터 처리 방식 선정
- 전처리 단계: 수집한 데이터를 저장하기 위한 작업
(데이터 필터링/ 유형 변환/ 정제 등의 기술 활용)
- 후처리 단계: 저장된 데이터를 분석하기 좋게 가공하는 작업
(변환/ 통합/ 축소 등의 기술 활용)

(2) 데이터 변환 기술

데이터 변환: 데이터의 특정 변수를 정해진 규칙에 따라 바꿔주는 것
데이터 변환 기술: 평활화/ 집계/ 일반화/ 정규화/ 속성 생성
- 평활화(Smoothing): 잡음 제거를 위해 추세에서 벗어나는 값들을 변환
  - 구간화, 군집화 → 거칠게 분포된 데이터를 매끄럽게 만든다~
- 집계(Aggregation): 다양한 방법으로 데이터를 요약
  - 복수 개의 속성을 하나로 줄임
  - 유사한 데이터 객체(Data Object) 줄이고 스케일 변경
- 일반화(Generalization): 특정 구간에 분포하는 값으로 스케일 변화
  - 특정 데이터가 아니라, 범용적인 데이터에 적합한 모델을 만드는 기법
  - 이상값, 노이즈에 크게 영향받지 않아야 잘된 일반화~
- 정규화(Normalization): 정해진 구간 내에 들도록 함
  - 최단 근접 분류, 군집화와 같은 거리 측정 등을 위해 유용함
  - 최소-최대 정규화/ z-score 정규화/ 소수 스케일링 등
- 속성 생성(Attribute/Feature Construction): 데이터 통합을 위해 새로운 속성 or 특징을 만듦
  - 여러 데이터의 분포를 대표할 수 있는 새로운 속성/특징을 활용
  - 선택한 속성을 하나 이상의 새 속성으로 대체

정규화 기법 3가지
- 최소-최대 정규화: 최솟값 0, 최댓값 1, 다른 값들은 0과 1사이의 값으로 변환
- Z-스코어 정규화: 데이터가 평균 대비 몇 표준편차만큼 떨어져 있는지 점수화
  - 이상값 문제를 피하는 정규화 전략!
- 소수 스케일링: 특성값의 소수점을 이동하여 데이터 크기 조정

참고 도서: 빅데이터분석기사 필기_수제비 2021

728x90

'자격증 > 빅데이터분석기사-필기' 카테고리의 다른 글

[빅데이터분석기사 필기 요약] I.빅데이터 분석 기획 - 03. 데이터 수집 및 저장 계획 (4) (0)	2021.03.12
[빅데이터분석기사 필기 요약] I.빅데이터 분석 기획 - 03. 데이터 수집 및 저장 계획 (3) (0)	2021.03.12
[빅데이터분석기사 필기 요약] I.빅데이터 분석 기획 - 03. 데이터 수집 및 저장 계획 (1) (0)	2021.03.11
[빅데이터분석기사 필기 요약] I.빅데이터 분석 기획 - 02. 데이터 분석 계획 (0)	2021.03.11
[빅데이터분석기사 필기 요약] I.빅데이터 분석 기획 - 01. 빅데이터의 이해 (3) (0)	2021.03.10

ABOUT ME

서윤로그

'자격증 > 빅데이터분석기사-필기' 카테고리의 다른 글

티스토리툴바

ABOUT ME

'자격증 > 빅데이터분석기사-필기' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바