-
[빅데이터분석기사 필기 요약] I.빅데이터 분석 기획 - 03. 데이터 수집 및 저장 계획 (2)자격증/빅데이터분석기사-필기 2021. 3. 11. 19:41728x90반응형
빅데이터분석기사 필기 요약
🔑 데이터 속성/ 데이터 측정 척도/ 명목척도/ 순서척도/ 등간척도/ 비율척도/ 데이터 변환/ 평활화/ 집계/ 일반화/ 정규화
I. 빅데이터 분석 기획
03. 데이터 수집 및 저장 계획
1. 데이터 수집 및 전환
1. 데이터 수집 및 전환
[2] 데이터 유형 및 속성 파악
(1) 데이터 유형 | 구조/ 시간/ 저장 형태 관점에 따라 분류함
- 구조 관점: 정형/ 비정형/ 반정형
스키마 구조 또는 연산 가능 여부에 따라 분류한다.
- 정형 데이터: 스키마(형태) 구조 기반 형태/ 고정된 필드에 저장/ 일관성 O/ 칼럼, 로우 구조
- 관계형 데이터베이스(RDB), 스프레드시트(SpreadSheet)/ ERP/ CRM/ SCM - 반정형 데이터: 스키마 구조 형태 가짐/ 메타데이터 포함/ 일관성 X
- XML/ HTML/ 웹 로그/ 시스템 로그/ 알람/ JSON/ RSS/ 센서 데이터 - 비정형 데이터: 스키마 구조 형태 X/ 고정된 필드 X
- SNS/ 웹 게시판/ 텍스트/ 이미지/ 오디오/ 비디오
- 정형 데이터: 스키마(형태) 구조 기반 형태/ 고정된 필드에 저장/ 일관성 O/ 칼럼, 로우 구조
- 시간 관점: 실시간/ 비실시간
시간 관점 또는 활용 주기에 따라 분류한다.
- 실시간 데이터: 생성된 이후 수 초 ~ 수 분 이내에 처리되어야 의미있는 현재 데이터
- 센서 데이터/ 알람/ 시스템 로그/ 네트워크 장비 로그/ 보안 장비 로그 - 비실시간 데이터: 생성된 이후 수 시간 or 수 주 이후에 처리되어야 의미있는 과거 데이터
- 통계/ 웹 로그/ 서비스 로그/ 구매 정보/ 디지털 헬스케어 정보
- 실시간 데이터: 생성된 이후 수 초 ~ 수 분 이내에 처리되어야 의미있는 현재 데이터
- 저장 형태 관점: 파일/ 데이터베이스/ 콘텐츠/ 스트림 데이터
- 파일 데이터: 파일 형식으로 저장/ 크기가 대용량 or 개수가 다수인 데이터
- 데이터베이스 데이터: 데이터 종류 or 성격에 따라 데이터베이스의 컬럼 또는 테이블 등에 저장된 데이터
- 관계형 데이터베이스(RDBMS), NoSQL, 인메모리 데이터베이스 - 콘텐츠 데이터: 개별적 객체로 구분될 수 있는 미디어 데이터
- 텍스트/ 이미지/ 오디오/ 비디오 등 - 스트림 데이터: 네트워크를 통해 실시간 전송되는 데이터
- 센서 데이터/ HTTP 트랜잭션/ 알람 등
- 파일 데이터: 파일 형식으로 저장/ 크기가 대용량 or 개수가 다수인 데이터
(2) 데이터 속성 파악
- 수집 데이터 종류: 정형/ 반정형/ 비정형
- 정형: 고정된 컬럼/ 행열에 의해 속성 구별/ 스키마를 지원함
- 반정형: 정형 데이터의 스키마에 해당하는 메타데이터를 가짐
- 비정형: 대표적으로는 텍스트 데이터나 멀티미디어 데이터 - 데이터 형태에 따른 분류: 정성적/ 정량적
- 정성적: 언어, 문자 형태/ 저장, 검색, 분석에 많은 비용 소모
- 정량적: 수치, 도형, 기호 형태/ 정형화된 데이터이므로 비용 소모 적음
- 데이터 속성 파악
- 범주형(Categorical, 질적변수): 특성에 따라 범주로 구분하여 측정되는 변수
- 연산 불가/ 각 범주에 속한 개수, 퍼센트를 다룸/ 원그래프, 막대그래프 등
- 명목형(Nominal): 명사형/ 순서없음/ 이름만 의미를 부여함 ⇒ 같다(=), 다르다(≠)만 가능
- 순서형(Ordinal): 순서가 의미를 부여함 (ex. 상태 양호=3, 보통=2, 나쁨=1) ⇒ 대소관계(<, >)만 비교 가능 - 수치형(Measure, 양적변수): 양적인 수치로 측정되는 변수
- 연산 가능/ 히스토그램, 시계열그래프 등
- 이산형(Discrete): 하나하나 셀 수 있음 (ex. 맞은 문제 개수, 방문 횟수)
- 연속형(Continuous): 변수가 구간 안의 모든 값을 가질 수 있는 경우 (ex. 키, 몸무게)
※ 나이: 시간이 지나면서 계속 늘어나는 연속형 변수지만, 1년 단위로 측정한다면 이산형 변수이다!
- 범주형(Categorical, 질적변수): 특성에 따라 범주로 구분하여 측정되는 변수
- 데이터 속성에 대한 측정 척도: 범주형 변수는 명목, 서열, 등간 척도/ 수치형 변수는 비율, 간혹 등간 척도
- 명목 척도: 임의의 범주로 분류 → 기호나 숫자를 부여 (분류의 수치화)
- 척도 값은 "분류"의 의미만!
- (ex) 혈액형, 지역 번호, 출신 국가, 직업 구분 등
- 같다, 다르다만 비교 가능 - 서열 척도/ 순위 척도: 임의의 기준에 따라 상대적인 비교 및 순위화
- 척도 값이 분류와 서열 순서를 가짐/ 수치의 크기나 차이는 의미 없음!
- (ex) 맛집 별점, 선호도 조사, 이용자 등급 등
- 대소 관계만 비교 가능 - 등간 척도/ 간격 척도/ 거리 척도: 비계량적인 변수를 정량적인 방법으로 측정
- 각 대상을 별도로 평가/ 동일 간격화로 크기 간 차이를 비교할 수 있음!
- (ex) 온도, 미세먼지 수치, 당뇨 수치, 5점 척도 등
- 순서뿐만 아니라 간격도 의미 있음 - 비율 척도: 균등 간격/ 절대 영점 있음/ 비율 계산 가능한 척도
- 순서 의미 있음/ 간격 의미 있음/ 사칙연산 가능!
- (ex) 나이, 키, 금액, 거리, 넓이, 소득, 부피, 질량 등
◽ 속성 값을 연산했을 때 의미 있으면 비율척도, 의미 없으면 등간척도!
- 명목 척도: 임의의 범주로 분류 → 기호나 숫자를 부여 (분류의 수치화)
변수 유형 척도 유형 범주 순위 같은 간격 절대 영점 범주형 명목척도 O 순위척도 O O 연속형 등간척도 O O O 비율척도 O O O O
[3] 데이터 변환
(1) 데이터 저장 전처리 절차
- 데이터 저장 전처리 절차
- 데이터 저장 전, 후로 활용 목적에 맞도록 적절한 처리가 필요하다.
- 데이터 저장관리: 데이터 전/후처리 → 저장 → 보안관리 → 품질관리 - 데이터 저장 전·후처리 시 고려사항
- 전처리: 데이터 유형 분류 기준을 적용할 수 있는 기능/ 데이터 변환 기능/ 변환 여부 확인 기능/
변환 실패 시 재시도 및 취소 기능/ 변환된 데이터 저장 기능을 제공해야 한다.
- 후처리: 이상값 변환 또는 자동 추천 기능/ 집계 시 데이터 요약 기능/ 변환, 패턴, 이벤트 감시 기능/
변환 로그 저장 관리 기능을 제공해야 한다. - 데이터 처리 방식 선정
- 전처리 단계: 수집한 데이터를 저장하기 위한 작업
(데이터 필터링/ 유형 변환/ 정제 등의 기술 활용)
- 후처리 단계: 저장된 데이터를 분석하기 좋게 가공하는 작업
(변환/ 통합/ 축소 등의 기술 활용)
(2) 데이터 변환 기술
- 데이터 변환: 데이터의 특정 변수를 정해진 규칙에 따라 바꿔주는 것
- 데이터 변환 기술: 평활화/ 집계/ 일반화/ 정규화/ 속성 생성
- 평활화(Smoothing): 잡음 제거를 위해 추세에서 벗어나는 값들을 변환
- 구간화, 군집화 → 거칠게 분포된 데이터를 매끄럽게 만든다~ - 집계(Aggregation): 다양한 방법으로 데이터를 요약
- 복수 개의 속성을 하나로 줄임
- 유사한 데이터 객체(Data Object) 줄이고 스케일 변경 - 일반화(Generalization): 특정 구간에 분포하는 값으로 스케일 변화
- 특정 데이터가 아니라, 범용적인 데이터에 적합한 모델을 만드는 기법
- 이상값, 노이즈에 크게 영향받지 않아야 잘된 일반화~ - 정규화(Normalization): 정해진 구간 내에 들도록 함
- 최단 근접 분류, 군집화와 같은 거리 측정 등을 위해 유용함
- 최소-최대 정규화/ z-score 정규화/ 소수 스케일링 등 - 속성 생성(Attribute/Feature Construction): 데이터 통합을 위해 새로운 속성 or 특징을 만듦
- 여러 데이터의 분포를 대표할 수 있는 새로운 속성/특징을 활용
- 선택한 속성을 하나 이상의 새 속성으로 대체
- 평활화(Smoothing): 잡음 제거를 위해 추세에서 벗어나는 값들을 변환
- 정규화 기법 3가지
- 최소-최대 정규화: 최솟값 0, 최댓값 1, 다른 값들은 0과 1사이의 값으로 변환
- Z-스코어 정규화: 데이터가 평균 대비 몇 표준편차만큼 떨어져 있는지 점수화
- 이상값 문제를 피하는 정규화 전략! - 소수 스케일링: 특성값의 소수점을 이동하여 데이터 크기 조정
- 최소-최대 정규화: 최솟값 0, 최댓값 1, 다른 값들은 0과 1사이의 값으로 변환
참고 도서: 빅데이터분석기사 필기_수제비 2021
728x90반응형'자격증 > 빅데이터분석기사-필기' 카테고리의 다른 글
[빅데이터분석기사 필기 요약] I.빅데이터 분석 기획 - 03. 데이터 수집 및 저장 계획 (4) (0) 2021.03.12 [빅데이터분석기사 필기 요약] I.빅데이터 분석 기획 - 03. 데이터 수집 및 저장 계획 (3) (0) 2021.03.12 [빅데이터분석기사 필기 요약] I.빅데이터 분석 기획 - 03. 데이터 수집 및 저장 계획 (1) (0) 2021.03.11 [빅데이터분석기사 필기 요약] I.빅데이터 분석 기획 - 02. 데이터 분석 계획 (0) 2021.03.11 [빅데이터분석기사 필기 요약] I.빅데이터 분석 기획 - 01. 빅데이터의 이해 (3) (0) 2021.03.10 - 구조 관점: 정형/ 비정형/ 반정형