ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [빅데이터분석기사 필기 요약] I.빅데이터 분석 기획 - 03. 데이터 수집 및 저장 계획 (2)
    자격증/빅데이터분석기사-필기 2021. 3. 11. 19:41
    728x90
    반응형

     빅데이터분석기사 필기 요약

    🔑 데이터 속성/ 데이터 측정 척도/ 명목척도/ 순서척도/ 등간척도/ 비율척도/ 데이터 변환/ 평활화/ 집계/ 일반화/ 정규화

     

     

    I. 빅데이터 분석 기획

       03. 데이터 수집 및 저장 계획

          1. 데이터 수집 및 전환

          



     

    1. 데이터 수집 및 전환

     

    [2] 데이터 유형 및 속성 파악

     

    (1) 데이터 유형 | 구조/ 시간/ 저장 형태 관점에 따라 분류함

     

    • 구조 관점: 정형/ 비정형/ 반정형
      스키마 구조 또는 연산 가능 여부에 따라 분류한다.

      • 정형 데이터: 스키마(형태) 구조 기반 형태/ 고정된 필드에 저장/ 일관성 O/ 칼럼, 로우 구조
        - 관계형 데이터베이스(RDB), 스프레드시트(SpreadSheet)/ ERP/ CRM/ SCM

      • 반정형 데이터: 스키마 구조 형태 가짐/ 메타데이터 포함/ 일관성 X
        - XML/ HTML/ 웹 로그/ 시스템 로그/ 알람/ JSON/ RSS/ 센서 데이터

      • 비정형 데이터: 스키마 구조 형태 X/ 고정된 필드 X
        - SNS/ 웹 게시판/ 텍스트/ 이미지/ 오디오/ 비디오

     

     

    • 시간 관점: 실시간/ 비실시간
      시간 관점 또는 활용 주기에 따라 분류한다.

      • 실시간 데이터: 생성된 이후 수 초 ~ 수 분 이내에 처리되어야 의미있는 현재 데이터
        - 센서 데이터/ 알람/ 시스템 로그/ 네트워크 장비 로그/ 보안 장비 로그

      • 비실시간 데이터: 생성된 이후 수 시간 or 수 주 이후에 처리되어야 의미있는 과거 데이터
        - 통계/ 웹 로그/ 서비스 로그/ 구매 정보/ 디지털 헬스케어 정보

     

     

    • 저장 형태 관점: 파일/ 데이터베이스/ 콘텐츠/ 스트림 데이터

      • 파일 데이터: 파일 형식으로 저장/ 크기가 대용량 or 개수가 다수인 데이터

      • 데이터베이스 데이터: 데이터 종류 or 성격에 따라 데이터베이스의 컬럼 또는 테이블 등에 저장된 데이터
        - 관계형 데이터베이스(RDBMS), NoSQL, 인메모리 데이터베이스

      • 콘텐츠 데이터: 개별적 객체로 구분될 수 있는 미디어 데이터
        - 텍스트/ 이미지/ 오디오/ 비디오 등

      • 스트림 데이터: 네트워크를 통해 실시간 전송되는 데이터
        - 센서 데이터/ HTTP 트랜잭션/ 알람 등

     


     

    (2) 데이터 속성 파악

    • 수집 데이터 종류: 정형/ 반정형/ 비정형
      - 정형: 고정된 컬럼/ 행열에 의해 속성 구별/ 스키마를 지원함
      - 반정형: 정형 데이터의 스키마에 해당하는 메타데이터를 가짐
      - 비정형: 대표적으로는 텍스트 데이터나 멀티미디어 데이터

    • 데이터 형태에 따른 분류: 정성적/ 정량적
      - 정성적: 언어, 문자 형태/ 저장, 검색, 분석에 많은 비용 소모
      - 정량적: 수치, 도형, 기호 형태/ 정형화된 데이터이므로 비용 소모 적음

     

    • 데이터 속성 파악

      • 범주형(Categorical, 질적변수): 특성에 따라 범주로 구분하여 측정되는 변수
        - 연산 불가/ 각 범주에 속한 개수, 퍼센트를 다룸/ 원그래프, 막대그래프 등

        - 명목형(Nominal): 명사형/ 순서없음/ 이름만 의미를 부여함 ⇒ 같다(=), 다르다(≠)만 가능
        - 순서형(Ordinal): 순서가 의미를 부여함 (ex. 상태 양호=3, 보통=2, 나쁨=1) ⇒ 대소관계(<, >)만 비교 가능

      • 수치형(Measure, 양적변수): 양적인 수치로 측정되는 변수
        - 연산 가능/ 히스토그램, 시계열그래프 등

        - 이산형(Discrete): 하나하나 셀 수 있음 (ex. 맞은 문제 개수, 방문 횟수)
        - 연속형(Continuous): 변수가 구간 안의 모든 값을 가질 수 있는 경우 (ex. 키, 몸무게)
          ※ 나이: 시간이 지나면서 계속 늘어나는 연속형 변수지만, 1년 단위로 측정한다면 이산형 변수이다!

     

    • 데이터 속성에 대한 측정 척도: 범주형 변수는 명목, 서열, 등간 척도/ 수치형 변수는 비율, 간혹 등간 척도

      • 명목 척도: 임의의 범주로 분류 → 기호나 숫자를 부여 (분류의 수치화)
        - 척도 값은 "분류"의 의미만!
        - (ex) 혈액형, 지역 번호, 출신 국가, 직업 구분 등
        - 같다, 다르다만 비교 가능

      • 서열 척도/ 순위 척도: 임의의 기준에 따라 상대적인 비교 및 순위화
        - 척도 값이 분류와 서열 순서를 가짐/ 수치의 크기나 차이는 의미 없음!
        - (ex) 맛집 별점, 선호도 조사, 이용자 등급 등
        - 대소 관계만 비교 가능

      • 등간 척도/ 간격 척도/ 거리 척도: 비계량적인 변수를 정량적인 방법으로 측정
        - 각 대상을 별도로 평가/ 동일 간격화로 크기 간 차이를 비교할 수 있음!
        - (ex) 온도, 미세먼지 수치, 당뇨 수치, 5점 척도 등
        - 순서뿐만 아니라 간격도 의미 있음

      • 비율 척도: 균등 간격/ 절대 영점 있음/ 비율 계산 가능한 척도
        - 순서 의미 있음/ 간격 의미 있음/ 사칙연산 가능!
        - (ex) 나이, 키, 금액, 거리, 넓이, 소득, 부피, 질량 등
          ◽ 속성 값을 연산했을 때 의미 있으면 비율척도, 의미 없으면 등간척도!

     

    변수 유형 척도 유형 범주 순위 같은 간격 절대 영점
    범주형 명목척도 O      
    순위척도 O O    
    연속형 등간척도 O O O  
    비율척도 O O O O

     


     

    [3] 데이터 변환

     

    (1) 데이터 저장 전처리 절차

     

    • 데이터 저장 전처리 절차
      - 데이터 저장 전, 후로 활용 목적에 맞도록 적절한 처리가 필요하다.
      - 데이터 저장관리: 데이터 전/후처리 → 저장 → 보안관리 → 품질관리

    • 데이터 저장 전·후처리 시 고려사항
      - 전처리: 데이터 유형 분류 기준을 적용할 수 있는 기능/ 데이터 변환 기능/ 변환 여부 확인 기능/
                       변환 실패 시 재시도 및 취소 기능/ 변환된 데이터 저장 기능을 제공해야 한다.
      - 후처리: 이상값 변환 또는 자동 추천 기능/ 집계 시 데이터 요약 기능/ 변환, 패턴, 이벤트 감시 기능/
                       변환 로그 저장 관리 기능을 제공해야 한다. 

    • 데이터 처리 방식 선정
      - 전처리 단계: 수집한 데이터를 저장하기 위한 작업
         (데이터 필터링/ 유형 변환/ 정제 등의 기술 활용)
      - 후처리 단계: 저장된 데이터를 분석하기 좋게 가공하는 작업
         (변환/ 통합/ 축소 등의 기술 활용)

     

     

    (2) 데이터 변환 기술

    • 데이터 변환: 데이터의 특정 변수를 정해진 규칙에 따라 바꿔주는 것

    • 데이터 변환 기술: 평활화/ 집계/ 일반화/ 정규화/ 속성 생성

      • 평활화(Smoothing): 잡음 제거를 위해 추세에서 벗어나는 값들을 변환
        - 구간화, 군집화 → 거칠게 분포된 데이터를 매끄럽게 만든다~

      • 집계(Aggregation): 다양한 방법으로 데이터를 요약
        - 복수 개의 속성을 하나로 줄임
        - 유사한 데이터 객체(Data Object) 줄이고 스케일 변경

      • 일반화(Generalization): 특정 구간에 분포하는 값으로 스케일 변화
        - 특정 데이터가 아니라, 범용적인 데이터에 적합한 모델을 만드는 기법
        - 이상값, 노이즈에 크게 영향받지 않아야 잘된 일반화~

      • 정규화(Normalization): 정해진 구간 내에 들도록 함
        - 최단 근접 분류, 군집화와 같은 거리 측정 등을 위해 유용함
        - 최소-최대 정규화/ z-score 정규화/ 소수 스케일링 등

      • 속성 생성(Attribute/Feature Construction): 데이터 통합을 위해 새로운 속성 or 특징을 만듦
        - 여러 데이터의 분포를 대표할 수 있는 새로운 속성/특징을 활용
        - 선택한 속성을 하나 이상의 새 속성으로 대체

     

     

    • 정규화 기법 3가지
      • 최소-최대 정규화: 최솟값 0, 최댓값 1, 다른 값들은 0과 1사이의 값으로 변환

      • Z-스코어 정규화: 데이터가 평균 대비 몇 표준편차만큼 떨어져 있는지 점수화
        - 이상값 문제를 피하는 정규화 전략!

      • 소수 스케일링: 특성값의 소수점을 이동하여 데이터 크기 조정

     


     

    참고 도서: 빅데이터분석기사 필기_수제비 2021

     

    728x90
    반응형