ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [빅데이터분석기사 필기 요약] II.빅데이터 탐색 - 02. 데이터 탐색 (1)
    자격증/빅데이터분석기사-필기 2021. 3. 15. 13:31
    728x90
    반응형

    빅데이터분석기사 필기 요약

    🔑 데이터 탐색/ EDA/ Four R's/ 저항성/ 잔차해석/ 자료재표현/ 현시성/

           상관관계 분석/ 산점도/ 공분산(경향)/ 상관계수(방향+강도)

     

    II. 빅데이터 탐색

       02. 데이터 탐색

          1. 데이터 탐색 기초

          

     

     



     

    1. 데이터 탐색 기초

     

    [1] 데이터 탐색 개요

     

    (1) 데이터 탐색의 개념

    • 데이터 탐색
      - 데이터 분석 전,

      - 그래프나 통계적인 방법으로 다양한 각도에서
      - 데이터 특징을 파악하고, 직관적으로 보는 분석방법
    • 데이터 탐색 도구: 도표/ 그래프/ 요약통계

     

    (2) 탐색적 데이터 분석 (EDA; Exploratory Data Analysis) 의 4가지 주제 | 저항성/ 잔차해석/ 자료재표현/ 현시성

    • Four R's: Resistance/ Residuals/ Re-expression/ Representation

    • 저항성: 부분적 변동에 민감하지 않음
      - 오류점, 이상값의 영향을 적게 받음
      - (ex) 평균보다 저항성이 큰 중위수를 대푯값으로 선호함

    • 잔차 해석: 주 경향에서 벗어난 특징 파악
      - 잔차: 관찰 값들이 주 경향으로부터 벗어난 정도
      - 보통과 다른 특징/ 왜 존재하는지 탐색

    • 자료 재표현: 원래 변수를 적당한 척도로 바꾸는 것
      - 데이터 분석 및 해석을 단순화
      - 로그/ 제곱근/ 역수 변환
      - 데이터 구조파악에 도움 (분포의 대칭성/ 선형성/ 안정성 등)

    • 현시성: 분석 결과를 쉽게 이해할 수 있도록 시각화
      - 현시성 = 데이터 시각화, Display, Visualization
      - 숨어있는 정보 시각화 → 자료 구조를 효율적으로 파악

     

    (3) 개별 변수 탐색 방법 | 개별 데이터

    • 범주형(질적) 데이터: 명목척도/ 순위척도
      - 분포 특성을 중심성/ 변동성 측면에서 파악
      - 빈도수/ 최빈값/ 비율/ 백분율
      - 막대 그래프 활용

    • 수치형(양적) 데이터: 등간척도/ 비율척도
      - 분포 특성을 중심성/ 변동성/ 정규성 측면에서 파악
      - 평균/ 분산/ 표준편차/ 첨도/ 왜도
      - 박스플롯/ 히스토그램 활용

     

    (4) 다차원 데이터 탐색 방법 | 데이터의 조합

    • 범주-범주: 연관성을 분석
      - 빈도수/ 비율 활용 → 교차빈도/ 비율/ 백분율 분석 등
      - 막대 그래프

    • 수치-수치: 상관성/ 추세성을 분석
      - 산점도/ 기울기 활용
      - 공분산: 방향성 파악
      - 피어슨 상관계수: 방향/강도 파악

    • 범주-수치: 그룹간 비교
      - 각 그룹별 수치형 변수의 기술통계량을 비교
      - 박스 플롯

     

     

     


     

    [2] 상관관계 분석

     

    (1) 상관관계 분석의 개념

    • 상관관계 분석 (Correlation Analysis)
      - 2개 이상의 변수 사이의
      - 상호연관성의 존재 여부와
      - 연관성의 강도를 측정하는 분석 방법

     

    (2) 변수 사이의 상관관계 종류

    • 양의 상관관계 (+): 한 변수↑ 다른 변수↑
    • 음의 상관관계 (-):  한 변수↑ 다른 변수↓
    • 상관관계 없음 (0): 무관하게 변화

     

    (3) 상관관계의 표현방법 | 산점도/ 공분산(경향)/ 상관계수(방향+강도)

    • 산점도(Scatter Plot)

    산점도(Scatter Plot) 예시

     

     

    • 공분산(Covariance): 2개 변수간 상관 정도/ 경향
      - 0보다 큰가 작은가!
      - Cov > 0: 상승 경향
      - Cov < 0: 하강 경향
      - 단위에 따라 값의 크기가 달라짐 → 강도 나타낼 수 없음..

    공분산(Covariance) 공식

     

     

    • 상관계수(Correlation Coefficient): 2개 변수간 방향성/ 강도
      - 범위: -1 ≤ r ≤ 1
      - 1에 가까울수록 강한 양의 상관관계/ -1에 가까울수록 강한 음의 상관관계

    피어슨 상관계수(Pearson Correlation Coefficient) 공식

     


     

    (4) 상관관계 분석의 종류

    • 변수의 개수에 따라 → 단순 상관 분석/ 다중 상관 분석
      - 단순 상관 분석: 2개 변수 사이의 상관성
      - 다중 상관 분석: 3개 이상 변수 사이의 상관성

    • 변수의 속성에 따라 → 수치적/ 명목적/ 순서적 데이터
      • 수치적 데이터: 피어슨 상관계수
        - 전제조건: 두 변수의 분산이 동일하다!
        - (ex) 키와 몸무게/ 수입과 지출

      • 명목적 데이터: 카이제곱 검정 (교차분석)
        - 분류의 의미만 가지므로, 상관계수 계산은 의미 없다~
        - (ex) 지역/ 종교/ 성별

      • 순서적 데이터: 스피어만 순위상관계수
        - 한 변수를 단조 증가함수로 변환하여 다른 변수를 나타낼 수 있는 정도
        - 두 변수간의 비선형적인 관계도 나타낼 수 있음!
        - (ex) 성적 순위/ 만족도

     

    참고 도서: 빅데이터분석기사 필기_수제비 2021

     

    728x90
    반응형