ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [경영정보시각화능력 요약] 2장-02. 데이터 해석 (1)
    자격증/경영정보시각화능력 2024. 5. 22. 01:11
    728x90
    반응형

    경영정보시각화능력 요약 / 경영정보시각화 요약 / 경영정보시각화능력 2장 / 경영정보시각화 2장

    경영정보시각화능력 데이터해석및활용 / 경영정보시각화능력 2과목 / 경영정보시각화능력 챕터2

     

    II. 데이터 해석 및 활용

       01. 데이터 이해 및 해석

          1. 데이터 개념

          2. 데이터 해석

     

     


    2. 데이터 해석

    [1] 데이터 해석의 주요 관점

     

    (1) 데이터 해석의 주요 관점: 데이터를 어떻게 보고, 어떻게 이해하고, 결과를 어떻게 적용할 것인가

    • 통계적 관점 데이터 기술통계, 가설검정 등을 통해 경향성과 변동성을 파악함
    비즈니스 관점 데이터 분석 결과를 비즈니스 목표와 연결지어 해석함 
    맥락적 관점 데이터 수집 배경, 상황을 이해하여 이 분야의 맥락안에서 해석함
    데이터 품질 관점 데이터 품질이 정확성에 큰 영향을 주므로, 결과 해석 시 정확성/완전성/일관성/신뢰성을 평가할 것
    윤리적 관점 데이터 분석 과정에서 개인정보 보호, 도덕적 책임 등 윤리적 사항을 고려
    시각적 관점 데이터 시각화를 통해 패턴, 트렌드, 관계 등을 쉽게 파악함
    기술적 관점 통계분석, 머신러닝, 딥러닝 등 다양한 방법론으로 분석함

     


    [2] 데이터 해석 오류

     

    (1) 데이터 해석 오류의 유형  |  표본편향, 측정오류, 거짓 인과관계, 이상치 무시, 일반화 오류, 모델 선택 오류, 통계적 허위성 등

    • 표본 편향 - 모집단에서 편향된 표본을 추출함
    - 편향때문에 표본이 모집단을 대표X
    (ex) 앱 선호도 조사 시 20대가 과반수인데 그대로 해석함
    • 측정 오류 - 데이터 측정 시 오류가 생겨 실제값과 차이남 (ex) 온도측정계가 고장나 온도데이터에 오류 발생함
    • 거짓 인과관계 - 두 변수간 상관관계를 곧 인과관계로 해석해버림
    - 상관관계와 인과관계는 다름!
    (ex) 키와 몸무게는 상관관계를 가질 수는 있으나
    인과관계를 가진다고 말하기 어려움
    • 이상치 무시 - 이상치를 제거하지 않아 분석결과가 왜곡됨 (ex) 극소수 고소득자로 인해 평균소득이 높게 계산됨
    • 일반화 오류 - 일부 데이터집합으로 일반적인 결론을 내림 (ex) 냉장고 구매고객 만족도 조사 시 XX동 주민만 조사함
    • 모델 선택 오류 - 데이터 특성에 맞지 않는 모델로 분석함 (ex) 시계열 분석해야 하는 데이터를 회귀분석만 진행함
    • 통계적 허위성 - 여러 가설검정 중 우연히 유의미한 결과가 나옴 (ex) 우연히 나온 일부 결과만 주관적으로 취사선택함

     

     

    (2) 데이터 해석 오류 방지

    • 적절한 데이터수집, 다양한 변수 고려, 모델 복잡도 조절, 객관적인 분석 등으로 오류 방지할 수 있음

    [3] 데이터 탐색 (EDA, Exploratory Data Analysis)

     

    (1) 데이터 탐색 (EDA)  |  데이터셋을 다양한 각도에서 분석하며 이해하는 과정

    • 본격적인 데이터 모델링 전, 주로 시각화를 통해 데이터 특성, 구조, 패턴, 이상치 등을 파악할 수 있음
    • 데이터 탐색 (EDA) 의 주요단계: 구조이해 — 기초통계량 분석 — 시각화 — 변수간 관계 탐색 — 그룹화 및 집계
    ① 데이터구조 이해 기초통계량 분석 데이터 시각화 변수간 관계 탐색 ⑤ 그룹화 및 집계
    -변수개수,데이터유형 등
    -품질문제 있는지 식별
    -수치형: 평균,표준편차
    -범주형: 빈도수,비율
    -히스토그램,산점도 등
    -분포와 패턴을 시각화
    -수치형: 상관계수 등
    -범주형: 교차표 등
    -특정기준에 따라 그룹화
    -그룹별로 통계량 분석

     

     


    [4] 기초 통계

     

    (1) 통계  |  데이터를 수집, 분석, 해석, 요약, 패턴식별 하는 수량적이고 과학적인 방법

     

    (2) 기술 통계  |  데이터를 정리, 요약, 해석하여 데이터 특성과 속성을 파악함 → 요약과 설명에 초점!

    <중심경향성>
    데이터가 어디에
    집중되어있는가
    평균 Mean - 모든 데이터를 합한 값을 데이터 개수로 나눈 값
    - 중심경향성을 대표하는 가장 일반적인 지표
    중앙값 Median - 모든 데이터를 크기 순서로 나열했을 때 가운데에 위치하는 값
    - 중심경향성 통계값 중 이상값 영향을 가장 덜 받는 지표
    최빈값 Mode - 데이터셋에서 가장 자주 나타나는 값
    - 연속형보다 범주형데이터에서 유용함
    <분산&변동성>
    데이터가 얼마나
    퍼져있는가
    범위 Range - 데이터셋에서 최고값과 최소값의 차이
    사분위수범위 IQR - 데이터셋을 4등분했을 때 IQR = Q3 - Q1 (3사분위수-1사분위수)
    - 이때 Q2는 중앙값이며, Q1과 Q3는 각각 앞뒤 절반의 중앙값임
    - 데이터 전반적인 분포를 이해하고 이상치를 감지할 수 있음
    분산 Variance - 데이터가 평균으로부터 얼마나 떨어져있는가
    - (각 데이터값 - 평균값)^2 값들을 평균낸 값
    표준편차 Std.deviation - 데이터가 평균으로부터 얼마나 떨어져있는가
    - 분산의 제곱근 → 원래 데이터와 동일한 단위 사용 가능함!

     

     

     

    (3) 추론 통계  |  표본의 데이터를 활용하여, 전체 모집단에 대한 결론을 도출함 일반화와 예측에 초점!

    • 모집단 Population: 알고자하는 전체 집단, 모든 데이터 집합
    • 표본 Sample: 모집단을 대표하는 부분집합, 모집단의 특성을 "추정"하기 위해 분석되는 데이터 집합

    • 모수추정: 표본평균 등, 표본 데이터의 값을 기반으로 → 모집단의 모수를 추정함
    • 신뢰구간: 모수를 정확히 추정하지 못해도, 어떤 구간안에 있을 것이라고 추정할 수 있음
    모수 추정 신뢰구간
    - 표본집단의 통계량을 기반으로, 모집단의 모수를 추정함 - 모수가 특정범위 안에 있을 것으로 확신할 수 있는 구간
    - 점추정: 평균값 등의 모수를 단일값으로 추정함
    - 구간추정: 모수가 특정구간 안에 있을 것으로 추정함
    - 표본오차: 표본과 모집단 간의 차이 (추정할 때 발생하는 오차)
    - 특정 신뢰수준(%) 이하에서 신뢰구간이 있다고 말할 수 있음
    - 신뢰수준이 95%라면, 표본추출을 여러번 반복했을 때
    추정된 신뢰구간이 실제로 모수를 포함할 확률이 95%라는 의미

     

     

    • 가설검정: 통계적 추측을 가설로 세워 검증하는 과정
    가설 검정
    - 모집단에 대한 통계적 가설(대립가설)을 세우고,
    표본의 정보를 활용해 통계적 가설의 진위를 판단하는 과정

    - 귀무가설(H0), 대립가설(H1)을 설정해 귀무가설을 기각 or 채택

    - 일반적으로 귀무가설은 "기존과 차이없는 내용" 이라면,
    - 대립가설은 "현재까지와 다른, 주장하고자 하는 내용" 임 
    - 귀무가설을 기각함으로써 대립가설의 내용을 입증하고자 함

     

     

    • 상관관계분석과 회귀분석
    상관관계 Correlation 회귀분석 Regression
    - 두 변수간에 존재하는 확률적인 함수관계
    - 관계에 방향과 강도가 있음
    - 방향: 양(+), 음(-), 없음(0)
    - 강도: 0에 가까울수록 약하고, 1에 가까울수록 강함
    - 상관계수: 상관관계의 정도를 수치로 표현 (ex.피어슨상관계수 등)
    - 변수간의 관계를 모델링하고 예측하는 방법
    - 상관관계뿐만 아니라, 인과관계가 있다고 가정함
    - 변수 데이터 특성, 모델 구성에 따라 다양한 모델링 방법이 있음
    (ex. 단순선형회귀, 다중선형회귀, 비선형회귀 등)

     


    참고도서: 경영정보시각화능력 필기_이기적 2024

     

    728x90
    반응형