-
[경영정보시각화능력 요약] 2장-02. 데이터 해석 (1)자격증/경영정보시각화능력 2024. 5. 22. 01:11728x90반응형
경영정보시각화능력 요약 / 경영정보시각화 요약 / 경영정보시각화능력 2장 / 경영정보시각화 2장
경영정보시각화능력 데이터해석및활용 / 경영정보시각화능력 2과목 / 경영정보시각화능력 챕터2
II. 데이터 해석 및 활용
01. 데이터 이해 및 해석
1. 데이터 개념
2. 데이터 해석
2. 데이터 해석
[1] 데이터 해석의 주요 관점
(1) 데이터 해석의 주요 관점: 데이터를 어떻게 보고, 어떻게 이해하고, 결과를 어떻게 적용할 것인가
• 통계적 관점 데이터 기술통계, 가설검정 등을 통해 경향성과 변동성을 파악함 • 비즈니스 관점 데이터 분석 결과를 비즈니스 목표와 연결지어 해석함 • 맥락적 관점 데이터 수집 배경, 상황을 이해하여 이 분야의 맥락안에서 해석함 • 데이터 품질 관점 데이터 품질이 정확성에 큰 영향을 주므로, 결과 해석 시 정확성/완전성/일관성/신뢰성을 평가할 것 • 윤리적 관점 데이터 분석 과정에서 개인정보 보호, 도덕적 책임 등 윤리적 사항을 고려 • 시각적 관점 데이터 시각화를 통해 패턴, 트렌드, 관계 등을 쉽게 파악함 • 기술적 관점 통계분석, 머신러닝, 딥러닝 등 다양한 방법론으로 분석함
[2] 데이터 해석 오류
(1) 데이터 해석 오류의 유형 | 표본편향, 측정오류, 거짓 인과관계, 이상치 무시, 일반화 오류, 모델 선택 오류, 통계적 허위성 등
• 표본 편향 - 모집단에서 편향된 표본을 추출함
- 편향때문에 표본이 모집단을 대표X(ex) 앱 선호도 조사 시 20대가 과반수인데 그대로 해석함 • 측정 오류 - 데이터 측정 시 오류가 생겨 실제값과 차이남 (ex) 온도측정계가 고장나 온도데이터에 오류 발생함 • 거짓 인과관계 - 두 변수간 상관관계를 곧 인과관계로 해석해버림
- 상관관계와 인과관계는 다름!(ex) 키와 몸무게는 상관관계를 가질 수는 있으나
인과관계를 가진다고 말하기 어려움• 이상치 무시 - 이상치를 제거하지 않아 분석결과가 왜곡됨 (ex) 극소수 고소득자로 인해 평균소득이 높게 계산됨 • 일반화 오류 - 일부 데이터집합으로 일반적인 결론을 내림 (ex) 냉장고 구매고객 만족도 조사 시 XX동 주민만 조사함 • 모델 선택 오류 - 데이터 특성에 맞지 않는 모델로 분석함 (ex) 시계열 분석해야 하는 데이터를 회귀분석만 진행함 • 통계적 허위성 - 여러 가설검정 중 우연히 유의미한 결과가 나옴 (ex) 우연히 나온 일부 결과만 주관적으로 취사선택함 (2) 데이터 해석 오류 방지
- 적절한 데이터수집, 다양한 변수 고려, 모델 복잡도 조절, 객관적인 분석 등으로 오류 방지할 수 있음
[3] 데이터 탐색 (EDA, Exploratory Data Analysis)
(1) 데이터 탐색 (EDA) | 데이터셋을 다양한 각도에서 분석하며 이해하는 과정
- 본격적인 데이터 모델링 전, 주로 시각화를 통해 데이터 특성, 구조, 패턴, 이상치 등을 파악할 수 있음
- 데이터 탐색 (EDA) 의 주요단계: 구조이해 — 기초통계량 분석 — 시각화 — 변수간 관계 탐색 — 그룹화 및 집계
① 데이터구조 이해 ② 기초통계량 분석 ③ 데이터 시각화 ④ 변수간 관계 탐색 ⑤ 그룹화 및 집계 -변수개수,데이터유형 등
-품질문제 있는지 식별-수치형: 평균,표준편차
-범주형: 빈도수,비율-히스토그램,산점도 등
-분포와 패턴을 시각화-수치형: 상관계수 등
-범주형: 교차표 등-특정기준에 따라 그룹화
-그룹별로 통계량 분석
[4] 기초 통계
(1) 통계 | 데이터를 수집, 분석, 해석, 요약, 패턴식별 하는 수량적이고 과학적인 방법
(2) 기술 통계 | 데이터를 정리, 요약, 해석하여 데이터 특성과 속성을 파악함 → 요약과 설명에 초점!
<중심경향성>
데이터가 어디에
집중되어있는가평균 Mean - 모든 데이터를 합한 값을 데이터 개수로 나눈 값
- 중심경향성을 대표하는 가장 일반적인 지표중앙값 Median - 모든 데이터를 크기 순서로 나열했을 때 가운데에 위치하는 값
- 중심경향성 통계값 중 이상값 영향을 가장 덜 받는 지표최빈값 Mode - 데이터셋에서 가장 자주 나타나는 값
- 연속형보다 범주형데이터에서 유용함<분산&변동성>
데이터가 얼마나
퍼져있는가범위 Range - 데이터셋에서 최고값과 최소값의 차이 사분위수범위 IQR - 데이터셋을 4등분했을 때 IQR = Q3 - Q1 (3사분위수-1사분위수)
- 이때 Q2는 중앙값이며, Q1과 Q3는 각각 앞뒤 절반의 중앙값임
- 데이터 전반적인 분포를 이해하고 이상치를 감지할 수 있음분산 Variance - 데이터가 평균으로부터 얼마나 떨어져있는가
- (각 데이터값 - 평균값)^2 값들을 평균낸 값표준편차 Std.deviation - 데이터가 평균으로부터 얼마나 떨어져있는가
- 분산의 제곱근 → 원래 데이터와 동일한 단위 사용 가능함!(3) 추론 통계 | 표본의 데이터를 활용하여, 전체 모집단에 대한 결론을 도출함 → 일반화와 예측에 초점!
- 모집단 Population: 알고자하는 전체 집단, 모든 데이터 집합
- 표본 Sample: 모집단을 대표하는 부분집합, 모집단의 특성을 "추정"하기 위해 분석되는 데이터 집합
- 모수추정: 표본평균 등, 표본 데이터의 값을 기반으로 → 모집단의 모수를 추정함
- 신뢰구간: 모수를 정확히 추정하지 못해도, 어떤 구간안에 있을 것이라고 추정할 수 있음
모수 추정 신뢰구간 - 표본집단의 통계량을 기반으로, 모집단의 모수를 추정함 - 모수가 특정범위 안에 있을 것으로 확신할 수 있는 구간 - 점추정: 평균값 등의 모수를 단일값으로 추정함
- 구간추정: 모수가 특정구간 안에 있을 것으로 추정함
- 표본오차: 표본과 모집단 간의 차이 (추정할 때 발생하는 오차)- 특정 신뢰수준(%) 이하에서 신뢰구간이 있다고 말할 수 있음
- 신뢰수준이 95%라면, 표본추출을 여러번 반복했을 때
추정된 신뢰구간이 실제로 모수를 포함할 확률이 95%라는 의미- 가설검정: 통계적 추측을 가설로 세워 검증하는 과정
가설 검정 - 모집단에 대한 통계적 가설(대립가설)을 세우고,
표본의 정보를 활용해 통계적 가설의 진위를 판단하는 과정
- 귀무가설(H0), 대립가설(H1)을 설정해 귀무가설을 기각 or 채택
- 일반적으로 귀무가설은 "기존과 차이없는 내용" 이라면,
- 대립가설은 "현재까지와 다른, 주장하고자 하는 내용" 임
- 귀무가설을 기각함으로써 대립가설의 내용을 입증하고자 함- 상관관계분석과 회귀분석
상관관계 Correlation 회귀분석 Regression - 두 변수간에 존재하는 확률적인 함수관계
- 관계에 방향과 강도가 있음
- 방향: 양(+), 음(-), 없음(0)
- 강도: 0에 가까울수록 약하고, 1에 가까울수록 강함
- 상관계수: 상관관계의 정도를 수치로 표현 (ex.피어슨상관계수 등)- 변수간의 관계를 모델링하고 예측하는 방법
- 상관관계뿐만 아니라, 인과관계가 있다고 가정함
- 변수 데이터 특성, 모델 구성에 따라 다양한 모델링 방법이 있음
(ex. 단순선형회귀, 다중선형회귀, 비선형회귀 등)
참고도서: 경영정보시각화능력 필기_이기적 2024
728x90반응형'자격증 > 경영정보시각화능력' 카테고리의 다른 글
[경영정보시각화능력 요약] 2장-01. 데이터 개념 (0) 2024.05.20 [경영정보시각화능력 요약] 1장-05. 공급관리 기본정보 (2) 공급사슬관리, 구매관리, 재고관리 (0) 2024.05.18 [경영정보시각화능력 요약] 1장-05. 공급관리 기본정보 (1) 수요예측, 품질관리 (0) 2024.05.16 [경영정보시각화능력 요약] 1장-04. 마케팅/영업 기본정보 (0) 2024.05.13 [경영정보시각화능력 요약] 1장-03. 인적자원 기본정보 (0) 2024.05.11