-
[빅데이터분석기사 필기 요약] III.빅데이터 모델링 - 02. 분석기법 적용 (6) 범주형 자료 분석자격증/빅데이터분석기사-필기 2021. 3. 24. 16:34728x90반응형
빅데이터분석기사 필기 요약
🔑 분할표분석/ 상대위험도/ 승산비/ 카이제곱분석/ 교차분석/
적합도검정/ 독립성검정/ 동질성검정/ 피셔정확검정/다변량분석/ 피어슨상관계수/ 스피어만상관계수/ 다차원척도법/ 주성분분석
III. 빅데이터 모델링
02. 분석기법 적용
1. 분석기법
2. 고급 분석기법
2. 고급 분석기법
[1] 범주형 자료 분석
(1) 범주형 자료 분석 | 분할표 분석/ 카이제곱 분석/ 피셔 정확 검정/ 로지스틱 회귀분석
- 범주형 자료 분석
- 종속변수: 1개/ 범주형
- 종속변수가 1개이고 범주형인 데이터를 분석하여, 모형과 독립변수의 유의성을 알아봄 - 독립변수(X)의 척도에 따른 분석방법
- 독립변수가 범주형: 분할표 분석/ 카이제곱 검정(교차 분석)/ 피셔 정확 검정
- 독립변수가 연속형: 로지스틱 회귀분석
(2) 분할표 분석 (Contingency Table) | 상대위험도(RR)/ 승산비(Odds Ratio)
2원 분할표 예시 (Two-way Contingency Table) 🔍 [열]
종속변수A후보 B후보 [주변 합] Margin Sum [행]
독립변수여성 28 20 48 남성 39 13 52 [주변 합] Margin Sum 67 33 100 - 분할표
- 범주형 변수 개수에 따라 1원/ 2원/ 다원 분할표
- 행: 독립변수/ 열: 종속변수
- 주변합(Margin Sum): 마지막 행열에 총계 데이터 - 상대위험도 (RR; Relative Risk) = {a / (a+b)} / {c / (c+d)}: 비교 집단의 위험률 대비, 관심있는 집단의 위험률
- (관심 집단 위험률) / (비교 집단 위험률)
= { a / (a+b) } / { c / (c+d) } - 위험률: 특정 사건이 발생할 비율
- 1을 기준으로 평가함
- RR < 1: 관심 집단의 특정 사건 발생확률 낮음
- RR = 1: 관심 집단과 특정 사건의 발생에 연관성 없음
- RR > 1: 관심 집단의 특정 사건 발생확률 높음
- (관심 집단 위험률) / (비교 집단 위험률)
- 승산비 (Odds Ratio) = 교차비 = 대응위험도
- 승산 = p / (1 - p): 특정 사건이 발생하지 않을 확률 대비, 발생할 확률
= (특정 사건 발생 확률) / (발생하지 않을 확률)
= (이길 확률) / (1 - 이길확률) = p / (1 - p) - 승산비 = ad / bc: 비교 집단의 승산 대비, 관심 있는 집단의 승산
= (관심 집단의 승산) / (비교 집단의 승산)
= (특정 조건이 있을 때의 오즈) / (다른 조건이 있을 때의 오즈)
= (a / b) / (c / d) = ad / bc (교차비)
- 승산 = p / (1 - p): 특정 사건이 발생하지 않을 확률 대비, 발생할 확률
(3) 카이제곱 분석 (Chi-Squared Test) = 교차 분석 | 적합도 검정/ 독립성 검정/ 동질성 검정
- 분석 방법: χ² (카이제곱 값) 계산 → p-value가 유의수준보다 작으면 귀무가설 기각
- 카이제곱 값 = Σ (관측빈도 - 기대빈도)² / (기대빈도)
- 관측빈도와 기대빈도의 차이인
- 편차의 제곱 값을
- 기대빈도로 나눈 값들의 합
적합도 검정
Goodness of Fit
"특정 분포"독립성 검정
Independence
"두 요인/변수가 서로 독립인가"동질성 검정
Homogeneity
"각 부모집단의 동질성"귀무가설 - 표본 집단의 분포가 가정한 이론
(기대되는 빈도)과 동일한가
- 표본 집단의 분포가 주어진
특정 분포를 따르는가- 여러 범주를 가지는 요인 2개가
서로 독립적인가
- 혹은 요인 간에 연관성이 있는가- 각각의 독립적인 부모집단에서
표본을 추출하는 경우
- 관측값들이 정해진 범주 내에서
서로 동질한지 여부
- "모집단이 동질한가"자유도 범주 개수 - 1
k - 1{(범주1 수) - 1} ⨉ {(범주2 수) - 1}
(k₁ - 1) ⨉ (k₂ - 1){(범주1 수) - 1} ⨉ {(범주2 수) - 1}
(k₁ - 1) ⨉ (k₂ - 1)특징 - 자료를 구분하는 범주가
상호배타적이어야 함
- 관찰빈도와 기대빈도의 차이↑
H₀ 기각 확률↑
(ex) 학년별로 수강생의 분포가
균일한가 (기대 비율 0.25)(ex) 학년(1, 2, 3학년)이라는
범주형 자료(요인1)와
선호과목(국, 영, 수)이라는
범주형 자료(요인2) 간에
서로 연관성이 있는지 판- 독립성검정과 동질성검정은
개념상의 차이만 있고,
계산방식은 같음
(ex) 학생그룹 1과 학생그룹 2가
선호하는 과목은 동일한가(4) 피셔의 정확 검정 (Fisher's Exact Test) | 분할표 문제로, 카이제곱검정의 정확도가 떨어지는 경우 사용하는 방법
- 피셔 정확 검정을 사용하는 경우
- 표본 수가 적은 경우
- 분할표에서 셀에 치우치게 분포된 경우
- 기대빈도가 5 미만인 셀이 20% 넘는 경우
- 기대빈도: 두 변수가 독립일 경우에 이론적으로 기대할 수 있는 빈도 분포/ 예상되는 빈도
[2] 다변량 분석
(1) 상관분석 | 피어슨 상관계수/ 스피어만 순위 상관계수
- 피어슨 상관계수: 두 변수간 선형관계의 크기를 측정 (비선형관계는 측정X)
- 등간 척도 or 비례 척도를 사용하는 연속형 데이터에서 사용
- 계산방법: 두 변수의 공분산을 표준편차의 곱으로 나눈 값
= Corr (X, Y) = Cov (X, Y) / √Var(X)Var(Y) - 모집단 - 모 상관계수 (ρ) / 표본집단 - 표본 상관계수 (r)
- -1 에서 +1 사이의 값
- 스피어만 순위 상관계수: 두 변수간 비선형적인 관계도 나타낼 수 있음
- 계산방법: 두 변수를 모두 순위로 변환 → 두 순위간 피어슨 상관계수 계산
- -1 에서 +1 사이의 값
(2) 다차원 척도법 | 개체들 사이의 유사성(비유사성)을 측정하여 시각적으로 표현
- 다차원 척도법 (MDS; MultiDimensionality Scaling)
- 개체들 사이의 유사성, 비유사성을 측정하여
- 2차원 or 3차원 공간상에 점으로 표현하여
- 개체들 사이의 집단화를 시각적으로 표현하는 분석 방법 - 여러 대상간의 거리가 주어져 있을 때, 대상들을 동일한 상대적 거리를 가진 실수 공간의 점들로 배치시키는 방법
- 주어진 거리는 추상적인 대상들 간 거리 & 실수 공간에서의 거리 둘 다 될 수 있음
- 주로 자료들의 상대적 관계를 이해하는 시각화 방법의 근간으로 사용됨
다차원 척도법 예시 유클리드 거리행렬 스트레스 값 (Stress Value)
개체들의 거리를 나타내기 위해
유클리드 거리행렬을 이용함
관측대상들의 적합도 수준을 나타내는 값
0: 완벽 (Perfect)
0.15~1: 나쁨 (Poor)
(3) 주성분 분석 | 고차원 자료의 차원을 축소(축약)시킴/ 상관성 높은 변수들을 요약함
- 주성분 분석 (PCA; Principal Component Analysis)
- 상관관계가 있는 고차원 자료를
- 원래 변동을 최대한 보존하는
- 저차원 자료로 변환하는
- 차원축소 방법 - 차원축소: 많은 변수들로 구성된 고차원 자료를 축소하여, 새로운 차원의 자료를 생성하는 기법
- 고윳값(Eigenvalue)이 높은 순서로 정렬 → 높은 고윳값을 가진 고유벡터(Eigenvector)만으로 데이터 복원
- 주성분 분석의 특징
- p개의 변수들을 중요한 m(P)개의 주성분으로 표현 → 전체 변동을 설명
- p차원 변수 X = (X1, X2, ... , Xp)^T - 주성분은 원래 변수들의 선형결합으로 표현됨
- 기존의 상관성이 높은 변수들을 요약, 축소시킴 - 차원 감소폭 결정: 스크린 산점도/ 전체 변이의 공헌도/ 평균 고윳값 등을 활용
- 누적 기여율 85% 이상 → 주성분 수로 결정 가능
- 누적 기여율: 제 1 ~ k 주성분까지의 주성분을 이용하여 설명할 수 있는 데이터 전체 정보량의 비율 - 주성분으로 변수들 사이의 구조를 쉽게 이해하기는 어려움..
- 차원의 저주 해결
데이터 차원이 증가할 때, 데이터 구조를 변환하여 정보를 최대한 축적하는 차원 감소방법으로 해결
- p개의 변수들을 중요한 m(P)개의 주성분으로 표현 → 전체 변동을 설명
참고 도서: 빅데이터분석기사 필기_수제비 2021
728x90반응형'자격증 > 빅데이터분석기사-필기' 카테고리의 다른 글
[빅데이터분석기사 필기 요약] III.빅데이터 모델링 - 02. 분석기법 적용 (8) 베이지안 기법 (0) 2021.03.25 [빅데이터분석기사 필기 요약] III.빅데이터 모델링 - 02. 분석기법 적용 (7) 시계열 분석 (0) 2021.03.25 [빅데이터분석기사 필기 요약] III.빅데이터 모델링 - 02. 분석기법 적용 (5) 군집분석 (0) 2021.03.23 [빅데이터분석기사 필기 요약] III.빅데이터 모델링 - 02. 분석기법 적용 (4) SVM, 연관성분석 (1) 2021.03.23 [빅데이터분석기사 필기 요약] III.빅데이터 모델링 - 02. 분석기법 적용 (3) 인공신경망 (0) 2021.03.22 - 범주형 자료 분석