-
[빅데이터분석기사 필기 요약] III.빅데이터 모델링 - 02. 분석기법 적용 (1) 회귀분석자격증/빅데이터분석기사-필기 2021. 3. 20. 22:11728x90반응형
빅데이터분석기사 필기 요약
🔑 회귀분석/ 선형성/ 독립성/ 등분산성/ 비상관성/ 정상성
추정/ 최소제곱법/ 회귀계수/ 결정계수/ F-통계량/ 로지스틱회귀분석/ 다중공선성
III. 빅데이터 모델링
02. 분석기법 적용
1. 분석기법
1. 분석기법
[1] 회귀 분석
(1) 회귀 분석 (Regression Analysis) | 1개 이상의 독립변수가 종속변수에 미치는 영향을 추정
- 회귀 분석
- 변수들 사이의 인과관계를 밝히고
- 모형을 적합하여
- 관심있는 변수를 예측/추론 - 변수: 영향을 주는 변수(x)/ 영향을 받는 변수(y)
- 영향을 주는 변수 = 독립변수 = 설명변수 = 예측변수
- 영향을 받는 변수 = 종속변수 = 반응변수 = 결과변수 - 가정: 선형성/ 독립성/ 등분산성/ 비상관성/ 정상성
- 단순모형: 선형성 검증 / 다중모형: 5개 가정 모두 검증
- 선형성: 독립변수와 종속변수의 선형관계
- 독립성: 잔차와 독립변수 상관X
- 등분산성: 오차들의 분산 일정
- 비상관성: 오차들 간 상관X
- 정상성: 오차항(잔차항)이 정규분포
- 모형 검증 체크리스트: 통계적 유의미/ 회귀계수/ 설명력/ 데이터 적합/ 가정 만족
- 통계적 유의미: F-통계량, p-value 확인
- 회귀계수 :계수의 T-통계량, p-value, 신뢰구간 확인
- 설명력: 결정계수 확인
- 데이터 적합: 잔차 그래프 → 회귀 진단
- 가정 만족: 5개 가정 모두 만족?
(︶^︶) 변수(Variable)이란, 수식에 따라서 변하는 값을 말한다.
(︶^︶) 계수(Coefficient)란, '인자'의 뜻으로 쓰이며 식 앞에 곱해지는 상수를 의미한다.
- 편차 vs. 오차 vs. 잔차
- 편차(Deviation): 평균과의 차이 = 관측값이 평균값에서 떨어져 있는 정도
- 오차(Error): 모집단에서 실젯값과 회귀선의 차이 즉, 정확치와 관측값의 차이
- 예측하기 위한 추정치와 실젯값의 차이 = 예측값이 정확하지 못한 정도 - 잔차(Residual): 표본에서 나온 관측값과 회귀선의 차이
- 평균이 아닌, 회귀식 등으로 추정된 추정치와의 차이
- 추정된 값을 설명할 수 없어서 아직도 남아있는 편차 = 편차 일부분
- 편차(Deviation): 평균과의 차이 = 관측값이 평균값에서 떨어져 있는 정도
(2) 회귀 분석 유형 | 단순선형/ 다중선형
- 단순선형 회귀 분석 (Simple Linear Regression Analysis): 독립변수 1개/ 종속변수 1개/ 오차항 있는 선형관계
- 회귀식: yi = β₀ + β₁xi + ei
- 오차항 ei는 독립적, N(0, σ²)의 분포 - 회귀계수 추정: 최소제곱법 사용하여 추정
- 최소제곱법(Least Square Method): 오차 제곱의 합이 가장 최소가 되는 회귀계수를 찾는다! - 회귀분석 검정: 결정계수를 계산하여 결과가 적합한지 검증
- 회귀계수 검정: β₀ = 0 이면, 추정식은 의미없음
- 회귀직선 적합도/정확도 평가: 결정계수(R²) (0 ≤ R² ≤ 1) - 선형회귀의 문제점: 0 이하의 값 or 1 이상의 값을 예측값으로 줄 수 있음 → 확률값으로 직접 해석할 수 없음
- 회귀식: yi = β₀ + β₁xi + ei
- 결정계수(R²) = (회귀제곱합) / (전체제곱합)
= SSR / SST = SST / (SSR+SSE)
- 회귀모형이 전체데이터를 얼마나 잘 설명하는지 보여줌
- 추정된 회귀식/회귀직선이 얼마나 타당/적합한지 검토
- 독립변수가 종속변수 변동의 몇 %를 설명하는지 나타냄
- 총 변동 중, 회귀모형에 의해 설명되는 변동이 차지하는 비율
※ 수정된 결정계수 (Adjusted R-squared)
독립변수 개수가 많아지면, 독립변수가 유의하지 않아도
결정계수가 높아진다는 단점 → 이럴 때 수정된 R² 사용함SSE
Error Sum of SquaresSST
Total Sum of SquaresSSR
Regression Sum of Squares오차 제곱합 전체 제곱합 회귀 제곱합 - 다중선형 회귀 분석 (Multi Linear Regression Analysis): 독립변수 여러 개/ 종속변수 1개
- 모형의 통계적 유의성: F-통계량으로 확인
- F-통계량↑ p-value↓ → p-value < 0.05 이면 귀무가설 기각 → 모형이 통계적으로 유의하다!
- F = MSR/MSE = (SSR/k) / {SSE/(n-k-1)} - 회귀분석 검정:
- 회귀계수: t-통계량
- 회귀선: 결정계수
- 모형적합성: 잔차와 종속변수의 산점도
- 다중공선성: VIF, 상태지수 - 다중공선성 (Multicolinearity):
다중회귀분석에서 독립변수들 간 선형관계가 존재한다면 → 정확한 회귀계수 추정 어려움
- 분산팽창요인 (VIF): 4 < VIF 다중공선성 존재/ 10 < VIF 심각한 문제
- 상태지수: 10 < 상태지수 이면 문제있음/ 30 < 상태지수 이면 심각!
- 다중공선성 문제 발생 → 변수 제거/ 주성분 회귀/ 능형 회귀 (Ridge Regression) 적용
- 모형의 통계적 유의성: F-통계량으로 확인
(︶^︶) F-통계량은 분산이 동일하다고 가정되는 두 모집단으로부터,
독립적인 두 표본을 추출했을 때, 두 표본분산의 비율이다.
(︶^︶) 주성분회귀(PCR)란, 독립변수들의 주성분들을 추출하여 회귀모델을 만드는 기법을 말한다.
(︶^︶) 능형회귀(Ridge Regression)는 최소제곱합에 패널티 항을 추가하여 추정하여, 분산을 줄여주는 효과가 있다.
- 주성분 분석: 서로 상관성이 높은 변수들을 선형결합으로 요약, 축소하는 기법
- 변수들의 분산 방식의 패턴을 간결하게 표현하는 주성분 변수를 원래 변수의 선형결합으로 추출하는 통계기법
- 분석을 통해 나타나는 주성분으로 변수들 사이의 구조를 쉽게 이해하는 건 어렵다..요약하는 게 주 목적!
[2] 로지스틱 회귀 분석
(1) 로지스틱 회귀 분석 (Logistic Regression Analysis) | 반응변수(종속변수)가 범주형, 분류 목적으로 사용
- 로지스틱 회귀 분석
- 새로운 설명변수(독립변수) 값이 주어질 때
- 반응변수(종속변수)의 각 범주에
- 속할 확률이 어느정도인지 추정하여
- 추정 확률을 기준치에 따라 분류 - 로지스틱 회귀모형의 사용
- 클래스가 알려진 데이터에서
- 각 클래스내의 관측치들에 대한
- 유사성을 찾는 데 사용할 수 있다. - 승산 (오즈; Odds) = 실패에 비해 성공할 확률의 비 = p / (1-p)
- 회귀식: log( π(x) / (1-π(x)) ) = α + β₁x
- π(x) = P(Y=1 | x) - 회귀계수 β₁ 부호에 따라 로지스틱 함수 그래프 모양이 달라짐
⇒ β₁ > 0 - S자
⇒ β₁ < 0 - 역 S자 - R 함수
- glm(): 모형 적합 함수
- cdplot(): 연속형변수의 변화에 따른 범주형변수의 조건부분포 조회 (탐색적 분석)
- step(): 변수 선택 함수
- 회귀식: log( π(x) / (1-π(x)) ) = α + β₁x
참고 도서: 빅데이터분석기사 필기_수제비 2021
728x90반응형'자격증 > 빅데이터분석기사-필기' 카테고리의 다른 글
[빅데이터분석기사 필기 요약] III.빅데이터 모델링 - 02. 분석기법 적용 (3) 인공신경망 (0) 2021.03.22 [빅데이터분석기사 필기 요약] III.빅데이터 모델링 - 02. 분석기법 적용 (2) 의사결정나무 (0) 2021.03.21 [빅데이터분석기사 필기 요약] III.빅데이터 모델링 - 01. 분석 모형 설계 (2) (0) 2021.03.18 [빅데이터분석기사 필기 요약] III.빅데이터 모델링 - 01. 분석 모형 설계 (1) (0) 2021.03.17 [빅데이터분석기사 필기 요약] II.빅데이터 탐색 - 03. 통계기법 이해 (3) (0) 2021.03.17 - 회귀 분석