-
[빅데이터분석기사 필기 요약] II.빅데이터 탐색 - 01. 데이터 전처리 (3)자격증/빅데이터분석기사-필기 2021. 3. 14. 18:46728x90반응형
빅데이터분석기사 필기 요약
🔑 변수/ 종속변수/ 독립변수/ 변수선택/ 필터기법/ 정보 소득/ 카이제곱 검정/ 피셔 스코어/ 상관계수/
래퍼기법/ 전진선택법/ 후진제거법/ 단계적방법/ RFE/ SFS/ 유전 알고리즘/ 단변량 선택/ mRMR/
임베디드기법/ 라쏘/ 릿지/ 엘라스틱넷/ SelectFromModel
II. 빅데이터 탐색
01. 데이터 전처리
1. 데이터 정제
2. 분석 변수 처리
2. 데이터 정제
[1] 변수 선택
(1) 변수 개념
- 변수(Feature): 데이터 모델에서 예측에 사용되는 입력변수
- RDBMS에서 속성/열 = 머신러닝에서 변수
- 변수 유형: 알려진 값 & 예측값
- 알려진 값: 변수/ 속성/ 예측변수/ 차원/ 관측치/ 독립변수
- 예측 값: 라벨/ 클래스/ 목푯값/ 반응/ 종속변수
(2) 변수 유형 | 인과관계에 따라 - 독립변수, 종속변수 / 속성에 따라 - 범주형(명목형, 순서형), 수치형(이산형, 연속형)
- 인과관계 ⇒ 독립변수 & 종속변수
- 독립변수: 종속변수에 영향을 주는 변수
- 종속변수가 특정한 값을 가지게 되는 원인이 된다고 가정함
- 연구자가 의도적으로 변화시키는 변수
- 독립변수 = 예측변수/ 회귀자/ 통제변수/ 조작변수/ 노출변수/ 리스크 팩터/ 설명변수/ 입력변수 - 종속변수: 독립변수로부터 영향을 받는 변수
- 독립변수의 영향을 받아 그 값이 변할 것이라고 가정함
- 어떻게 변화하는지 연구하는 변수
- 독립변수: 종속변수에 영향을 주는 변수
- 변수속성: 명목형/ 순서형/ 이산형/ 연속형
- 명목형: 이름만 의미 부여/ 크기와 순서는 상관 없음/ 명사형
- 순서형: 순서에 의미 부여 가능
- 이산형: 하나하나 셀 수 있음
- 연속형: 구간 안의 모든 값을 가질 수 있음
- 변수 간 관계
- 독립변수, 종속변수 둘 다 연속형, 범주형 자료로 분석 가능~
- 연속형 자료에서 원인은 공변량(Covariate)
- 범주형 자료에서 원인은 요인(Factor) 이라고 부름
(3) 변수 선택(Feature Selection) | 독립변수(x)들 중 종속변수(y)에 가장 관련성이 높은 변수만 선정하는 방법
- 변수 선택 특징
- 해석하기 쉽도록 모델 단순화
- 훈련 시간 축소
- 차원의 저주 방지 (차원이 증가할수록, 필요한 샘플 데이터가 기하급수적으로 증가하는 현상)
- 과적합 줄이고 일반화
- 모델 정확도, 성능 향상 기대 - 변수 선택 방식 분류
- 비지도 방식: 분류를 참고하지 않고 변수들만으로 선택 수행
- 지도 방식: 분류를 참고하여 변수 선택
< 변수 선택 기법: 필터/ 래퍼/ 임베디드 기법 >
필터 기법 래퍼 기법 임베디드 기법 정보 소득
카이제곱 검정
피셔 스코어
상관계수RFE
SFS
유전 알고리즘
단변량 선택
mRMR라쏘 (LASSO)
릿지 (Ridge)
엘라스틱넷 (Elastic Net)
SelectFromModel- 필터 기법(Filter Method): 데이터의 통계적 특성으로부터 변수를 선택
- 절차: 변수 전체집합 → 베스트 하위집합 선택 → 알고리즘 학습 → 성능 평가
- 특징
- 통계적 측정 방법으로 변수들의 상관관계를 알아냄
- 계산 속도 빠름 → 래퍼 기법 사용 전, 전처리에 사용함 - 사례: 정보 소득/ 카이제곱 검정/ 피셔 스코어/ 상관계수
- 정보 소득(Information Gain): 가장 정보 소득이 높은 속성 선택
- 카이제곱 검정(Chi-Square Test): 관찰 빈도와 기대 빈도의 차이가 유의한가 검정
- 피셔 스코어(Fisher Score): 최대 가능성 방정식을 풀기 위한 뉴턴의 방법
- 상관계수(Correlation Coefficient): 두 변수간 상관관계 정도를 나타낸 계수
- 절차: 변수 전체집합 → 베스트 하위집합 선택 → 알고리즘 학습 → 성능 평가
- 래퍼 기법(Wrapper Method): 변수의 일부만으로 모델링 반복
- 절차: 변수 전체집합 → (하위 집합 → 알고리즘 학습)을 반복 → 성능 평가
- 특징
- 예측 정확도 성능이 가장 좋은 하위 집합을 선택하는 기법
- 그리디 알고리즘(Greedy Algorithm): 하위 집합을 반복 선택
- 일반적으로 필터 기법보다 예측 정확도 높음!
- 시간 오래 걸림/ 과적합 위험 있음 - 알고리즘 유형: 전진선택법/ 후진제거법/ 단계적방법(전진+후진)
- 전진선택법: 빈 모델 → 변수 하나씩 추가 (모델을 가장 많이 향상 시키는 변수)
- 후진제거법: 풀 모델 → 변수 하나씩 제거 (모델에 가장 적은 영향을 주는 변수) - 기법 상세: RFE/ SFS/ 유전 알고리즘/ 단변량 선택/ mRMR
- RFE (Recursive Feature Elimination): SVM 사용 → 재귀적으로 제거
- SFS (Sequential Feature Selection): 그리디 알고리즘 → 빈 모델에 하나씩 추가
- 유전 알고리즘(Genetic Algorithm): 자연세계 진화과정에 기초한 전역 최적화 기법 (존 홀랜드, 1975)
- 단변량 선택(Univariate Selection): 각 변수를 개별 검사 → 변수와 반응변수간 관계 강도 결정
- mRMR(Minimum Redundancy Maximum Relevance): 특성변수의 중복성 최소화하는 기법
(︶^︶) 그리디 알고리즘 (Greedy Algorithm) 이란, 문제를 해결하는 과정에서
그 순간마다 최적이라고 생각되는 결정을 하는 방식으로 진행하여 최종 해답에 도달하는 문제해결방식
- 임베디드 기법(Embedded Method): 모델 자체에 변수 선택이 포함된 기법
- 절차: 변수 전체집합 → (하위 집합 → 학습 + 평가)를 반복
- 특징
- 모델 정확도에 기여하는 변수를 학습!
- 제약조건: 더 적은 계수를 가지는 회귀식을 찾는 방향으로 제어 - 사례: 라쏘/ 릿지/ 엘라스틱넷/ SelectFromModel
- 라쏘 (LASSO): 가중치 절댓값 합을 최소화 → L1-norm
- 릿지 (Ridge): 가중치 제곱 합을 최소화 → L2-norm
- 엘라스틱넷 (Elastic Net): 가중치 절댓값 합, 제곱 합을 동시에 제약 → 라쏘와 릿지를 선형결합
- SelectFromModel: 의사결정나무 기반 알고리즘으로 변수 선택
(︶^︶) Norm 이란, 벡터의 크기(길이)를 측정하는 방법을 말한다.
L1-norm은 벡터 p, q 각 원소간 차이의 절댓값의 합이고, L2-norm은 유클리디안 거리(직선 거리)이다.
참고 도서: 빅데이터분석기사 필기_수제비 2021
728x90반응형'자격증 > 빅데이터분석기사-필기' 카테고리의 다른 글
[빅데이터분석기사 필기 요약] II.빅데이터 탐색 - 02. 데이터 탐색 (1) (0) 2021.03.15 [빅데이터분석기사 필기 요약] II.빅데이터 탐색 - 01. 데이터 전처리 (4) (0) 2021.03.14 [빅데이터분석기사 필기 요약] II.빅데이터 탐색 - 01. 데이터 전처리 (2) (0) 2021.03.14 [빅데이터분석기사 필기 요약] II.빅데이터 탐색 - 01. 데이터 전처리 (1) (1) 2021.03.13 [빅데이터분석기사 필기 요약] I.빅데이터 분석 기획 - 03. 데이터 수집 및 저장 계획 (5) (1) 2021.03.13