-
[빅데이터분석기사 필기 요약] [빅분기 3과목 요약] III. 빅데이터 모델링 - 요약 (3)자격증/빅데이터분석기사-필기 2021. 4. 14. 15:31728x90반응형
[빅데이터분석기사 필기 3과목] III. 빅데이터 모델링
02. 분석기법 적용 - [2] 고급 분석기법
- 범주형 자료분석:
종속변수가 1개&범주형인 데이터를 분석하여, 모형&독립변수의 유의성을 알아보는 분석방법
독립변수(X)가 범주형 독립변수(X)가 연속형 분할표분석/ 카이제곱검정/ 피셔정확검정 로지스틱회귀분석 - 분할표 분석 (Contingency Table): 행-독립/ 열-종속/ 주변합-마지막 행열에 총계
- 승산비: 특정 조건이 있을 때의 성공승산을, 다른 조건이 있을 때의 성공승산으로 나눈 값
상대위험도 (RR; Relative Risk) 승산비(Odds Ratio) = 교차비 = 대응위험도 비교집단 위험률 대비, 관심집단 위험률 승산 = p / (1-p) = (특정 사건 발생 확률) / (발생하지 않을 확률) RR = { a / (a+b) } / { c / (c+d) } 승산비 = (a / b) / (c / d) = ad / bc (교차비) RR=1이면 연관성없음/ RR<1이면 확률 낮음/ RR>1이면 확률 높음 승산비: 비교집단의 승산 대비, 관심있는 집단의 승산 - 카이제곱 분석=교차분석: 적합도 검정/ 독립성 검정/ 동질성 검정
- 카이제곱 값 = Σ (관측빈도 - 기대빈도)² / (기대빈도) = 편차 제곱값을 기대빈도로 나눈값들의 합
적합도 검정
특정 분포를 따르는가독립성 검정
두 요인/변수가 서로 독립인가동질성 검정
각 범주의 모집단이 동질한가H0: 표본집단의 분포가
가정한 이론(특정 분포)과 동일H0: 여러 범주를 가지는
요인1과 요인2는 서로 독립적- 관측값들이 서로 동질한가
- 독립성 검정과 개념만 다르고, 계산 같음자유도 = k-1 = 범주개수 - 1 자유도 = (k1-1) × (k2-1) 자유도 = (k1-1) × (k2-1) (ex) 학년별 수강생 분포가 균일한가 (ex) 성별과 선호브랜드는 관련 있는가 (ex) 그룹1과 2의 선호브랜드는 동일한가 - 피셔 정확 검정: 분할표 문제로 카이제곱 검정의 정확도가 떨어지는 경우에 사용
- 표본 수가 적은 경우/ 분할표에서 셀에 치우치게 분포된 경우/ 기대빈도가 5 미만인 셀이 20% 넘는 경우
- 다차원 척도법 (MDS; MultiDimensionality Scaling)
개체들 사이의 유사성/비유사성을 측정,
2차원/3차원 공간상에 점으로 표현하여, 집단화를 시각적으로 표현하는 분석방법 - 주성분 분석 (PCA)
- 상관관계가 있는 고차원 자료의 변동을 최대한 보존하는 저차원 자료로 변환하는 차원축소 방법
- 고윳값(eigen-value)이 높은 순으로 정렬하여, 높은 고윳값을 가진 고유벡터만으로 데이터를 복원함
다차원척도법 MDS 주성분분석 PCA 유클리드 거리행렬: 개체들 간 거리를 나타냄 주성분으로 변수들 사이의 구조를 쉽게 이해하기는 어렵다! 스트레스 값: 개체들 간 적합도 수준을 나타냄
- Stress value = 0 이면 완벽
- Stress value = 0.15 이상이면 나쁨- 차원의 저주 방지 / 자료의 차원을 축약
- 주성분: 원래 변수들의 선형결합/ 전체 변동을 설명
- 누적 기여율이 85% 이상아면, 주성분 수로 결정!
- 시계열 분석: 연도/분기/월별 등, 시계열로 관측되는 자료를 분석하여, 미래를 예측하기 위한 분석기법
시계열 분석 Time-series Analysis 정상성 Stationary - X axis: 시간 / Y axis: 관측값
- 규칙적 & 불규칙한 특징을 가짐
- 시계열 분석을 위해서는 정상성을 만족해야 함- 시점에 상관없이, 시계열의 특성이 일정하다!
- 평균 일정O / 분산 시점의존X
- 공분산 시차의존O 시점의존X- 시계열 모형: 자기회귀 모형(AR)/ 이동평균 모형(MA)/ 자기회귀 누적 이동평균 모형(ARIMA)
자기회귀 모형 이동평균 모형 자기회귀 누적 이동평균 모형 AR(p) MA(q) (ARIMA(p, d, q) 자기자신의
과거 관측값이 영향을 줌자기자신의
과거 오차항들이 영향을 줌
→ 항상 정상성 만족비정상 모형을 차분으로 정상화함
d=0 이면 정상성 만족
→ ARMA(p, q)현시점의 자료가 p시점 전의
유한 개의 과거 자료로 설명될 수 있다시간이 지날수록 관측치의 평균값이
지속적으로 증가/감소하는 시계열 모형다음 지표를 예측하거나,
지표를 리뷰하여 트렌드를 분석과거 관측값의 오차항이
미래 관측값에 영향을 준다과거의 연속적인 오차항이
현재/미래 관측값에 영향을 준다- p = 0 이면, IMA(d, q) 모형
- q = 0 이면, ARI(p, d) 모형- 분해 시계열: 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리하여 분석하는 방법
추세 요인 (T) 계절 요인 (S) 순환 요인 (C) 불규칙 요인 (I) 어떤 특정한 형태를 취함 고정된 주기에 따라 변화 알려지지 않은 주기를 가짐 오차에 해당함 선형적/ 이차식/ 지수적 등 요일/ 월/ 분기마다 변화 명백한 이유 X 추세/ 계절/ 순환 요인 X
- 확률 (Probability)
- 비슷한 현상이 반복해서 일어날 경우, 어떤 사건이 발생할 가능성
- 같은 원인에서 특정 결과가 나타나는 비율
- 조건부 확률/ 전 확률의 정리/ 베이즈 정리
조건부 확률 전 확률의 정리 베이즈 정리 어떤 사건이 일어난다는 조건에서
(선행 조건 아래에서)
다른 사건이 일어날 확률사건의 원인을 여러가지로 나눔
각 원인에 대한 조건부 확률과
원인확률의 곱에 의한 가중합으로 확률 구함두 확률변수의 사전확률과 사후확률
사이의 관계를 설명하는 확률이론A → B: P(B|A) = P(A⋂B) / P(A)
B → A: P(A|B) = P(A⋂B) / P(B)P(A) = ∑ P(Bi) P(A|Bi)
- 딥러닝 (Deep Learning):
- 여러 비선형 변환기법의 조합을 통해, 높은 수준의 추상화를 시도하는 기계학습 알고리즘의 집합
- 기존의 기울기소실 해결/ GPU를 연산에 활용하면서 분석시간 단축됨/ 빅데이터와 SNS의 활용 증가 - 딥러닝 알고리즘: DNN, CNN, RNN, GAN 등
- 피처맵 (Feature Map): 이미지 추출 시 환경변화(왜곡, 변형 등)에 잘 적응하는 강인한 특징을 유도한 2차원 맵
- 서브샘플링 층 (Subsampling): 피처맵에 대해 공간적 해상도를 줄인 뉴런층 → 차원&문제복잡도 축소
DNN (Deep Neural Network) CNN (Convolution Neural Network) RNN (Recurrent Neural Network) - 은닉층을 심층구성
- 다수의 은닉층- 시각적 이미지 분석
- 기존 영상처리의 필터기능 + 신경망- 은닉층에서 재귀적인 신경망을 가짐
- 순차적인 데이터 분석에 적합(음성 등)입력층-가중치-은닉층-가중치-은닉층-... 이미지에서 특징 추출→피처맵 구성 SGD 등으로 가중치 업데이트 역전파 알고리즘:출력층-은닉층-입력층 피처맵→서브샘플링(풀링)→축소→반복 장기 의존성/ 기울기 소실 문제 발생
- 비정형 데이터 분석:
비정형 데이터 안에서 체계적인 통계적 규칙/패턴을 탐색하고,
의미있는 정보로 변환하여 기업의 의사결정에 적용하는 분석기법 - 비정형 데이터 분석기법: 텍스트 마이닝/ 감성분석/ 오피니언 마이닝/ 웹 마이닝/ 사회연결망 분석
텍스트 마이닝 감성 분석 오피니언 마이닝 웹 마이닝 사회연결망 분석 SNA 자연어처리 방식으로
텍스트 데이터에서
정보를 추출함텍스트로부터
어떤 주제에 대한
주관적 인상/감정 추출사용자가 게재한
주관적 의견/감정을
나타내는 패턴을 분석웹에서 발생하는
고객행위/특성
자동으로 추출/발견그룹에 속한 사람들 간
네트워크 특성/구조를
파악/분석/시각화텍스트수집-의미추출
-패턴분석-정보생성측정 주체에 따라서
달라질 수 있음특징추출-문장인식
-요약및전달- 노드: 정보 단위
- 링크: 연결점수집-분석-시각화 - 정보추출
- 문서요약
- 문서분류 (키워드)
- 문서군집화- 문장에서 긍정/부정
단어 발생 빈도 파악
- (ex) 제품 평판 분석- 규칙/통계기반
- (ex) 실시간 여론 변화
특정 제품/서비스를
좋아/싫어하는 이유- 웹 내용 마이닝
- 웹 사용 마이닝:
로그로 행위패턴 분석
- 웹 구조 마이닝주요 속성들은
- 응집력
- 구조적 등위성
- 명성/ 범위/ 중계
- 앙상블 (Ensemble): 여러가지 동일한/상이한 모형들의 예측/분류 결과를 종합하여 최종적인 의사결정에 활용하는 기법
- 앙상블 특징: 신뢰성 상승/ 정확도 상승/ 이상값에 대한 대응력 상승/ 전제 분산 감소/ 원인분석에는 부적합
- 앙상블 기법: Sampling - 배깅/ 부스팅 & Variable - 랜덤포레스트
- 배깅: 부트스트랩 데이터 여러개 생성 - 모델링 - 결합
- 부트스트랩: 단순랜덤 복원추출/ 동일크기 표본을 여러개 생성하는 샘플링
- 배깅은 반복추출 방법을 사용하므로, 같은 데이터가 한 표본에 여러 번 추출 or 한 번도 추출되지 않을 수도 있다! - 부스팅: 오분류된 개체들에 가중치 적용 - 모델 생성 반복 - 약한 모델들을 결합
- 랜덤 포레스트: 배깅/부스팅보다 더 많은 무작위성 부여 - 약한 학습기들을 선형결합
배깅 Bagging 부스팅 Boosting 랜덤 포레스트 Random Forest 분산 감소↓
소량/단순 자료 유리예측력 강화↑
대량/복잡 자료 유리배깅/부스팅보다 더 무작위성↑
노이즈에 강인하게 해줌① 다수의 부트스트랩 자료 생성
② 각 자료마다 모델링
③ 각 모델마다 도출된 결과 결합
④ 최종 예측 모형① 동일 가중치 분류기 생성
② 가중치 변경하여 분류기 다시 생성
③ 목표 정확도가 나올 때까지 반복
④ 결합하여 최종 분류기 결정① 다수의 부트스트랩 자료 생성
② 분류기 훈련 후, 대표변수 샘플도출
③ 대표변수 샘플을 트리의 잎노드로 분류
④ 잎노드들의 선형결합으로 최종모델자료마다 독립수행 후 결합
- 연속형변수: 평균
- 범주형변수: 투표 (다수결)이전 분류기 결과에 따라 가중치 재조정
- 정분류 데이터: 낮은 가중치
- 오분류 데이터: 높은 가중치!- 배깅을 이용한 포레스트 구성
부트스트랩-조금씩 다른데이터로 훈련
- 임의노드 최적화- 가지치기 (Pruning) X
- 최대한 성장한 트리를 활용함
- 결측값 있는 경우 유리함- 약한 모델(Weak Learner)들을 결합
- 오답을 정답으로 맞추기 위해 높게 부여
- 일반적으로 과대적합 없음- 의사결정나무 단점-분산이 큰 점을 보완
- 변수 제거 없이 높은 예측력/정확도
- 단점: 이론적 설명/해석 어려움주요알고리즘:
MetaCost Algorithm주요알고리즘:
AdaBoost Algorithm매개변수:
포레스트크기/ 최대허용깊이/ 임의성정도- 랜덤 포레스트에서 "노드 분할함수": 각 트리의 노드마다 좌/우 자식노드로 분할하기 위해 가지고 있는 함수
- 분할함수는 매개변수에 따라 결정됨: 매개변수 θ = Φ, Ψ, τ
Φ 파이 Ψ 프시/프사이 τ 타우 필터 함수
특징 배깅: 벡터에서 몇개의 특징만 선택분할함수의 기하학적 특성 매개변수 벡터로, 이진 테스트의
부등식에서 임곗값들을 가지고 있음
- 비모수 통계: 평균/분산과 같은 모집단에 분포에 대한 모수성을 가정하지 않고, 분석하는 통계적 방법
비모수 통계 특징 비모수 통계량: 빈도, 부호, 순위 등 - 모집단 분포와 무관하게 사용가능
- 샘플 개수 작아도 사용가능
- 이상값 영향 적음
- 통계량 계산 간편 & 직관적 이해 쉬움- 표본 1개: 부호 검정 / 윌콕슨 부호 순위 검정
- 표본 2개: 윌콕슨 순위 합 검정 / 대응 표본 검정
- 표본 3개 이상: 크루스칼-왈리스 검정
- 연속적인 값의 임의성: 런 검정- 단일 표본 부호 검정: 부호 검정/ 윌콕슨 부호 순위 검정 (모수통계에서 단일 표본 T-검정에 해당)
- 두 표본 검정: 윌콕슨 순위 합 검정/ 대응 표본 검정 (모수통계에서 독립/대응표본 T-검정에 해당)
단일 표본 (1) 두 표본 (2) 부호 검정 윌콕슨 부호 순위 검정 윌콕슨 순위 합 검정 대응 표본 검정 - 차이의 부호 O
- 차이의 크기 X- 차이의 부호 O
- 차이의 크기 O윌콕슨 순위 합
= 만-휘트니의 U검정모집단 1개에 2가지 처리를
적용하여 관찰값을 얻은 경우중위수와 자료의 차이를
부호로 전환하여 검정함 (-), (+)단일/대응표본에서 중위수에
대한 검정 (ex. H0: 중위수=50)두 표본의 혼합표본(1+2)
에서 순위합을 이용하여 검정각 쌍의 차이값 Di를 이용하여
두 중위수의 차이를 검정함- 연속적&독립적 분포 가정
- 분포의 대칭성 가정 없어도 됨- 연속적&독립적 분포 가정
- 분포의 대칭성 가정 반드시 O- H0: 두 모집단 중위수가 같다
- 분포의 대칭성 가정 반드시 O- H0: 두 쌍의 중위수가 같다
- H0: δ = 0 (δ=Di들의 중위수)- 3개 이상의 집단: 크루스칼-왈리스 검정 (모수통계에서 분산분석=ANOVA에 해당)
- 런 검정: 2개의 값을 가지는 연속적인 측정값들이 어떤 패턴/경향 없이 임의적으로 나타난 것인지 검정하는 방법
크루스칼-왈리스 검정 런 검정 - 3개 이상의 그룹별 중위수 비교
- 혼합표본을 크기 순으로 나열-순위부여-값계산- 런 Run: 동일한 측정치들이 시작하여 끝날 때까지의 덩어리
- 변수값: 2개 가져야 함/ 기준값으로 이분화해야 함H0: 각 그룹간 중위수는 같다 H0: 연속적인 측정값들이 임의적이다 (패턴/경향이 없다)
참고 도서: 빅데이터분석기사 필기_수제비 2021
728x90반응형'자격증 > 빅데이터분석기사-필기' 카테고리의 다른 글
[빅데이터분석기사 필기 요약] [빅분기 4과목 요약] IV. 빅데이터 결과 해석 - 요약 (2) (0) 2021.04.16 [빅데이터분석기사 필기 요약] [빅분기 4과목 요약] IV. 빅데이터 결과 해석 - 요약 (1) (1) 2021.04.15 [빅데이터분석기사 필기 요약] [빅분기 3과목 요약] III. 빅데이터 모델링 - 요약 (2) (0) 2021.04.13 [빅데이터분석기사 필기 요약] [빅분기 3과목 요약] III. 빅데이터 모델링 - 요약 (1) (2) 2021.04.12 [빅데이터분석기사 필기 요약] [빅분기 2과목 요약] II. 빅데이터 탐색 - 요약 (2) (0) 2021.04.11 - 범주형 자료분석: