-
[빅데이터분석기사 필기 요약] III.빅데이터 모델링 - 02. 분석기법 적용 (4) SVM, 연관성분석자격증/빅데이터분석기사-필기 2021. 3. 23. 00:46728x90반응형
빅데이터분석기사 필기 요약
🔑 SVM/ 서포트벡터머신/ 서포트벡터/ 초평면/ 슬랙변수/ 커널트릭/ 연관성분석/ 지지도/ 신뢰도/ 향상도
III. 빅데이터 모델링
02. 분석기법 적용
1. 분석기법
1. 분석기법
[5] 서포트 벡터 머신
(1) 서포트 벡터 머신 (SVM; Support Vector Machine) | 지도학습/ 이진선형분류
- 서포트 벡터 머신
- 데이터들과의 거리가 가장 먼
- 초평면을 선택하여 분리하는
- 지도학습 기반의 이진 선형 분류 모델 - 기준: 초평면 (Hyperplane) 을 기준으로 데이터를 분리함
- 활용: 사물/ 패턴/ 손글씨 숫자 인식 등
- 서포트 벡터 머신 특징
- 공간상 최적의 분리 초평면을 찾음 → 분류 및 회귀
- 변수 속성 간 의존성 고려 X
- 모든 속성 활용
- 훈련시간 느린 편/ 그러나 정확성↑
- 다른 방법보다 과대적합 가능성↓
- R package: e1071, kernlab, klaR 등
(2) 서포트 벡터 머신 종류 | 하드 마진 SVM/ 소프트 마진 SVM
- 하드 마진 (Hard Margin): 오분류 허용X → 노이즈로 최적의 결정경계 잘못 찾음 or 못 찾음
- 소프트 마진 (Soft Margin): 오분류 허용O → 어느정도 오류를 허용하는 소프트 마진을 주로 이용함
(3) 서포트 벡터 머신의 구성요소 | 결정경계/ 초평면/ 마진/ 서포트벡터/ 슬랙변수(여유변수)
- 결정 경계 (Decision Boundary): 데이터 분류 기준
- 초평면 (Hyperplane): N차원 공간의 (N-1)차원 평면 (데이터 분리)
- 마진 (Margin, 여유공간): 결정 경계 ~ 서포트 벡터 간 거리 → 이 마진을 최대화하는 것이 최적의 결정 경계
- 서포트 벡터 (Support Vector): 결정 경계와 가장 가까운 데이터들의 집합 (학습 데이터 중에서)
- 슬랙 변수 (Slack Variable, 여유변수): 완벽한 분리 불가능할 경우 → 허용된 오차를 위한 변수 (소프트 마진 SVM에서)
(4) 서포트 벡터 머신 적용 기준 | 선형으로 분리 가능/ 불가능
- 선형 분리 가능 SVM: 최적 결정 경계(초평면) 기준으로 +1 과 -1 로 구분 → 분류 모델
- 선형 분리 불가능 SVM: 커널 트릭 활용
- 커널 함수: 저차원에서 함수의 계산만으로 원하는 풀이가 가능한 함수
- 커널 트릭: 커널 함수를 이용하여, 고차원 공간으로 매핑하면서 증가하는 연산량의 문제를 해결하는 기법
- 따라서, 저차원 공간을 고차원 공간으로 매핑할 때 발생하는 연산의 복잡성을 커널 트릭으로 해결할 수 있다~!
- 예를 들어, 2차원에서 분류할 수 없는 문제를 → 3차원 공간에 매핑하여 선형 분류한다.
- 대표적인 커널 함수: 가우시안 RBF 커널/ 다항식 커널/ 시그모이드 커널 등
- 커널 함수 선택에 명확한 규칙 X 정확도 차이 별로 X
[6] 연관성 분석
(1) 연관성 분석 (Association Analysis) | 데이터 간 관계에서 조건과 반응을 연결하는 분석
- 연관성 분석 = 장바구니 분석 = 서열 분석
- 데이터 내부에 존재하는
- 항목간 상호관계 or 종속관계를
- 찾아내는 분석방법 - 연관성 분석 특징
- 목적변수 X → 분석 방향 or 목적 없어도 적용 가능
- 조건-반응 (IF-THEN) 으로 표현 → 결과 이해 쉬움
- 계산 매우 간단!
- 세분화 특징
- 장점: 적절한 세분화로 인한 품목 결정
- 단점: 너무 세분화되면 의미 없는 결과
(2) 연관성 분석의 주요 용어 | 지지도/ 신뢰도/ 향상도
지지도
Support신뢰도
Confidence향상도
LiftP(A⋂B) P(A⋂B) / P(A) P(B|A) / P(B) = 신뢰도 / P(B)
P(A⋂B) / P(A)P(B) = 지지도 / P(A)P(B)전체 거래 중
A, B 동시에 포함하는 거래 비율조건부 확률
A 구매 → B 구매규칙이 우연히 발생한 것인지 판단
거래간 연관성 정도를 측정- 향상도 (Lift): 1을 기준으로 A, B 사이의 상관관계 측정
- 향상도 = 1 : A, B가 서로 독립적
- 향상도 > 1 : A, B가 양의 상관관계 (+)
- 향상도 < 1 : A, B가 음의 상관관계 (-)
참고 도서: 빅데이터분석기사 필기_수제비 2021
728x90반응형'자격증 > 빅데이터분석기사-필기' 카테고리의 다른 글
[빅데이터분석기사 필기 요약] III.빅데이터 모델링 - 02. 분석기법 적용 (6) 범주형 자료 분석 (0) 2021.03.24 [빅데이터분석기사 필기 요약] III.빅데이터 모델링 - 02. 분석기법 적용 (5) 군집분석 (0) 2021.03.23 [빅데이터분석기사 필기 요약] III.빅데이터 모델링 - 02. 분석기법 적용 (3) 인공신경망 (0) 2021.03.22 [빅데이터분석기사 필기 요약] III.빅데이터 모델링 - 02. 분석기법 적용 (2) 의사결정나무 (0) 2021.03.21 [빅데이터분석기사 필기 요약] III.빅데이터 모델링 - 02. 분석기법 적용 (1) 회귀분석 (0) 2021.03.20 - 서포트 벡터 머신