ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [빅데이터분석기사 필기 요약] III.빅데이터 모델링 - 01. 분석 모형 설계 (1)
    자격증/빅데이터분석기사-필기 2021. 3. 17. 23:22
    728x90
    반응형

    빅데이터분석기사 필기 요약

    🔑 분석모형/ 통계기반/ 기술통계/ 상관분석/ 회귀분석/ 분산분석/ 주성분분석/ 판별분석/

           데이터마이닝/ 분류/ 예측/ 군집화/ 연관규칙/ 머신러닝/ 지도학습/ 비지도학습

     

    III. 빅데이터 모델링

       01. 분석 모형 설계

          1. 분석 절차 수립

     

     

     



     

    1. 분석 절차 수립

     

    [1] 분석 모형 선정

     

    • 분석 목적 부합 & 데이터 변수 고려 → 분석 모형 선정
    • 모형(모델): 객체/ 시스템/ 개념에 대한 구조나 작업을 보여주기 위한 패턴/ 계획/ 설명
    • 탐색적 데이터 분석 (EDA): 현상에서 패턴 발견
    • 통계적 추론: 현상에서 결론 도출
    • 기계학습: 현상을 예측
    빅데이터 분석 모형
    통계 기반 데이터마이닝 기반 머신러닝 기반
    기술통계
    상관분석
    회귀분석
    분산분석
    주성분분석
    판별분석
    <분류>
    통계적기법 - 로지스틱회귀, 판별분석

    트리기반기법 - CART알고리즘
    최적화기법 - 서포트벡터머신
    기계학습 - 역전파알고리즘

    <예측>
    회귀분석
    의사결정나무
    시계열분석
    인공신경망

    군집화 - 계층적/비계층적
    연관규칙 모델 (장바구니분석)
    <지도학습>
    로지스틱회귀
    인공신경망
    의사결정나무
    서포트벡터머신
    랜덤포레스트
    감성분석

    <비지도학습>
    군집화
    차원축소기법
    연관관계분석
    인공신경망 (자기조직화지도)

     


     

    (1) 통계기반 분석 모형 선정 | 기술통계/ 상관분석/ 회귀분석/ 분산분석/ 주성분분석/ 판별분석

    • 통계분석
      - 불확실한 상황에서
      - 객관적인 의사결정을 수행하기 위해
      - 데이터를 수집, 처리, 분류, 분석, 해석하는 일련의 체계

    • 기술통계 (Descriptive Statistics): 분석 초기에 데이터를 확률/통계적으로 정리/요약하는 기초적인 통계
      • 통계적 수치: 평균/ 분산/ 표준편차/ 왜도/ 첨도/ 빈도 등
      • 그래프 활용: 막대그래프/ 파이그래프 등

    • 상관분석 (Correlation Analysis): 2개 이상의 변수간 상호연관성의 정도를 측정
      • 단순 상관분석: 2개 변수 사이의 연관관계
      • 다중 상관분석: 3개 이상의 변수 사이의 연관관계
      • 변수간 상관분석: 수치적/ 명목적/ 순서적 데이터 변수간 분석

    • 회귀분석 (Regression Analysis): 1개 이상의 독립변수가 종속변수에 미치는 영향을 추정
      • 단순 회귀: 독립변수 1개/ 직선관계
      • 다중 회귀: 독립변수 2개 이상/ 선형관계
      • 다항 회귀: (독립변수 1개/ 2차함수 이상) or (독립변수 2개/ 1차함수 이상)
      • 곡선 회귀: 독립변수 1개/ 곡선관계
      • 로지스틱 회귀: 종속변수 범주형 (단순/다중/다항)
      • 비선형 회귀: 선형관계X

    • 분산분석 (ANOVA): 2개 이상의 집단간 비교 (분산 비교)
      • 일원 분산분석: 독립변수 1개/ 종속변수 1개
      • 이원 분산분석: 독립변수 2개/ 종속변수 1개
      • 다변량 분석분석: 종속변수 2개 이상

    • 주성분분석 (PCA): 주성분 변수를 원래 변수들의 선형결합으로 추출하는 통계기법
      - 일부 주성분에 의해 원래 변수의 변동이 충분히 설명되는가!

    • 판별분석 (Discriminant Analysis): 집단을 구별할 수 있는 판별규칙/함수 → 새로운 개체가 어떤 집단인지 탐색

     

     

     


     

    (2) 데이터마이닝 기반 분석 모형 선정 | 분류/ 예측/ 군집화/ 연관규칙

    • 데이터마이닝 (Data Mining)
      - 대용량 데이터로부터
      - 데이터 내의 패턴/ 관계/ 규칙 등을 탐색하고,
      - 통계적인 기법으로 모델화하여,
      - 유용한 정보/ 지식을 추출

    • 기술 (Description)
      - 사람/상품에 대한 이해를 높이기 위해
      - 데이터가 가진 특징을 나타내고
      - 설명에 대한 답을 제공
    데이터마이닝 기반 분석 모형
    분류 모델 예측 모델 군집화 모델 연관규칙 모델
    로지스틱 회귀분석/ 판별분석
    트리기반방법 (CART 알고리즘)
    최적화기법 (서포트벡터머신)
    기계학습 (역전파 알고리즘)
    회귀분석
    의사결정나무
    시계열분석
    인공신경망
    응집/ 분할분석법
    K-평균군집화
    장바구니분석

     

     

    • 분류모델 (Classification Model):
      로지스틱 회귀분석/ 판별분석/ 트리기반(CART)/ 서포트벡터머신/ 기계학습(인공신경망)
      • 분류: 범주/그룹을 예측하는 것 (범주형 or 이산형 변수)
      • 트리기반: 의사결정규칙에 따라서, 집단을 몇 개의 소집단으로 분류
      • CART 알고리즘: 독립변수 이분화 반복이진트리 형태 형성 → 분류 & 예측
      • 기계학습: 경험적인 데이터로부터 스스로 성능을 향상 → 인간의 학습과 같은 능력을 컴퓨터에서 실현하고자 함
      • 역전파 알고리즘 (Backpropagation):
        출력값이 원하는 출력과 다를 때, 가중치 갱신으로 오차 최소화를 위한 반복 수행
        ⇒ 오차를 출력계층에서 입력계층으로 역방향으로 반영!
    로지스틱 회귀분석 (LR) 서포트 벡터 머신 (SVM) 기계학습 (인공신경망)
    - 종속변수: 서열형/ 범주형/ 명목형
    - 분석 대상이 어느 집단으로 분류되는가!


    - 최적화 기법/ 이진선형 분류방법
    - 데이터와 거리가 가장 먼 초평면 선택
    - 초평면(Hyperplane): 데이터 분리!
    - 서포트벡터: 초평면에 가장 가까운 점
    - 기대 출력값과 실제 출력값의 비교 → 오차
    - 신경망의 은닉계층에서 가중치 조정
    - 가중치 갱신 반복 → 신경망 구조 안정화

     

     

    • 예측모델 (Prediction Model): 회귀분석/ 의사결정나무/ 시계열분석/ 인공신경망
      • 예측모델: 과거 데이터로부터 특성 분석 → 새로운(다른) 데이터의 결괏값을 예측
      • 회귀분석 (Regression): 2개의 연속형 변수 사이의 모형 생성 → 적합도 측정
      • 의사결정나무 (Decision Tree): 의사결정규칙을 트리구조로 도표화
        - 용도: 분류 및 예측 모형 & 변수모형 분석 전 이상값 검색
      • 시계열 분석 (Time Series Analysis): 시계열로 관측되는 자료 분석 → 미래 예측
      • 인공신경망 (ANN): 뉴런이 전기신호를 전달하는 모습을 모방한 예측모델

     

    • 군집화모델 (Clustering Model): 계층적(응집/분할), 비계층적(K-Means)
      • 계층적방법: 군집 수 지정 X → 단계적 군집결과 산출
        - 응집분석법(객체를 합침), 분할분석법(전체에서 분리)
      • 비 계층정방법: 군집 수 지정 O → 객체를 한 군집으로 배정
        - K-평균 군집화: K개 군집의 중심좌표를 업데이트

     

    • 연관규칙 모델 (Association Rule Model):
      데이터에 숨어있으면서, 동시에 발생하는 사건/항목 간 규칙을 수치화

      - 연관규칙 분석 = 연관규칙 학습 = 연관성 분석 = 장바구니 분석
      - 장바구니 분석: 상품 배열/ 카탈로그/ 교차판매 등에 적용
      - 항목들 간의 (조건-결과) 식으로 표현되는 유용한 패턴을 발견

     

    (3) 머신러닝 기반 분석 모형 선정 | 지도학습/ 비지도학습

    • 분석기법: 목적변수(반응변수) 존재 여부 등에 따라서 지도학습/ 비지도학습/ 강화학습/ 준지도학습
    머신러닝 기반 분석 모형
    지도학습 비지도학습
    로지스틱 회귀
    인공신경망 분석
    의사결정나무
    서포트벡터머신(SVM)
    랜덤 포레스트
    감성분석
    군집화
    차원축소 기법
    연관관계 분석
    자율학습 인공신경망(자기조직화지도)

     

     

    • 지도학습 (Supervised Learning): 정답 레이블(Lable)이 포함된 데이터
      • 목적
        - 설명변수와 목적변수 간 관계성 표현
        - 인식/ 분류/ 진단/ 예측 등의 문제해결

      • 랜덤 포레스트 (Random Forest): 의사결정나무의 분산이 크다는 단점 보안 → 약한 학습기들을 선형 결합
      • 감성분석 (Sentiment Analysis): 어떤 주제에 대한 주관적인 인상/ 감정/ 태도/ 의견들을 텍스트로부터 추출

     

    • 비지도학습 (Unsupervised Learning): 정답 레이블이 없는 데이터
      • 목적
        - 예측보다, 현상 설명/ 특징 도출/ 패턴 도출 문제!
        - 사전정보가 없는 상태에서, 유용한 정보와 패턴을 탐색적으로 발견하고자 함

      • 자기 조직화 지도 (SOM)
        - 비지도 학습기반 클러스터링 기법
        - 차원축소와 군집화 동시 수행 → 고차원 데이터를 저차원으로 변환

     

     

     


     

    (4) 변수에 따른 분석기법 선정

    • 변수의 개수에 따른 분석기법: 단일변수/ 이변수/ 다변수 분석
      • 단일변수 분석: 변수 1개 → 기술통계 확인
        - 연속형: 히스토그램, 박스플롯
        - 범주형: 막대그래프

      • 다변수 분석: 변수 3개 이상의 관계 → 시각화/분석
        - 범주형 1개 이상 포함: 변수를 범주별로 쪼갬
        - 연속형 3개 이상 포함: 연속형을 범주형으로 변환

      • 이변수 분석: 변수 2개 관계 → 분석
      연속형 ⨉ 연속형 범주형 ⨉ 범주형 범주형 ⨉ 연속형
    분석방법 상관 분석
    (상관관계 여부)
    카이제곱 분석
    (독립성 여부)
    2개: T-test
    3개: ANOVA
    (집단별 평균차이)
    그래프 산점도 (+추세선) (100% 기준) 누적 막대그래프 누적 막대그래프
    범주별 히스토그램

     

     

    • 데이터 유형에 따른 분석기법
      • 독립변수 & 종속변수 주어진 경우: 주어진 독립변수에 대한 종속변수 값을 예측/ 분류하는 분석 모델 개발
    🔍 종속변수 (Y) 종속변수
    연속형 범주형 없음
    독립변수 (X) 연속형 회귀분석
    인공신경망
    K-최근접 이웃
    로지스틱 회귀분석
    판별 분석
    K-최근접 이웃
    주성분 분석
    군집 분석
    범주형 회귀분석
    인공신경망
    의사결정나무 (회귀나무)
    로지스틱 회귀분석
    인공신경망
    의사결정나무 (회귀나무)
    연관성 규칙
    판별 분석

     

     

    (5) 분석기법 선정시 고려사항

    • 목적, 데이터 해석가능 여부, 단일 or 앙상블 선택

     

    (6) 분석모형 활용사례

    • 연관규칙 학습 (장바구니 분석)
      - 콜라를 구매하는 소비자가 사이다를 더 많이 구매하는가?
      - 피자를 주문한 고객은 어떤 음료를 많이 주문하는가?

    • 분류 분석
      - 문서 분류/ 조직 그룹핑
      - 온라인 수강생들을 특성에 따라 분류

    • 유전자 알고리즘: 점진적 진화 → 최적화
      - 응급 처치 프로세스를 어떻게 배치하는 것이 가장 효율적인가?

    • 기계 학습: 알려진 특성을 훈련/ 학습/ 예측
      - 회원의 기존 시청기록을 바탕으로, 어떤 영상을 가장 보고싶어 할지 예측

    • 회귀 분석: 변수간 인과관계
      - 차주의 나이가 차량 유형에 어떤 영향을 미치는가?

    • 감성 분석: 특정 주제에 대해 말한/서술한 사람의 감정을 분석
      - 새로운 제품/서비스에 대한 소비자들의 평가는 어떠한가?

    • 소셜 네트워크 분석 (SNA):
      - 특정인과 다른사람의 관계가 몇 촌인가?
      - 영향력 있는 사람은 누구인가?
      - 고객들 간 관계망의 구성은 어떠한가?

     

    참고 도서: 빅데이터분석기사 필기_수제비 2021

     

    728x90
    반응형