ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [빅데이터분석기사 필기 요약] [빅분기 3과목 요약] III. 빅데이터 모델링 - 요약 (1)
    자격증/빅데이터분석기사-필기 2021. 4. 12. 17:58
    728x90
    반응형

     


     

    [빅데이터분석기사 필기 3과목] III. 빅데이터 모델링

     

    01. 분석 모형 설계

     

     

    • 모델(모형): 객체/시스템/개념에 대한 구조/작업을 보여주기 위한 패턴/계획/설명
      - 탐색적 데이터 분석: 현상에서 패턴을 발견
      - 통계적 추론: 현상에서 결론을 도출
      - 기계 학습 (머신러닝): 현상을 예측

     

    • 빅데이터 분석 모형: 통계/ 데이터마이닝/ 머신러닝 기반
    • 통계 기반 분석모형: 기술통계/ 상관분석/ 회귀분석/ 분산분석/ 주성분분석/ 판별분석
    • 데이터마이닝 기반 분석모형: 분류/ 예측/ 군집화/ 연관규칙 분석
    • 머신러닝 기반 분석모형: 지도학습/ 비지도학습
    통계 기반 분석모형 데이터마이닝 기반 분석모형 머신러닝 기반 분석모형
    기술통계 분포 특징 파악 분류 Classification 지도학습 정답 포함/ 예측
    상관분석 단순-변수 2개 통계적 로지스틱회귀 로지스틱회귀 의사결정나무
      다중-변수 3개 이상 트리기반 CART 알고리즘 인공신경망 랜덤포레스트
    회귀분석 인과관계 최적화 서포트벡터머신 감성분석 서포트벡터머신
    분산분석 2개이상 집단비교 기계학습 역전파 알고리즘    
      일원/ 이원/ 다변량 예측 Prediction 비지도학습 정답 없음/ 탐색
    주성분분석 분산패턴 간결하게 회귀분석 의사결정나무 인공신경망 자기조직화지도
      원래변수 선형결합 시계열분석 인공신경망 ANN 차원축소 PCA, MDS 등
    판별분석 집단 구별 군집화 계층적/ 비계층적 군집화 계층적/ 비계층적
        연관규칙 장바구니분석 연관규칙 장바구니분석

     

    • 부적합 모형 현상: 모형선택 오류/ 변수 누락/ 부적합 변수 생성/ 동시 편향

     


     

    • 통계 분석:
      불확실한 상황에서 객관적인 의사결정을 하기 위해, 데이터를 수집-처리-분류-분석-해석하는 일련의 체계
    • 통계 기반 분석 모형: 기술통계/ 상관분석/ 회귀분석/ 분산분석/ 주성분분석/ 판별분석
    • 기술 (Description): 사람/상품에 대한 이해를 높이기 위해, 데이터 특징을 나타내고 설명에 대한 답을 제공
    기술통계 상관분석 회귀분석 분산분석 주성분분석 판별분석
    -분석 초기
    -정리/요약
    2개 이상 변수간
    상호연관성 정도
    독립변수가 종속
    변수에 미치는 영향
    2개 이상 집단간
    분산 비교
    일부 주성분으로
    원래 변동 설명
    집단 구별하는
    판별 규칙/함수
    -평균/분산/빈도 등
    -그래프 활용
    -단순: 2개
    -다중: 3개 이상
    -단순: 독립 1개
    -다중: 독립 2개이상
    -일원/이원
    -다변량
    원래변수들의
    선형결합
    새로운 개체가
    어떤 집단인가

     


     

    • 데이터마이닝:
      대용량 데이터 내의 패턴/관계/규칙 등을 탐색하고, 통계적 기법으로 모델화하여, 유용한 지식/정보를 추출한다!
    • 데이터마이닝 기반 분석 모형: 분류 모델/ 예측 모델/ 군집화 모델/ 연관규칙 모델

     

    • 분류 모델 (Classification): 범주형/이산형 변수 등의 범주를 예측하는 것
    • 분류 기법: 통계적 기법/ 트리기반 기법/ 최적화 기법/ 기계학습
    통계
    로지스틱 회귀분석
    트리
    CART 알고리즘
    최적화
    서포트 벡터 머신 SVM
    기계학습
    역전파 알고리즘
    종속변수: 서열/ 범주/ 명목 규칙에 따라 소집단으로 분류 이진 선형 분류 방법 경험적 데이터→스스로 향상
    분석 대상의 개별 관측치들이
    2개 이상의 집단 중에서
    어느 집단으로 분류되는가
    - 각 독립변수 이분화 반복
    - 이진트리 형태 생성
    - 분류&예측 수행
    - 초평면: 데이터 분리
    - 서포트벡터: 초평면에
       가장 가까이 위치한 데이터
    - 오차를 가중치에 반영
    - 가중치 갱신→구조 안정화
    - 역전파: 출력층→입력층 갱신

     

     

    • 예측 모델 (Prediction): 범주형/수치형 과거 데이터로부터 특성을 분석하여, 다른 데이터의 결괏값을 예측하는 것
    • 예측 기법: 회귀분석/ 의사결정나무/ 시계열분석/ 인공신경망
    회귀 분석 의사결정나무 시계열 분석 인공신경망 ANN
    두 연속형 변수 사이의
    모형 생성 & 적합도 측정
    의사결정규칙을 도표화
    분류 & 예측 수행
    시계열 자료 분석→미래 예측
    (연도별/ 분기별/ 월별 등)
    뉴런이 전기신호를 전달하는
    모습을 모방한 예측 모델

     

     

    • 군집화 모델 (Clustering): 이질적인 집단을 몇 개의 동질적인 소집단으로 세분화하는 작업
    • 군집화 방법: 계층적 - 응집/ 분할분석법 & 비계층적 - K평균군집화
    • 연관규칙 모델 = 연관 분석 = 연관성 분석
    군집 분석 연관 분석
    계층적 방법 비 계층적 방법 (=장바구니분석)
    응집 분석법 분할 분석법 K-평균 군집화 연관규칙
    각 객체 → 합침 전체 집단 → 분리 군집개수 K개로 정해놓고
    중심좌표 업데이트
    데이터에 숨어있으면서
    동시에 일어나는 항목간 규칙

     


     

    • 머신러닝: 지도학습/ 비지도학습/ 강화학습/ 준지도학습으로 구분함
    • 지도학습: 정답/레이블이 포함된 학습데이터를 통해 학습시킴
                   → 인식/ 분류/ 진단/ 예측 등의 문제해결
    로지스틱 회귀 인공신경망 분석 의사결정나무 서포트벡터머신 랜덤 포레스트 감성분석
    종속변수가
    범주형
    인간뉴런
    구조를 모방
    분할기준 속성판별
    트리형태로 모델링
    가장 거리가 먼
    초평면을 선택
    약한 학습기들을
    선형결합
    텍스트로부터
    감정/의견 추출

     

     

    • 비지도학습: 정답/레이블이 없는 상태에서 데이터가 어떻게 구성되었는지 알아냄
                        → 현상설명/ 특징도출/ 패턴도출 등의 탐색
    군집화 Clustering 차원축소 기법 연관성 분석 자기조직화지도 SOM
    - 군집개수 정하지 않으면
      계층적, 정한다면 비계층적!
    - 계층적: 병합/분할 분석법
    - 비계층적: K평균 군집화
    - 주성분 분석 PCA
    - 특이값 분해 SVD
    - 독립성분 분석 ICA
    - 다차원 척도법 MDS
    - 항목간 연관규칙 도출
    - 지지도: 동시 포함
    - 신뢰도: 조건부 확률
    - 향상도: 연관성 정도
    - 자율학습 인공신경망
    - 차원축소&군집화 동시에~
    - 고차원→저차원 변환
    - 구성: 입력층&경쟁층

     

     

    • 변수에 따른 분석기법
    연속 × 연속 범주 × 범주 범주 × 연속
    상관분석: 상관관계 여부 확인 카이제곱 분석: 독립성 여부 확인 T-test & ANOVA: 집단별 평균차이
    산점도(+추세선) 누적 막대그래프 누적 막대그래프 / 히스토그램

     

     

    • 분석모형 활용사례
    분석모형 활용사례
    연관규칙 학습 피자를 주문한 고객은 어떤 음료를 많이 주문하는가
    분류 분석 문서/ 조직/ 수강생들을 특성에 따라서 분류/ 그룹핑
    유전자 알고리즘 응급 처치 프로세스를 어떻게 배치하는 것이 가장 효율적인가
    기계 학습 회원의 기존 시청기록을 바탕으로, 어떤 영상을 가장 보고싶어 할지 예측한다
    회귀 분석 차주의 나이가 차량 유형에 어떤 영향을 미치는가
    감성 분석 새로운 제품/서비스에 대한 소비자들의 평가는 어떠한가
    소셜네트워크 분석 고객들 간 관계망 구성은 어떠한가/ 영향력이 있는 사람은 누구인가

     


     

    • 분석 모형 정의: 분석 모형 선정 → 적합한 변수 선택 → 모형 사양 작성
    • 모형 정의 고려사항
      - 모델이 너무 간단 → 과소적합 & 학습손실
      - 모델이 너무 복잡 → 과대적합 & 일반화손실
    파라미터 Parameter
    내부/ 학습/ 모델성능 결정
    하이퍼 파라미터 Hyper-Parameter
    외부/ 경험/ 사용자가 결정
    - 모델 내부에서 확인가능한 변수 
        - 모델이 예측 수행시 요구하는 값들
    - 측정 or 데이터로부터 학습         
    - 모델의 성능을 결정함                   
    - 모델 외적인 요소                     
    - 사용자가 직접 결정하는 값들
    - 경험에 의해 결정 가능한 값   
     - 모델 성능 등을 위해서 조절함
    인공신경망 가중치 신경망학습 학습률
    서포트벡터머신 서포트벡터 의사결정나무 나무깊이
    회귀분석 결정계수 KNN K의 개수

     

     

    • 분석 모형 구축 절차: 요건정의 → 모델링 → 검증 및 테스트 → 적용
    요건 정의 모델링 검증 및 테스트 적용
    과제정의 단계에서
    도출된 내용을 구체화
    상세 분석기법을
    적용하여 모델을 개발
    운영상황에서 실제 테스트
    모든 모델링에서 반드시 거침
    운영 시스템/업무 프로세스에
    적용&자동화&주기적 리모델링
    - 분석요건 도출
    - 수행방안 설계
    - 요건 확정
    - 입력값 확률분포→시뮬레이션
    - 입력값 상숫값→최적화
    - 성능평가: 정확도/ 정밀도/
                         재현율/ 향상도
    - 분석용 데이터로 자체 검증
    - 신규 데이터로 실제 테스트
    - 비즈니스 영향도 평가:
      ROI가 200~300% 이상
    - 실제 운영환경에 적용
    - 자동 모니터링&조기경보
    - 분기/반기/연 단위로
      주기적 리모델링(재조정)

     

     

    • 데이터 분할: 학습용 + 검증용 + 평가용 (Training + Validation + Test)
    • 데이터 분할 이유: 과대 적합 예방 & 2종 오류 방지 (잘못된 귀무가설을 채택하는 오류를 방지)
    학습과정에서 사용하는
    60~80%
    평가과정에서만 사용하는
    20~40%
    학습용 데이터 검증용 데이터 평가용 데이터
    알고리즘 학습 학습된 모델의 정확도 계산
    학습과정 중간에 검증/ 모형튜닝
    한 번도 사용되지 않은 데이터로
    학습된 모델의 성능 평가

     

     


     

    참고 도서: 빅데이터분석기사 필기_수제비 2021

     

     

    728x90
    반응형