ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [빅데이터분석기사 필기 요약] [빅분기 2과목 요약] II. 빅데이터 탐색 - 요약 (1)
    자격증/빅데이터분석기사-필기 2021. 4. 11. 17:10
    728x90
    반응형

     


     

    [빅데이터분석기사 필기 2과목] II. 빅데이터 탐색

     

    01. 데이터 전처리

     

     

    • 데이터 전처리: 데이터 정제 - 결측값 처리 - 이상값 처리 - 분석 변수 처리
    • 데이터 정제(Cleansing)
      - 결측값&이상값 처리를 통해 데이터 신뢰도를 높이는 작업
      - 오류 데이터값을 정확한 데이터로 수정/삭제하는 과정
      - 오류 원인 분석 - 정제 대상 선정 - 정제 방법 결정

     

    • 데이터 오류 원인: 결측값(Missing Value)/ 노이즈(Noise)/ 이상값(Outlier)
    결측값:  누락된 값 노이즈:  잘못 판단된 값 이상값:  범위에서 많이 벗어난 값
    필수적인 데이터가 입력되지 않음
    (ex) NA, NaN, NULL, inf, 999999
    입력되지 않았는데
    입력되었다고 판단됨
    범위에서 많이 벗어난
    아주 작은/큰 값

     

     

    • 데이터 일관성 유지를 위한 정제기법: 변환(Transform)/ 파싱(Parsing)/ 보강(Enhancement)
    변환 파싱 보강
    다양한 형태로 표현된 값을
    일관된 형태로 변환
    정제 규칙을 적용하기 위한
    유의미한 최소 단위로 분할
    변환/ 파싱/ 수정/ 표준화 등을 통한
    추가 정보를 반영하는 작업

     

     

    • 데이터 정제 기술: ETL/ Map Reduce/ Spark/ Storm/ CEP/ Pig/ Flume
    ETL 맵리듀스 스파크/스톰 CEP 피그 플럼
    추출-가공-저장 (키-값) 배치처리 인 메모리 기반 실시간 처리 대용량 데이터 집합 로그 수집&처리

     

     

    • 데이터 세분화(Data Segmentation):
      데이터를 기준에 따라 나누고, 선택한 매개변수를 기반으로 유사한 데이터를 그룹화
    계층적 방법: 군집 개수 정하지 않음 X 비 계층적 방법: 군집 개수 정해 놓음 O
    응집분석법 분할분석법 인공신경망 모델 K-평균 군집화
    각 객체→합침 전체 집단→분리 통계학적 학습모델 K개 군집의 중심좌표 업데이트

     

     

    • 결측값 종류: 완전 무작위/ 무작위/ 비무작위 결측
    완전 무작위 결측 무작위 결측 비 무작위 결측
    결측값이 다른변수들과
    아무 상관 없음
    특정변수와 관련되어 일어남
    그러나 변수 결과는 상관 없음
    누락된 값=변수의 결과가
    다른 변수와 상관 있음
    원인 상관 X
    결과 상관 X
    원인 상관 O
    결과 상관 X
    원인 상관 O
    결과 상관 O

     

     

    • 결측값 처리 절차: 결측값 식별 - 부호화 - 대체
    • 결측값 처리 방법: 단순 대치법 - 완전 분석법/ 평균 대치법/ 단순 확률 대치법 & 다중 대치법
    • 다중 대치법: 단순 대치법을 m번 → m개의 가상적 완전한 자료 생성 (적용방식: 대치 - 분석 - 결합)
    완전 분석법 평균 대치법 단순 확률 대치법 확률값 부여→통계량으로 대치
    불완전 자료는 완전 무시 평균값으로 대치 핫덱 (Hot-Deck) 현재 진행 중인 연구 자료
    완전하게 관측된 자료만 사용 비 조건부: 평균값 콜드덱 (Cold-Deck) 외부 출처/ 이전 연구 자료
      조건부: 회귀분석 활용 혼합 방법 몇 가지 다른 방법 혼합

     

     

    • 이상값 발생 원인:
      데이터 입력 오류/ 측정 오류/ 실험 오류/ 고의적인 이상값(자기 보고식 측정)/ 표본추출 에러(샘플링 잘못 함)

    • 이상값 검출 방법: 개별 데이터 관찰/ 통곗값/ 시각화/ 머신러닝 기법/ 마할라노비스 거리/ LOF/ iForest
    통곗값 시각화 머신러닝 기법 마할라노비스 기법 LOF iForest
    ESD (μ ± 3σ)
    기하평균/ 사분위수

    표준화점수
    확률밀도함수
    히스토그램
    시계열차트
    데이터 군집화
    K-평균 알고리즘
    - 데이터 분포 고려
    - 평균 벗어난 정도
    밀도 비교 의사결정나무
    딕슨의  Q검정
    그럽스  T검정
    카이제곱 검정
        - 모든 변수간
       선형관계 만족
    - 정규분포 따름
    관측치 주변 밀도와
    근접한 관측치 주변
    밀도의 상대적 비교
    모든 관측치를
    고립시켜나가며
    분할 횟수로 탐색

     

     

    • 이상값 처리 방법: 삭제/ 대체법/ 변환/ 박스플롯 해석/ 분류하여 처리
    삭제 : 절단/ 조정 대체법 : 상/하한값 변환 : 자연로그 박스플롯 해석 : 수염 분류하여 처리
    - 양극단 값을 절단
    - 기하평균 이용
    - 극단값 조정
    - 하한값보다 작으면
      하한값 대체
    - 상한값보다 크면
      상한값 대체
    자연로그 취함
    - 오른쪽 꼬리 긴 분포
    - 평균중심 대칭형태로
    - 실젯값을 변형
    수염(Whiskers) 밖
    이상값으로 판단
    사분위수 = Q3 - Q1
    이상값 많은 경우
    - 서로 다른 그룹
    - 그룹별 통계모형
    - 결과 결합

     

     

    • 박스플롯 (Box-Plot): 하위경계/ 제1 사분위/ 제2 사분위=중위수/ 제3 사분위/ 상위경계/ 수염/ 이상값
    사분위수 하위경계 제1 사분위 중위수 제3 사분위 상위경계 수염 이상값
    IQR=Q3-Q1
    중간 50%
    Q1 -
    1.5×IQR
    Q1 =
    하위 25%
    Q2 =
    50% 위치
    Q3 =
    하위 75%
    Q3 +
    1.5×IQR
    Q1~하위경계
    Q3~상위경계
    수염 바깥
    데이터

     

     

    • 변수 (Feature): 데이터 모델에서 예측에 사용되는 입력변수
      - 독립변수: 종속변수에 영향 주는 변수 (의도적으로 변화시킴)
      - 종속변수: 독립변수로부터 영향 받는 변수 (연구대상)

     

    • 변수 선택 (Feature Selection): 종속변수와 가장 관련성 높은 독립변수만 선정하는 방법
    • 변수 선택 기법: 필터/ 래퍼/ 임베디드 기법
    < 필터 기법 >
    통계적 특성으로부터 변수 선택
    < 래퍼 기법 >
    변수 일부만으로 모델링 반복
    < 임베디드 기법 >
    모델 자체에 변수 선택 포함
    정보 소득 가장 높은 속성선택 RFE SVM-재귀적제거 라쏘 LASSO 절댓값합 최소화 L1
    카이제곱 검정 관찰-기대빈도비교 SFS 그리디알고리즘 릿지 Lidge 제곱합 최소화 L2
    피셔 스코어 뉴턴의 방법 유전 알고리즘 전역 최적화기법 엘라스틱넷 라쏘-릿지 선형결합
    상관 계수 두변수간통계적관계 단변량 선택 각 속성 개별검사 SelectFromModel 의사결정나무 기반
        mRMR 중복성 최소화    

     

     

    • 차원 축소 (Dimensionality Reduction): 정보를 최대한 유지하면서, 변수 개수를 최대한 줄이는 탐색적 분석기법
      - 특성변수=독립변수만 사용하므로, 비지도 학습 머신러닝 기법
      - 변수들 간 내재된 특성/관계를 분석하여, 새로운 결합변수만으로도 전체변수를 적절히 설명할 수 있어야 함
      - 고차원 변수보다 변환된 저차원으로 학습할 경우, 머신러닝 알고리즘이 더 잘 작동됨
    주성분분석 PCA 특이값분해 SVD 요인분석 독립성분분석 ICA 다차원척도법 MDS
    변수들의 공분산행렬/
    상관행렬 이용함

    (NxN 정방행렬)
    차원 행렬데이터에서
    특이값 추출

    (MxN 행렬)
    잠재적인 변수가
    존재한다고 가정함
    다변량 신호를
    독립적 하부성분 분리
    개체들 간의
    유사성/비유사성 측정
    선형연관성 없는
    저차원공간으로 변환
    (서로 직교하도록)
    데이터셋을
    효과적으로 축약
    잠재요인을 도출하여
    데이터안의 구조해석
    독립성분의 분포는
    비정규 분포를 따름
    점으로 표현하여
    집단화를 시각적 표현
    (저차원으로 사상)

     

     

    • 파생변수 (Derived Variable): 기존 변수에 특정 조건/함수 등을 사용하여 새롭게 재정의한 변수
    • 파생변수 생성방법: 단위 변환/ 표현형식 변환/ 요약통계량 변환/ 변수 결합(수학적 결합)

     

    • 변수 변환: 불필요한 변수 제거/ 반환/ 새로운 변수 생성 (단순 기능 변환/ 비닝/ 정규화/ 표준화)
    단순 기능 변환 비닝 Binning 정규화 표준화
    치우친 변수를 변환 연속형데이터를 범주화 특정 구간으로 바꿈 0을 중심으로 양쪽 분포
    우측 꼬리 길 때: 루트, 로그
    좌측 꼬리 길 때: 제곱
    비즈니스 도메인
    지식이 필요함
    최소-최대 정규화
    Z-스코어 정규화
    Z = (x - x_bar) / s

     

     

    • 불균형 데이터 처리: 타겟 데이터 매우 극소수인 경우, 정밀도 향상을 위함
      - 처리 기법: 언더샘플링/ 오버샘플링/ 임곗값이동/ 앙상블기법

      - 임곗값 이동: 데이터 많은 쪽으로 임곗값(귀무가설 기각여부를 결정하는 값)을 이동시킴
      - 앙상블 기법: 서로 같은/다른 여러 모형들의 예측/분류 결과를 종합
    < 언더 샘플링 >
    다수 클래스 데이터를 일부만 선택하여 비율을 맞춤
    < 오버 샘플링 >
    소수 클래스 데이터를 복제/생성하여 비율을 맞춤
    랜덤 언더 샘플링 무작위로 일부 선택 랜덤 오버 샘플링 무작위로 복제
    토멕 링크 방법 경계선 가까이 존재하는
    토멕 링크를 제거함
    SMOTE 가상의 직선 위에
    데이터 추가
    ENN 소수 클래스 주위에 인접
    다수 클래스 데이터 제거
    Borderline-SMOTE 다수 클래스와 소수 클래스의
    경계선에서 SMOTE 적용
    CNN 다수 클래스에 밀집
    데이터가 없을 때까지 제거
    ADASYN 모든 소수 클래스에서
    다수 클래스의 관측비율 계산
    → SMOTE 적용
    OSS 토멕 링크 + CNN

     


     

    참고 도서: 빅데이터분석기사 필기_수제비 2021

     

     

    728x90
    반응형