ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 데이터분석 모델링 프로세스, 머신러닝 AI 모델링 과정 요약 정리
    위키/데이터분석 2024. 7. 5. 15:23
    728x90
    반응형

     

     

    1️⃣  데이터 파악

    데이터 유형 및 구조
    파악하기
    • 정형/반정형/비정형 중 어떤 형태인지 파악
    정형 데이터: 엑셀 스프레드 시트와 같은 테이블 형태의 데이터가 대표적
    반정형 데이터: 로그, JSON, 이메일 등 일부 정형화 되어있으나 비교적 유연한 데이터 유형
    비정형 데이터: 이미지, 영상, 텍스트 등 정해진 구조나 형식이 없는 데이터, 분석을 위해 가공 필요.
    데이터 학습에
    영향 미칠 수 있는
    모든 요소 파악하기
    수치형 데이터는 분포 및 요약통계량 확인
    범주형 데이터는 빈도 및 교차표 등 확인
     데이터 중복 여부, 결측치 여부, 이상치 여부 확인 → 전처리 필요한 요소들 확인
    • 레이블링 여부 = 정답 = Y값이 있는지 확인 → 있으면 지도학습, 없으면 비지도학습 모델이 될 것

     

     

    2️⃣  데이터 전처리

    데이터 제거 및 대체 중복 데이터 제거
    결측치 처리 (특정값으로 채우기, 결측치 있는 데이터 행 제거, 결측치가 너무 많은 칼럼 제거 등)
    이상치 처리 (특정값으로 대체하기, 이상치 있는 데이터 행 제거 등)

    데이터 변환 • 필요시, 수치형 데이터 스케일링 (정규화, 표준화)
    • 필요시, 수치형 → 범주형으로 변환 (구간화 등)
    • 필요시, 범주형 → 수치형으로 변환 (인코딩, 원핫인코딩 등)
    분석가 판단에 의한
    데이터 제거 및 추가
    • 모델 학습에 불필요한 데이터 제거
    • 모델 학습에 필요한 파생 데이터 추가

     

     

    3️⃣  분석 모델 선정

    모델 선정 판단 • 데이터 유형 및 구조에 따라 사용할 수 있는 모델이 구분됨
    • 레이블 = 정답 = Y값이 있다면 → 지도학습 모델
         → 답이 둘중 하나라면 "분류" 모델, 답이 연속적인 값이라면 "회귀" 모델
    • 레이블 = 정답 = Y값이 없다면 → 비지도학습 모델
         → 답이 없다면 일반적으로 유사한 데이터끼리 묶는 "군집화"
    그 외 고려해야할 요소들 • 투입할 수 있는 컴퓨팅 시스템 자원, 비용, 시간 등을 고려하여 적절한 수준의 모델 선정

     

     

    4️⃣  학습 데이터 분할

    학습 데이터 분할 •데이터 분할
       - 학습 데이터 (Training set): 이 데이터를 학습시켜서 모델을 생성함
       - 검증 데이터 (Validation set): 학습에 사용되지 않은 데이터로 모델들의 정확도를 검증함
       - 평가 데이터 (Test set): 학습,검증에 사용되지 않은 데이터로 모델의 성능을 최종평가함

    • 일반적으로 학습:검증:평가 = 6:2:2 혹은 7:2:1 비율로 분할함
    • 모델의 과적합 방지와 성능 평가를 위해, 데이터 분할은 필수!
    데이터 분할 및
    교차검증 방법
    • 홀드아웃 교차검증: 랜덤 비복원 추출이므로, 평가데이터는 학습에 사용할 수 없음 (학습데이터 손실)
    • 랜덤 서브샘플링: 홀드아웃을 반복하는 방법, 학습데이터 손실 없음
    • K-fold 교차검증: 데이터를 K개 부분집합으로 나눔, 이중 1개만 평가데이터로 쓰면서 K번 반복
    • LOOCV,
    LpOCV: 전체데이터 N개중 1개 혹은 p개만 평가, 나머지는 학습데이터로 사용
    • 부트스트랩: 랜덤 복원 추출, 동일크기 표본을 여러개 샘플링

     

     

    5️⃣  모델 학습 및 성능평가 반복

    모델 학습 및 평가 • 위에서 선정한 모델에 분할한 데이터를 넣고 반복 학습
    • 검증데이터, 평가데이터로 모델 성능 평가
    과적합 확인 • 학습 횟수가 너무 많아지면, 학습데이터만 과하게 학습하는 과적합 발생할 수 있음
    • 학습 반복하면서 변화하는 정확도 등의 평가지표를 시각화하여, 과적합 여부를 확인해야 함
    일반적으로 과적합 발생 직전의 모델이 성능이 가장 우수함 

    필요 시 반복 반복.. • 성능평가 결과 목표치에 도달하지 못한다면,
       - 모델의 가중치, 하이퍼 파라미터 등을 변경하며 학습과 평가를 반복
       - 전처리를 추가 진행한 데이터셋으로 시도해보기
       - 전체 데이터셋 양이 모자른 경우 더 수집/수급해보기 등등.. 

     

    728x90
    반응형