-
데이터분석 모델링 프로세스, 머신러닝 AI 모델링 과정 요약 정리위키/데이터분석 2024. 7. 5. 15:23728x90반응형
1️⃣ 데이터 파악
데이터 유형 및 구조
파악하기• 정형/반정형/비정형 중 어떤 형태인지 파악
• 정형 데이터: 엑셀 스프레드 시트와 같은 테이블 형태의 데이터가 대표적
• 반정형 데이터: 로그, JSON, 이메일 등 일부 정형화 되어있으나 비교적 유연한 데이터 유형
• 비정형 데이터: 이미지, 영상, 텍스트 등 정해진 구조나 형식이 없는 데이터, 분석을 위해 가공 필요.데이터 학습에
영향 미칠 수 있는
모든 요소 파악하기• 수치형 데이터는 분포 및 요약통계량 확인
• 범주형 데이터는 빈도 및 교차표 등 확인
• 데이터 중복 여부, 결측치 여부, 이상치 여부 확인 → 전처리 필요한 요소들 확인
• 레이블링 여부 = 정답 = Y값이 있는지 확인 → 있으면 지도학습, 없으면 비지도학습 모델이 될 것2️⃣ 데이터 전처리
데이터 제거 및 대체 • 중복 데이터 제거
• 결측치 처리 (특정값으로 채우기, 결측치 있는 데이터 행 제거, 결측치가 너무 많은 칼럼 제거 등)
• 이상치 처리 (특정값으로 대체하기, 이상치 있는 데이터 행 제거 등)데이터 변환 • 필요시, 수치형 데이터 스케일링 (정규화, 표준화)
• 필요시, 수치형 → 범주형으로 변환 (구간화 등)
• 필요시, 범주형 → 수치형으로 변환 (인코딩, 원핫인코딩 등)분석가 판단에 의한
데이터 제거 및 추가• 모델 학습에 불필요한 데이터 제거
• 모델 학습에 필요한 파생 데이터 추가3️⃣ 분석 모델 선정
모델 선정 판단 • 데이터 유형 및 구조에 따라 사용할 수 있는 모델이 구분됨
• 레이블 = 정답 = Y값이 있다면 → 지도학습 모델
→ 답이 둘중 하나라면 "분류" 모델, 답이 연속적인 값이라면 "회귀" 모델
• 레이블 = 정답 = Y값이 없다면 → 비지도학습 모델
→ 답이 없다면 일반적으로 유사한 데이터끼리 묶는 "군집화"그 외 고려해야할 요소들 • 투입할 수 있는 컴퓨팅 시스템 자원, 비용, 시간 등을 고려하여 적절한 수준의 모델 선정 4️⃣ 학습 데이터 분할
학습 데이터 분할 •데이터 분할
- 학습 데이터 (Training set): 이 데이터를 학습시켜서 모델을 생성함
- 검증 데이터 (Validation set): 학습에 사용되지 않은 데이터로 모델들의 정확도를 검증함
- 평가 데이터 (Test set): 학습,검증에 사용되지 않은 데이터로 모델의 성능을 최종평가함
• 일반적으로 학습:검증:평가 = 6:2:2 혹은 7:2:1 비율로 분할함
• 모델의 과적합 방지와 성능 평가를 위해, 데이터 분할은 필수!데이터 분할 및
교차검증 방법• 홀드아웃 교차검증: 랜덤 비복원 추출이므로, 평가데이터는 학습에 사용할 수 없음 (학습데이터 손실)
• 랜덤 서브샘플링: 홀드아웃을 반복하는 방법, 학습데이터 손실 없음
• K-fold 교차검증: 데이터를 K개 부분집합으로 나눔, 이중 1개만 평가데이터로 쓰면서 K번 반복
• LOOCV, LpOCV: 전체데이터 N개중 1개 혹은 p개만 평가, 나머지는 학습데이터로 사용
• 부트스트랩: 랜덤 복원 추출, 동일크기 표본을 여러개 샘플링5️⃣ 모델 학습 및 성능평가 반복
모델 학습 및 평가 • 위에서 선정한 모델에 분할한 데이터를 넣고 반복 학습
• 검증데이터, 평가데이터로 모델 성능 평가과적합 확인 • 학습 횟수가 너무 많아지면, 학습데이터만 과하게 학습하는 과적합 발생할 수 있음
• 학습 반복하면서 변화하는 정확도 등의 평가지표를 시각화하여, 과적합 여부를 확인해야 함
• 일반적으로 과적합 발생 직전의 모델이 성능이 가장 우수함필요 시 반복 반복.. • 성능평가 결과 목표치에 도달하지 못한다면,
- 모델의 가중치, 하이퍼 파라미터 등을 변경하며 학습과 평가를 반복
- 전처리를 추가 진행한 데이터셋으로 시도해보기
- 전체 데이터셋 양이 모자른 경우 더 수집/수급해보기 등등..728x90반응형'위키 > 데이터분석' 카테고리의 다른 글
회귀모델 평가지표 - R2 score 결정계수, MAE, MSE, RMSE, MAPE, MPE (0) 2024.07.04 분류모델 평가지표 - 오차행렬 혼동행렬, 정확도 재현율 정밀도 F1-score, ROC곡선 AUC (0) 2024.07.04 데이터분석 기획 유형 - 최적화, 솔루션, 통찰, 발견 / 데이터분석 하향식 상향식 접근방식 (1) 2024.06.03 항상 헷갈리는 명목척도 서열척도 등간척도 비율척도 뜻 차이 예시 (1) 2024.05.18 정형데이터 반정형데이터 비정형데이터 뜻 구분, DB 스키마 뜻 (1) 2024.05.16