위키/데이터분석
-
데이터분석 모델링 프로세스, 머신러닝 AI 모델링 과정 요약 정리위키/데이터분석 2024. 7. 5. 15:23
1️⃣ 데이터 파악 데이터 유형 및 구조 파악하기 • 정형/반정형/비정형 중 어떤 형태인지 파악 • 정형 데이터: 엑셀 스프레드 시트와 같은 테이블 형태의 데이터가 대표적 • 반정형 데이터: 로그, JSON, 이메일 등 일부 정형화 되어있으나 비교적 유연한 데이터 유형 • 비정형 데이터: 이미지, 영상, 텍스트 등 정해진 구조나 형식이 없는 데이터, 분석을 위해 가공 필요. 데이터 학습에 영향 미칠 수 있는 모든 요소 파악하기• 수치형 데이터는 분포 및 요약통계량 확인• 범주형 데이터는 빈도 및 교차표 등 확인• 데이터 중복 여부, 결측치 여부, 이상치 여부 확인 → 전처리 필요한 요소들 확인 • 레이블링 여부 = 정답 = Y값이 있는지 확인 → 있으면 지도학습, 없으면 비지도학습 모델이 될 것 2️..
-
회귀모델 평가지표 - R2 score 결정계수, MAE, MSE, RMSE, MAPE, MPE위키/데이터분석 2024. 7. 4. 22:12
✅ R² score = 결정계수R² score 는 회귀모델이 데이터에 얼마나 적합한지 나타내는 지표입니다. 1에 가까울수록, 모델 성능이 좋다고 평가합니다.회귀모델의 기본적인 평가지표는 아래와 같이 계산합니다.✔️ SSE = 오차제곱합 = ∑(예측값과 실제값의 차이)²✔️ SSR = 회귀제곱합 = ∑(예측값과 평균값의 차이)² ✔️ SST = 전체제곱합 = ∑(실제값과 평균값의 차이)² ✔️ R² score = 결정계수 = SSR / SST = 1 - (SSE / SST) ✅ 오차 = 실제값과 예측값의 차이 를 이용한 평가지표들MAE = Mean Absolute Error = 평균 절대 오차 = ∑|예측값과 실제값의 차이|² / 전체 개수- 오차가 작을수록 = MAE값이 작을수록, 모델 성능이 좋음.M..
-
분류모델 평가지표 - 오차행렬 혼동행렬, 정확도 재현율 정밀도 F1-score, ROC곡선 AUC위키/데이터분석 2024. 7. 4. 17:37
✅ 오차행렬 = 혼동행렬 = Confusion Matrix오차행렬은 분류모델을 평가하는 데 가장 많이 사용되는 지표 중 하나입니다. 데이터의 답이 Positive / Negative 2가지로만 분류되는 상황에서, 발생 가능한 경우의 수는 아래 4가지 뿐입니다.✔️ TP (True Positive) : 예측값이 Pos = 실제값도 Pos ✔️ FP (False Positive) : 예측값이 Pos ≠ 실제값은 Neg ✔️ FN (False Negative) : 예측값이 Neg ≠ 실제값은 Pos ✔️ TN (True Negative) : 예측값이 Neg = 실제값도 Neg 위 4가지 경우를 가지고 분류모델의 평가지표를 계산할 수 있습니다.✔️ 정확도 : 분류모델이 실제값을 정확하게 예측한 비율 ..
-
데이터분석 기획 유형 - 최적화, 솔루션, 통찰, 발견 / 데이터분석 하향식 상향식 접근방식위키/데이터분석 2024. 6. 3. 21:38
✅ 데이터 분석 기획은, 실제 분석 전 과제를 정의하고 계획을 수립하는 사전 작업입니다.어떤 목표를 달성하기 위해, 어떤 데이터를 가지고, 어떤 방식으로 수행할지에 대한 계획을 수립해야 합니다.분석 기획은 분석 문제(대상)가 정해져 있느냐에 따라, 하향식 접근방법 혹은 상향식 접근방법으로 나눌 수 있습니다.분석 대상 (What)분석 접근방식분석 방법 (How)분석 기획 유형알고 있음하향식(Top-Down)알고 있음최적화모름솔루션모름상향식(Bottom-Up)알고 있음통찰모름발견 ✅ 하향식 접근방식은 분석할 대상 정해져 있거나, 아는 상태에서 접근하는 방식입니다.최적화 (Optimization): 분석대상(What)도 알고, 분석방법(How)도 알고 있는 경우✔️ 둘다 알고 있다면 다행입니다. 어떻게 가..
-
항상 헷갈리는 명목척도 서열척도 등간척도 비율척도 뜻 차이 예시위키/데이터분석 2024. 5. 18. 17:19
데이터 척도 범주 순위 같은 간격 절대 영점 범주형 데이터 명목척도 O 순위척도 O O 연속형 데이터 등간척도 O O O 비율척도 O O O O 데이터 척도 비교연산통계시각화 범주형 데이터 명목척도 같다, 다르다X비모수 통계막대그래프,원그래프 등 순위척도 대소비교X비모수 통계 연속형 데이터 등간척도 대소비교연산가능모수 통계히스토그램,시계열그래프 등 비율척도 대소비교연산가능모수 통계 ✅ 데이터 변수는 질적변수인 범주형 데이터, 양적변수인 수치형 데이터로 나누어집니다.범주형 데이터: 임의의 "범주"로 분류하여 측정합니다. 혈액형, 국적, 직업, 만족도 등등을 예로 들 수 있습니다.✔️ 따라서 이 자체로는 연산할 수 없는 데이터입니다.✔️ 각 범주에..
-
정형데이터 반정형데이터 비정형데이터 뜻 구분, DB 스키마 뜻위키/데이터분석 2024. 5. 16. 00:29
✅ 데이터는 구조적 관점에서 정형, 반정형, 비정형 데이터로 구분합니다.데이터를 저장할 때 엑셀과 같은 고정된 필드가 필요한지, 스키마 구조 형태를 가지는지 등을 기준으로, 아래와 같이 구분합니다.✔️ 정형 데이터: 고정된 필드에 저장하고, 데이터베이스에 저장할 수 있으므로 스키마 구조 형태를 지원합니다. 행열에 의해서 속성이 구분된다는 특징이 있습니다. 가장 가까운 예로 엑셀 스프레드시트(SpreadSheet)가 있습니다.✔️ 반정형 데이터: 정형데이터처럼 일관적인 형식이 아니므로 고정된 필드에 저장되지 않으나, 메타데이터를 포함할 수 있으며, 정형데이터와 마찬가지로 스키마 구조 형태를 지원합니다. 예시로 XML, HTML, JSON파일, 그리고 이메일 등이 있습니다. ..
-
암묵지 형식지 뜻 의미 예시, 암묵지 형식지 상호작용 예시위키/데이터분석 2024. 5. 15. 02:04
✅ 지식은 암묵지와 형식지로 나누어 설명할 수 있습니다. 암묵지(Tacit knowledge)란? — 개인에게 습득된 상태의 지식을 말합니다.✔️ 학습 및 경험으로 개인에게 체화된 상태의 지식을 "암묵지"라고 부릅니다. ✔️ 말그대로 체화된 지식이기 때문에, 겉으로 드러나지 않고 공유되기 어렵다는 특징이 있습니다. ✔️ 예를 들면, 사원A가 매주 월요일 매출성과를 부서사람들에게 공유하는 루틴업무를 하는 경우, 매출성과를 뽑아내어 한눈에 보기좋게 정리하는 노하우를 가지고 있을 것입니다. 이런 지식을 암묵지라고 볼 수 있습니다.형식지(Explicit knowledge)란? — 문서와 같이 외부로 표출된 상태의 지식을 말합니다.✔️ 암묵지와 달리, 문서나 매뉴얼의 형태로 형상화된 지식을 "형식지"라고 ..
-
DIKW 피라미드 뜻 의미 예시 - 데이터/정보/지식/통찰위키/데이터분석 2024. 5. 13. 23:03
✅ DIKW 피라미드란? — 데이터→정보→지식→지혜로 올라가는 계층구조DIKW 피라미드는 데이터에서 정보, 정보에서 지식, 지식에서 지혜로 이어지는 계층적 지식 피라미드를 말합니다.✔️ Data (데이터): 객관적 사실, 측정값, 수치를 말합니다.✔️ Information (정보): 데이터를 가공 및 처리하여, 데이터간 연관관계와 의미를 도출한 것을 정보라고 합니다.✔️ Knowledge (지식): 다양한 정보를 구조화하여, 유의미한 정보를 분류하고 일반화시킨 결과물이 지식입니다.✔️ Wisdom (지혜): 지식을 축적하고 이해하면서 아이디어와 결합한 창의적인 산물을 지혜, 혹은 통찰이라고 합니다. ✅ DIKW 예시온라인으로 제품X를 구매하는 상황 예시입니다.✔️ Data (데이터): 제품X를 ..