위키
-
데이터분석 모델링 프로세스, 머신러닝 AI 모델링 과정 요약 정리위키/데이터분석 2024. 7. 5. 15:23
1️⃣ 데이터 파악 데이터 유형 및 구조 파악하기 • 정형/반정형/비정형 중 어떤 형태인지 파악 • 정형 데이터: 엑셀 스프레드 시트와 같은 테이블 형태의 데이터가 대표적 • 반정형 데이터: 로그, JSON, 이메일 등 일부 정형화 되어있으나 비교적 유연한 데이터 유형 • 비정형 데이터: 이미지, 영상, 텍스트 등 정해진 구조나 형식이 없는 데이터, 분석을 위해 가공 필요. 데이터 학습에 영향 미칠 수 있는 모든 요소 파악하기• 수치형 데이터는 분포 및 요약통계량 확인• 범주형 데이터는 빈도 및 교차표 등 확인• 데이터 중복 여부, 결측치 여부, 이상치 여부 확인 → 전처리 필요한 요소들 확인 • 레이블링 여부 = 정답 = Y값이 있는지 확인 → 있으면 지도학습, 없으면 비지도학습 모델이 될 것 2️..
-
회귀모델 평가지표 - R2 score 결정계수, MAE, MSE, RMSE, MAPE, MPE위키/데이터분석 2024. 7. 4. 22:12
✅ R² score = 결정계수R² score 는 회귀모델이 데이터에 얼마나 적합한지 나타내는 지표입니다. 1에 가까울수록, 모델 성능이 좋다고 평가합니다.회귀모델의 기본적인 평가지표는 아래와 같이 계산합니다.✔️ SSE = 오차제곱합 = ∑(예측값과 실제값의 차이)²✔️ SSR = 회귀제곱합 = ∑(예측값과 평균값의 차이)² ✔️ SST = 전체제곱합 = ∑(실제값과 평균값의 차이)² ✔️ R² score = 결정계수 = SSR / SST = 1 - (SSE / SST) ✅ 오차 = 실제값과 예측값의 차이 를 이용한 평가지표들MAE = Mean Absolute Error = 평균 절대 오차 = ∑|예측값과 실제값의 차이|² / 전체 개수- 오차가 작을수록 = MAE값이 작을수록, 모델 성능이 좋음.M..
-
분류모델 평가지표 - 오차행렬 혼동행렬, 정확도 재현율 정밀도 F1-score, ROC곡선 AUC위키/데이터분석 2024. 7. 4. 17:37
✅ 오차행렬 = 혼동행렬 = Confusion Matrix오차행렬은 분류모델을 평가하는 데 가장 많이 사용되는 지표 중 하나입니다. 데이터의 답이 Positive / Negative 2가지로만 분류되는 상황에서, 발생 가능한 경우의 수는 아래 4가지 뿐입니다.✔️ TP (True Positive) : 예측값이 Pos = 실제값도 Pos ✔️ FP (False Positive) : 예측값이 Pos ≠ 실제값은 Neg ✔️ FN (False Negative) : 예측값이 Neg ≠ 실제값은 Pos ✔️ TN (True Negative) : 예측값이 Neg = 실제값도 Neg 위 4가지 경우를 가지고 분류모델의 평가지표를 계산할 수 있습니다.✔️ 정확도 : 분류모델이 실제값을 정확하게 예측한 비율 ..
-
국내 AI 반도체 ETF 한번에 비교하기 (SOL AI반도체소부장, KODEX AI반도체핵심장비 등)위키/경제&투자 2024. 6. 17. 01:51
국내 AI 반도체 ETF 한번에 비교 (24.06.14 장마감 기준)💰 순자산총액 비교국내 반도체 AI 테마 ETF는 SOL, KODEX, TIGER, ACE에 하나씩 있습니다. 국내 대표 ETF 운용사별로 하나씩은 있는 셈이네요.모두 상장된지 1년 남짓 혹은 1년도 안된 상품들입니다.이 중 SOL AI반도체소부장의 순자산총액이 약 4천억으로, 운용규모가 가장 큰 ETF입니다.💰 총보수율(TER), 실제부담비용율 비교총보수율(TER)은 일반적인 보수에 기타비용을 더한 비용인데요, 여기에 수수료까지 더해야 투자자가 실제로 부담하는 비용이 산출됩니다. TIGER AI반도체핵심공정이 약 0.54%로 가장 높고, 그 다음 SOL AI반도체소부장이 약 0.53% 로 큰 차이가 없네요.ACE AI반도체포커스는..
-
국내 반도체 ETF TOP6 한번에 비교하기 - 순자산총액 기준 TOP6 (TIGER Fn반도체TOP10, KODEX 반도체 등)위키/경제&투자 2024. 6. 14. 01:14
국내 반도체 ETF TOP6 한번에 비교 (TOP6-24.06.13 순자산총액 기준)💰 순자산총액 비교TIGER Fn반도체TOP10의 순자산총액이 8,462억으로 가장 높고, 그 뒤로 KODEX 반도체와 SOL AI반도체소부장이 높습니다.SOL AI반도체소부장은 이제 상장 1년남짓, KODEX AI반도체핵심장비는 1년도 안되었는데 TOP6 안에 들어오는 것을 보면안그래도 수익률이 높은편인 반도체에 AI테마까지 더해져서 많은 투자자가 몰린 것 같습니다.💰 총보수율(TER), 실제부담비용율 비교총보수율(TER)은 일반적인 보수에 기타비용을 더한 비용인데요, 여기에 수수료까지 더해야 투자자가 실제로 부담하는 비용이 산출됩니다. KBSTAR 비메모리반도체액티브가 약 0.59%로 가장 높고, 그 다음 높은 것..
-
국내 ETF 진짜 총보수율 쉽게 비교하기 (feat. 금융투자협회 전자공시)위키/경제&투자 2024. 6. 13. 01:06
금융투자협회 전자공시시스템에서 국내상장 ETF "진짜 총보수율" 쉽게 비교하기!💰 ETF 보수율 이란? — ETF의 운용 및 서비스의 대가로 투자자가 지불하는 비용의 비율입니다.돈을 이체할때 은행에 수수료를 지불하듯이.. ETF도 운용사 등에 서비스의 대가 즉, 보수를 지불해야 합니다.이 보수비용을 순자산으로 나눈 비율이 보수율입니다.무조건 투자자가 부담해야 하는 비용이기 때문에, 적을수록 투자자에게 유리하겠죠. 💰 ETF 보수율 유심히 들여다보면, 사이트/앱마다 제각각!요새 ETF에 관심을 가지고 공부하다가 충격적인 점을 발견했는데, ETF는 하나인데 보수율은 하나가 아닌 것입니다!예를들어 TIGER Fn반도체 TOP10를 검색해보면, 네이버와 신한에서는 0.45% 이지만 미래에셋에서 0.51% ..
-
데이터분석 기획 유형 - 최적화, 솔루션, 통찰, 발견 / 데이터분석 하향식 상향식 접근방식위키/데이터분석 2024. 6. 3. 21:38
✅ 데이터 분석 기획은, 실제 분석 전 과제를 정의하고 계획을 수립하는 사전 작업입니다.어떤 목표를 달성하기 위해, 어떤 데이터를 가지고, 어떤 방식으로 수행할지에 대한 계획을 수립해야 합니다.분석 기획은 분석 문제(대상)가 정해져 있느냐에 따라, 하향식 접근방법 혹은 상향식 접근방법으로 나눌 수 있습니다.분석 대상 (What)분석 접근방식분석 방법 (How)분석 기획 유형알고 있음하향식(Top-Down)알고 있음최적화모름솔루션모름상향식(Bottom-Up)알고 있음통찰모름발견 ✅ 하향식 접근방식은 분석할 대상 정해져 있거나, 아는 상태에서 접근하는 방식입니다.최적화 (Optimization): 분석대상(What)도 알고, 분석방법(How)도 알고 있는 경우✔️ 둘다 알고 있다면 다행입니다. 어떻게 가..
-
항상 헷갈리는 명목척도 서열척도 등간척도 비율척도 뜻 차이 예시위키/데이터분석 2024. 5. 18. 17:19
데이터 척도 범주 순위 같은 간격 절대 영점 범주형 데이터 명목척도 O 순위척도 O O 연속형 데이터 등간척도 O O O 비율척도 O O O O 데이터 척도 비교연산통계시각화 범주형 데이터 명목척도 같다, 다르다X비모수 통계막대그래프,원그래프 등 순위척도 대소비교X비모수 통계 연속형 데이터 등간척도 대소비교연산가능모수 통계히스토그램,시계열그래프 등 비율척도 대소비교연산가능모수 통계 ✅ 데이터 변수는 질적변수인 범주형 데이터, 양적변수인 수치형 데이터로 나누어집니다.범주형 데이터: 임의의 "범주"로 분류하여 측정합니다. 혈액형, 국적, 직업, 만족도 등등을 예로 들 수 있습니다.✔️ 따라서 이 자체로는 연산할 수 없는 데이터입니다.✔️ 각 범주에..