분류 전체보기
-
[Pandas] 구간화(Binning) 연속형데이터를 범주형으로 변환하기 :: pd.cut pd.qcut직접 해보기/Python 2024. 7. 1. 20:48
✅ 구간화 (Binning) 구간화 (Binning) • 연속형 수치데이터를 특정 구간으로 나눠서, 범주형 데이터로 변환하는 것. • 구간화하는 이유: 이상치로 발생 가능한 문제를 줄임, 분석 결과 해석이 쉬워질 수 있음.pd.cut() • 구간값을 직접 입력해서 지정함.pd.qcut() • 구간 개수를 입력함. 따라서 각 구간에 동일한 개수의 데이터가 들어가게 됨.0️⃣ 패키지 & 데이터프레임 불러오기예시가 될 데이터셋은 Kaggle에서 가져온 Flight Price Prediction 입니다.# 패키지 불러오기import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as sns# 데이터셋 불러오기df = ..
-
[Pandas] 이상치 확인, 이상치 처리하기 :: Z-score 방법, IQR 방법직접 해보기/Python 2024. 7. 1. 15:41
✅ 이상치 (Outlier) 이상치 (Outlier) • 관측된 데이터의 일반적인 범위에서 많이 벗어난 값, 즉 너무 작은 값이나 너무 큰 값 • 기준을 정해서 이상치를 처리하는 것은 필수! 이상치가 모델링 및 의사결정에 영향을 미칠 수 있기 때문.Z-score 방법 • 평균값 기반으로 이상치를 탐지하는 방법• 평균, 표준편차를 이용해서 특정 데이터가 평균값으로부터 얼마나 멀리 떨어져있는지 계산 → 특정 임계값을 넘어가면 이상치로 판단 IQR 방법 • 중앙값 기반으로 이상치를 탐지하는 방법• 사분위수, IQR을 이용해서 특정 데이터가 중앙값으로부터 얼마나 멀리 떨어져있는지 계산 → 박스플롯의 최솟값, 최댓값을 넘어가면 이상치로 판단 0️⃣ 패키지 & 데이터프레임 불러오기예시가 될 데이터..
-
[Pandas] 데이터프레임 결측치 확인, 결측치 처리 삭제 대체 :: isnull, dropna, fillna, ffill, bfill직접 해보기/Python 2024. 6. 30. 21:17
Pandas 데이터프레임에서 결측치 확인하고 처리해보기!1️⃣ 결측치 여부, 결측치 개수 확인하기 :: isnull()isnull() : 데이터프레임의 값들이 결측치인지 아닌지, 여부를 확인할 수 있습니다. 아래처럼 True/False로 결과가 출력됩니다.isnull().sum() : 칼럼별로 결측치 개수를 출력합니다.# 결측치 여부를 확인df_na.isnull()# 칼럼별로 결측치 개수 출력하기df_na.isnull().sum()2️⃣-1. 결측치 삭제 — 결측치 있는 행(row) 삭제하기 :: dropna()결측치가 1개라도 포함된 행이라면, 해당 행을 삭제해버리는 방법입니다. 결측치 비중이 적은 경우에 적합한 방법이에요.결측치가 많은데 삭제해버린다면, 데이터 손실이 커지고 분석모델에 원래..
-
[seaborn] 산점도에 회귀선 회귀식 추가하기 :: sns.lmplot sns.regplot직접 해보기/Python 2024. 6. 29. 17:12
0️⃣ 패키지 & 데이터프레임 불러오기예시가 될 데이터셋은 Kaggle에서 가져온 Flight Price Prediction 입니다.좌석(class) 이코노미석인 데이터셋만 걸러서, 비행까지 남은일수(days_left)와 가격(price)간의 관계를 알아보니상관계수 약 -0.56로 상당한 음의 상관관계를 보여주고 있네요.산점도와 회귀선까지 시각화해서 두 칼럼간의 관계를 좀더 분석해보겠습니다.# 패키지 불러오기import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as sns# 데이터셋 불러오기df = pd.read_csv('./Clean_Dataset.csv', encoding='cp949')# 좌석(class..
-
[seaborn] 데이터프레임으로 히트맵 그리기 :: sns.heatmap직접 해보기/Python 2024. 6. 29. 00:36
✅ 히트맵 (heatmap)히트맵 (Heatmap)seaborn 메소드 • 데이터를 카테고리(범주)별로 나눠서 색상으로 표현한 행렬• 여러 카테고리 값의 변화를 한눈에 살펴보기 좋은 시각화 도구임sns.heatmap()0️⃣ 패키지 & 데이터프레임 불러오기예시가 될 데이터셋은 Kaggle에서 가져온 Flight Price Prediction 입니다.# 패키지 불러오기import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as sns# 데이터셋 불러오기df = pd.read_csv('./Clean_Dataset.csv', encoding='cp949')df = df.drop([df.columns[0]], axis..
-
[matplotlib][seaborn] 데이터프레임으로 산점도 그리기 :: plt.scatter sns.scatterplot직접 해보기/Python 2024. 6. 28. 02:18
✅ 산점도 (Scatter plot)산점도 (Scatter plot)matplotlib 메소드seaborn 메소드 •연속형 변수 2개 사이의 관계를 점으로 찍어서 표현하는 그래프•산점도의 형태를 보고 상관관계를 가늠할 수 있•산점도의 점 하나하나는 관측값을 나타냄plt.scatter()sns.scatterplot()0️⃣ 패키지 & 데이터프레임 불러오기예시가 될 데이터셋은 Kaggle에서 가져온 Flight Price Prediction 입니다.비행시간(duration)과 비행편 가격(price)간의 관계를 산점도로 찍어서 알아보려고 합니다.# 패키지 불러오기import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seabor..
-
[seaborn] 데이터프레임으로 박스플롯 그리기 :: sns.boxplot직접 해보기/Python 2024. 6. 27. 22:37
✅ 박스플롯 (Box plot)박스플롯 (Box plot)matplotlib 메소드seaborn 메소드 •중앙값을 포함한 사분위수를 시각화하는 통계분석 도구•박스플롯으로 볼 수 있는 통계량 - 제1사분위수(25%), 중앙값(50%), 제3사분위수(75%) - IQR (InterQuartile Range) = 제3사분위수 - 제1사분위수 - 최솟값 = 제1사분위수 - 1.5*IQR 보다 큰 값들 중 최솟값 - 최댓값 = 제3사분위수 + 1.5*IQR 보다 작은 값들 중 최댓값 - 이상치 = 위 최댓값과 최솟값을 넘어가는 값들plt.boxplot()sns.boxplot()0️⃣ 패키지 & 데이터프레임 불러오기예시가 될 데이터셋은 Kaggle에서 가져온 Flight Price Predict..
-
[matplotlib][seaborn] 데이터프레임으로 히스토그램 그리기 :: plt.hist sns.histplot직접 해보기/Python 2024. 6. 27. 17:28
✅ 히스토그램히스토그램 (Histogram)matplotlib 메소드seaborn 메소드 •데이터의 빈도수 및 분포를 알아보기 위해 작성하는 그래프•카테고리별 개수를 막대로 나타내는 막대그래프와 달리, 정해진 구간별 빈도수를 막대로 나타내어 분포를 볼 수 있는 통계분석 도구임plt.hist()sns.histplot()0️⃣ 패키지 & 데이터프레임 불러오기예시가 될 데이터셋은 Kaggle에서 가져온 Flight Price Prediction 입니다.# 패키지 불러오기import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as sns# 데이터셋 불러오기df = pd.read_csv('./Clean_Datas..