0️⃣ 데이터프레임 불러오기
- 칼럼연산 테스트를 위한 데이터프레임을 불러오겠습니다.
- Kaggle에서 가져온 Flight Price Prediction 데이터셋에서 칼럼 몇가지만 가져와볼게요.
flight는 비행편, airline은 비행사이름, duration은 비행시간(hour), price는 비행편 티켓가격 입니다.
# 데이터셋 불러오기
df = pd.read_csv(
'./Clean_Dataset.csv',
index_col = 'flight', # 인덱스가 될 칼럼
usecols = ['flight', 'airline', 'duration', 'price'] # 가져올 칼럼들 (인덱스 포함)
)
1️⃣ 기존칼럼 연산해서 새로운 칼럼 추가하기, 원하는 위치에 추가하기 :: insert
- duration 칼럼에 60을 곱해서 duration_min 칼럼을 추가해봤습니다.
이렇게 단순하게 추가만 하면, 새롭게 생성된 칼럼은 무조건 맨 끝에 붙습니다.
- 위치를 지정해서 칼럼을 추가하고 싶다면, insert 를 사용해서 추가할 위치의 인덱스를 지정해주면 됩니다.
df.insert(추가할 위치 인덱스값, 새로운 칼럼명, 기존 칼럼 연산)
# 기존칼럼을 연산해서 새로운 칼럼 추가하기
df['duration_min'] = df['duration'] * 60
# 위치 지정해서 칼럼 추가하기
df.insert(2, 'duration_min', df['duration']*60)
2️⃣ 칼럼끼리 연산해서 새로운 칼럼 추가하기, 칼럼 이름 바꾸기 :: rename
- 기존 칼럼들끼리 연산해서 새로운 칼럼을 추가할 수도 있습니다.
price를 duration으로 나눠서 price_test 칼럼을 새롭게 추가해봤습니다.
- 만약 칼럼 이름을 바꾸고 싶다면 rename을 사용하면 됩니다.
df.rename(columns = {'기존 칼럼명' : '바꿀 칼럼명'})
# 칼럼끼리 연산해서 새로운 칼럼 추가하기
df['price_test'] = df['price'] / df['duration']
# 칼럼 이름 변경하기
df = df.rename(columns={"price_test" : "price_per_hour"})