전체 글
-
[Pandas] 데이터프레임 칼럼 값들의 개수 빈도수 카운트 :: value_counts value counts직접 해보기/Python 2024. 6. 16. 20:36
0️⃣ 칼럼에 있는 값들의 개수 :: value_counts특정 칼럼에 포함된 값들의 구성을 알고 싶을 때, value_counts 메소드를 유용하게 사용할 수 있습니다.칼럼을 지정하면, 이 칼럼에 있는 모든 고유값들의 개수(counts)를 돌려주는 메소드입니다.예시 데이터셋은 Kaggle에서 가져온 Flight Price Prediction 비행편 데이터셋인데요, 출발시간(departure_time)칼럼에 포함된 데이터가 각각 몇 개인지 뽑아봤습니다.# 지정한 칼럼에 있는 모든 고유값들의 개수(counts)df['칼럼명'].value_counts() 1️⃣ 내림차순 정렬 없애기 :: sort=False위 결과테이블을 보시면 counts 기준 내림차순으로 정렬되어 있습니다. 디폴트로 정렬되어 ..
-
[Pandas] 데이터프레임 요약 기본정보 요약통계량 확인하기 :: info describe columns dtypes직접 해보기/Python 2024. 6. 16. 17:07
0️⃣ DataFrame 형태, 칼럼이름, 칼럼별 데이터타입 :: shape, columns, dtypes몇천 몇만 행짜리 데이터프레임을 불러오면, 이 데이터가 어떻게 생겼는지 등등 기본정보와 요약을 먼저 살펴봐야 합니다.가장 먼저 살펴볼 법한 데이터프레임의 기본중의 기본정보 3가지 입니다.- shape : 데이터프레임의 형태 = 행열의 개수- columns : 칼럼들의 이름- dtypes : 각 칼럼의 데이터타입df.shape # 데이터프레임의 형태df.columns # 칼럼들의 이름df.dtypes # 각 칼럼의 데이터타입 1️⃣ DataFrame 칼럼별 상태 확인하기 :: infoinfo 메소드를 활용하면, 각 칼럼별로 상태를 간단하게 확인할 수 있습니다.칼럼별로 데이터는 ..
-
[Pandas] 시리즈Series, 데이터프레임DataFrame 생성하기직접 해보기/Python 2024. 6. 16. 01:50
0️⃣ Pandas Series 생성하기판다스는 테이블 형태의 데이터를 다루는 라이브러리입니다. 그래서 헷갈릴 때는 엑셀 테이블을 생각하면 도움이 되더라구요.판다스 시리즈Series는 칼럼(열) 1개짜리 테이블이라고 생각하면 됩니다.시리즈를 생성할 때는 들어갈 data, index를 지정해주어야 합니다. name으로 이름을 정할수도 있습니다.참고로 Series 의 대소문자는 꼭 맞게 입력해주어야 합니다!출력해보면, 아래와 같이 index, data가 입력한 순서대로 세로로 출력됩니다.import pandas as pdseries_1 = pd.Series( data = ['고양이', '강아지', '햄스터'], index = ['a', 'b', 'c'], name = '귀여운 동물 친구들'..
-
[Pandas] 데이터프레임 교차표 분석하기 :: Crosstab직접 해보기/Python 2024. 6. 15. 00:22
Pandas Crosstab 함수로 교차표 분석하고, 시각화까지 해보기!0️⃣ 라이브러리 및 데이터셋 불러오기캐글 Flight Price Prediction의 Clean_Dataset으로 테스트해보겠습니다.(캐글 데이터 다운로드: https://www.kaggle.com/datasets/shubhambathwal/flight-price-prediction)데이터 구성을 보면 항공사, 비행편, 출발도시 및 시간, 도착도시, 비행시간, 티켓가격 등으로 이루어져 있습니다.# 라이브러리 불러오기import pandas as pdimport numpy as np# 데이터셋 가져와서 확인해보기df_clean = pd.read_csv('./Clean_Dataset.csv', encoding='cp949')df_cl..
-
AICE Associate AI자격증 시험 출제범위 정리직접 해보기/Python 2024. 6. 14. 17:08
💻 AICE 개요인공지능 활용능력을 평가하는 AI능력시험KT, 한국경제신문이 주관하는 민간자격증AI 역량에 따라 5개 레벨로 구성되어 있음💻 AICE Associate 개요파이썬을 다룰 수 있는 SW준/전공자 대상- 권장대상: 현업에서 대용량 데이터를 다루거나, 데이터 기반 분석 및 기획업무를 하는 사람들- 특정 교육과정 수료, 선행 자격증 취득 등의 요건 없음응시 시간: 90분100% 실기평가- 시험환경: Jupyter Notebook (현업에서 가장 많이 활용하는 인공지능 개발환경) - 기본적인 파이썬 문법, 데이터/인공지능 모델링 분야에 대한 이해 필요오픈북 시험 방식- 구글링으로 코드 검색 및 참고 가능- 금지행위: 듀얼모니터, 온라인노트/메모, 교재, 인쇄물, 메신저/SNS, ChatGP..
-
간단하게 파이썬 버전 확인하고 업그레이드 or 다운그레이드하기 (Python version upgrade downgrade)직접 해보기/Python 2024. 6. 14. 16:10
아나콘다 프롬프트Anaconda Prompt에서 파이썬 버전 확인하고 바꾸기1️⃣ 파이썬 버전 확인하기아나콘다 프롬프트 실행입력: python --version 현재 설치된 파이썬 버전이 나옵니다.python --version 2️⃣ 업/다운그레이드 시킬 수 있는 파이썬 버전 확인하기입력: conda search python현재 재설치할 수 있는 파이썬 버전이 쭉 나옵니다.conda search python 3️⃣ 파이썬 버전 업그레이드 or 다운그레이드 재설치 진행하기입력: conda install python==버전시간이 꽤 걸릴 수 있습니다. 기다리고 있으면 파이썬 버전에 맞게 알아서 필수 패키지들까지 버전을 업/다운그레이드 시켜줍니다.done 이 나오면 완료입니다!conda install py..
-
국내 반도체 ETF TOP6 한번에 비교하기 - 순자산총액 기준 TOP6 (TIGER Fn반도체TOP10, KODEX 반도체 등)위키/경제&투자 2024. 6. 14. 01:14
국내 반도체 ETF TOP6 한번에 비교 (TOP6-24.06.13 순자산총액 기준)💰 순자산총액 비교TIGER Fn반도체TOP10의 순자산총액이 8,462억으로 가장 높고, 그 뒤로 KODEX 반도체와 SOL AI반도체소부장이 높습니다.SOL AI반도체소부장은 이제 상장 1년남짓, KODEX AI반도체핵심장비는 1년도 안되었는데 TOP6 안에 들어오는 것을 보면안그래도 수익률이 높은편인 반도체에 AI테마까지 더해져서 많은 투자자가 몰린 것 같습니다.💰 총보수율(TER), 실제부담비용율 비교총보수율(TER)은 일반적인 보수에 기타비용을 더한 비용인데요, 여기에 수수료까지 더해야 투자자가 실제로 부담하는 비용이 산출됩니다. KBSTAR 비메모리반도체액티브가 약 0.59%로 가장 높고, 그 다음 높은 것..
-
국내 ETF 진짜 총보수율 쉽게 비교하기 (feat. 금융투자협회 전자공시)위키/경제&투자 2024. 6. 13. 01:06
금융투자협회 전자공시시스템에서 국내상장 ETF "진짜 총보수율" 쉽게 비교하기!💰 ETF 보수율 이란? — ETF의 운용 및 서비스의 대가로 투자자가 지불하는 비용의 비율입니다.돈을 이체할때 은행에 수수료를 지불하듯이.. ETF도 운용사 등에 서비스의 대가 즉, 보수를 지불해야 합니다.이 보수비용을 순자산으로 나눈 비율이 보수율입니다.무조건 투자자가 부담해야 하는 비용이기 때문에, 적을수록 투자자에게 유리하겠죠. 💰 ETF 보수율 유심히 들여다보면, 사이트/앱마다 제각각!요새 ETF에 관심을 가지고 공부하다가 충격적인 점을 발견했는데, ETF는 하나인데 보수율은 하나가 아닌 것입니다!예를들어 TIGER Fn반도체 TOP10를 검색해보면, 네이버와 신한에서는 0.45% 이지만 미래에셋에서 0.51% ..