Python/데이터분석 실습 10

[Kaggle] Titanic 생존자 예측 ② Feature Engineering & 모델링

Titanic 생존자 예측 ② Feature Engineering & 모델링 3. Feature Engineering Feature Engineering을 시작하기에 앞서 상관계수, 결측치를 확인해보자 train.corr() train.isnull().sum() Train과 Test data를 한 번에 변환하기 위해 List에 담아주었다. data_list = [train, test] 3-1. Sex Sex는 male(남성), female(여성)으로 나누어져 있다. 이를 0과 1로 변경해주자 # int type의 숫자 0과 1로 매핑 for data in data_list: data['Sex'] = data['Sex'].astype('category').cat.codes train['Sex'].head(..

[Kaggle] Titanic 생존자 예측 ① 데이터 확인 & EDA

Titanic 생존자 예측 ① 데이터 확인 & EDA 다음 데이터셋을 이용하였습니다. https://www.kaggle.com/c/titanic/data Titanic - Machine Learning from Disaster | Kaggle www.kaggle.com Survived - 생존유무, target 값. (0 = 사망, 1 = 생존) Name - 탑승객 성명 Pclass - 티켓 클래스. (1 = 1st, 2 = 2nd, 3 = 3rd) Sex - 성별 Age - 나이(세) SibSp - 함께 탑승한 형제자매, 배우자 수 총합 Parch - 함께 탑승한 부모, 자녀 수 총합 Embarked - 탑승 항구 Fare - 탑승 요금 Ticket - 티켓 넘버 Cabin - 객실 넘버 1. 라이브러..

[Kaggle] 자전거 수요 예측 ② Feature Engineering & 모델링

자전거 수요 예측 ② Feature Engineering & 모델링 3. Feature Engineering 3-1. 이상치 제거 연속형 변수에 대해 boxplot을 그려 분포를 확인해보자 fig, axes = plt.subplots(6, 1, figsize = (12, 8)) sns.boxplot(data = train, x="temp", ax=axes[0]) sns.boxplot(data = train, x="humidity", ax=axes[1]) sns.boxplot(data = train, x="windspeed", ax=axes[2]) sns.boxplot(data = train, x="casual", ax=axes[3]) sns.boxplot(data = train, x="registered..

[Kaggle] 자전거 수요 예측 ① 데이터 확인 & EDA

자전거 수요 예측 ① 데이터 확인 & EDA 다음 데이터셋을 이용하였습니다. www.kaggle.com/c/bike-sharing-demand/ Bike Sharing Demand Forecast use of a city bikeshare system www.kaggle.com datetime - hourly date + timestamp season - 1 = spring, 2 = summer, 3 = fall, 4 = winter holiday - whether the day is considered a holiday workingday - whether the day is neither a weekend nor holiday weather 1: Clear, Few clouds, Partly clou..

[Kaggle ] Pima Indians Diabetes 예측 ② 데이터 전처리 후 모델 학습/예측

Pima Indians Diabetes 예측하기 ② 데이터 전처리 후 모델 학습/예측 데이터 전처리는 모든 데이터 분석 프로젝트에서 반드시 거쳐야 하는 과정입니다. 먼저, 아무것도 하지 않고 모델을 실행해 정확도를 본 후 여러 방법으로 데이터를 다듬어 정확도의 변화를 살펴보며 모델 성능을 개선해보겠습니다. ▶ 전처리 없이 모델 실행 1. 데이터 로드 후 8:2로 학습, 예측 데이터로 나누기 # 라이브러리 로드 import pandas as pd import numpy as np import seaborn as sns import matplotlib.pyplot as plt # 데이터셋 로드 df = pd.read_csv("C:/data/diabetes.csv") # 8:2로 학습, 예측 데이터셋 나누기 ..

[Kaggle] Pima Indians Diabetes 예측 ① EDA, 시각화 탐색

Pima Indians Diabetes 예측하기 ① EDA, 시각화 탐색 다음 데이터셋을 이용하였습니다. https://www.kaggle.com/uciml/pima-indians-diabetes-database Pima Indians Diabetes Database Predict the onset of diabetes based on diagnostic measures www.kaggle.com Pregnancies : 임신 횟수 Glucose : 2시간 동안의 경구 포도당 내성 검사에서 혈장 포도당 농도 BloodPressure : 이완기 혈압(mm Hg) SkinThickness : SkinThicknessTriceps 피부 주름 두께 (mm) Insulin : 2시간 혈청 인슐린 (mu U / m..

[Python] 국가(대륙)별/상품군별 온라인쇼핑 해외직접판매액 데이터 분석

국가(대륙)별/상품군별 온라인쇼핑 해외직접판매액 데이터 분석 e : 추정치, p : 잠정치, - : 자료없음, ... : 미상자료, x : 비밀보호, ▽ : 시계열 불연속 ▶ 가설설정 1. 국가별/상품군별 온라인쇼핑 해외직접판매는 성장하고 있을까? 2. 해외 직접판매를 한다면 어느 국가에 대해, 어느 상품으로 판매전략을 세우면 좋을까? ▶ 준비과정 1. 필요한 라이브러리 가져오기 import pandas as pd import seaborn as sns import matplotlib.pyplot as plt %matplotlib inline plt.rc('font', family='Malgun Gothic') plt.rc('axes', unicode_minus=False) 2. 데이터 로드하기 df_r..

[Python] 서울 종합병원 분포 데이터 분석

서울 종합병원 분포 데이터 분석 ▶ 가설설정 서울의 종합병원은 고르게 분포되어 있을까? ▶ 준비과정 1. 필요한 라이브러리 가져오기 import pandas as pd import seaborn as sns import matplotlib.pyplot as plt %matplotlib inline plt.rc('font', family='Malgun Gothic') plt.rc('axes', unicode_minus=False) 2. 데이터 로드하기 df = pd.read_csv("C:/Data/소상공인시장진흥공단_상가업소정보_의료기관_201909.csv",encoding = "cp949") # 행열 개수 df.shape 3. 데이터 미리보기/요약하기 head, tail을 통해 데이터를 미리보고 info..

[DACON_101] Lv.2 결측치 보간법과 랜덤포레스트로 따릉이 데이터 예측하기

https://dacon.io/competitions/open/235698/overview/description ▶ [ Lv.2 결측치 보간법과 랜덤포레스트로 따릉이 데이터 예측하기 ] 를 공부했습니다. ▶ EDA _ 탐색적 자료 분석 이전 게시글 Lv1과 데이터가 같으므로 이 단계에서 행, 열 개수 확인/ 데이터 확인은 생략하겠습니다! 1. 라이브러리, 파일 불러오기 데이터분석을 하기 위해 pandas 라이브러리와 파일을 불러오기 import pandas as pd train = pd.read_csv('C:/data/train.csv') test = pd.read_csv('C:/data/test.csv') ▶ 전처리 1. 결측치 삭제, 대체 (방법 1) 결측치를 평균값으로 대체 Lv1에서는 결측치를 0..

[DACON_101] Lv.1 의사결정회귀나무로 따릉이 데이터 예측하기

https://dacon.io/competitions/open/235698/overview/description ▶ [ Lv.1 의사결정회귀나무로 따릉이 데이터 예측하기 ] 를 공부했습니다. ▶ EDA _ 탐색적 자료 분석 1. 라이브러리, 파일 불러오기 데이터분석을 하기 위해 pandas 라이브러리와 파일을 불러오기 import pandas as pd train = pd.read_csv('C:/data/train.csv') test = pd.read_csv('C:/data/test.csv') 2. 행, 열 개수 관찰하기 shape를 이용해 train, test의 행/열 개수 파악 train.shape # 행 1459개, 열 11개 test.shape # 행 715개, 열 10개 3. 데이터 확인하기 h..