전체 글 61

[Kaggle] Titanic 생존자 예측 ① 데이터 확인 & EDA

Titanic 생존자 예측 ① 데이터 확인 & EDA 다음 데이터셋을 이용하였습니다. https://www.kaggle.com/c/titanic/data Titanic - Machine Learning from Disaster | Kaggle www.kaggle.com Survived - 생존유무, target 값. (0 = 사망, 1 = 생존) Name - 탑승객 성명 Pclass - 티켓 클래스. (1 = 1st, 2 = 2nd, 3 = 3rd) Sex - 성별 Age - 나이(세) SibSp - 함께 탑승한 형제자매, 배우자 수 총합 Parch - 함께 탑승한 부모, 자녀 수 총합 Embarked - 탑승 항구 Fare - 탑승 요금 Ticket - 티켓 넘버 Cabin - 객실 넘버 1. 라이브러..

[Kaggle] 자전거 수요 예측 ② Feature Engineering & 모델링

자전거 수요 예측 ② Feature Engineering & 모델링 3. Feature Engineering 3-1. 이상치 제거 연속형 변수에 대해 boxplot을 그려 분포를 확인해보자 fig, axes = plt.subplots(6, 1, figsize = (12, 8)) sns.boxplot(data = train, x="temp", ax=axes[0]) sns.boxplot(data = train, x="humidity", ax=axes[1]) sns.boxplot(data = train, x="windspeed", ax=axes[2]) sns.boxplot(data = train, x="casual", ax=axes[3]) sns.boxplot(data = train, x="registered..

[Kaggle] 자전거 수요 예측 ① 데이터 확인 & EDA

자전거 수요 예측 ① 데이터 확인 & EDA 다음 데이터셋을 이용하였습니다. www.kaggle.com/c/bike-sharing-demand/ Bike Sharing Demand Forecast use of a city bikeshare system www.kaggle.com datetime - hourly date + timestamp season - 1 = spring, 2 = summer, 3 = fall, 4 = winter holiday - whether the day is considered a holiday workingday - whether the day is neither a weekend nor holiday weather 1: Clear, Few clouds, Partly clou..

[R] 와인 등급 예측 - 회귀트리, 모델트리

와인 등급 예측 회귀트리, 모델트리 11가지 화학적 특성과 4,898가지 와인 표본에 대한 데이터 acidity 신맛, sugar content 당도, chlorides 염화물 sulfur 황, alcohol 알코올, pH 산성도, density 농도 3명의 와인 감정위원이 블라인드 테스트로 표본을 0(매우 나쁨)부터 10(매우 좋음)까지 등급을 매김 1. 데이터 준비와 탐구 > wine = read.csv("C:/R/whitewines.csv", header=T) > str(wine) 'data.frame':4898 obs. of 12 variables: $ fixed.acidity : num 6.7 5.7 5.9 5.3 6.4 7 7.9 6.6 7 6.5 ... $ volatile.acidity : ..

R/ML & DL 공부 2022.04.22

[R] 의료비 예측 - 선형 회귀

의료비 예측하기 선형 회귀 미국의 환자 의료비를 포함한 가상의 데이터셋 1,338개의 관측치와 7개의 변수로 구성되어 있음 - age : 제 1순위 보험금 수령인의 나이를 나타내는 정수 - sex : 성별 - bmi : 체질량 지수 - children : 보험에서 보장하는 아이들의 수 - smoker : 흡연 여부에 따라 yes, no - region : 미국 내 약관자의 거주지 4개 지역 (northeast, southeast, southwest, northwest) 1. 데이터 준비와 탐구 > insurance = read.csv("C:/R/insurance.csv", stringsAsFactors = T) > str(insurance) 'data.frame':1338 obs. of 7 variabl..

R/ML & DL 공부 2022.04.22

[R] 휴대폰 스팸 분류 - Naive bayes

휴대폰 스팸 분류 Naive bayes로 휴대폰 스팸 여부 구별하기 데이터 셋 5,572개의 SMS 메세지와 메세지의 type이 포함되어 있음 SMS type는 ham (일반 메세지) 또는 spam (스팸 메세지)로 분류됨 1. 데이터 준비와 탐구 > sms_raw = read.csv("C:/R/SMSSpamCollection.csv", stringsAsFactors=FALSE) > str(sms_raw) 'data.frame':5573 obs. of 2 variables: $ ham : chr "ham" "spam" "ham" "ham" ... $ Go.until.jurong.point..crazy...Available.only.in.bugis.n.great.world.la.e.buffet....Cin..

R/ML & DL 공부 2022.04.20

[R] 은행 대출 채무 여부 분류 - 의사결정트리

은행 대출 채무 이행/불이행 예측 C5.0 결정 트리 17개의 변수와 1,000개의 관측치로 이루어진 데이터 default 변수 - yes (채무 불이행), no (채무 이행) 1. 데이터 준비 > credit = read.csv("C:/R/credit.csv", stringsAsFactors = F) > str(credit) 'data.frame':1000 obs. of 17 variables: $ checking_balance : chr "< 0 DM" "1 - 200 DM" "unknown" "< 0 DM" ... $ months_loan_duration: int 6 48 12 42 24 36 24 36 12 30 ... $ credit_history : chr "critical" "good" "c..

R/ML & DL 공부 2022.04.15

[R] Breast Cancer Wisconsin Diagnostic - K-NN

Breast Cancer Wisconsin Diagnostic K-NN알고리즘으로 유방암 여부 진단 Breast Cancer Wisconsin (Diagnostic) Data Set Predict whether the cancer is benign or malignant www.kaggle.com radius (mean of distances from center to points on the perimeter) texture (standard deviation of gray-scale values) smoothness (local variation in radius lengths) compactness (perimeter^2 / area - 1.0) concavity (severity of concav..

R/ML & DL 공부 2022.04.15

[DL] 09-3 LSTM과 GRU 셀

혼자 공부하는 머신러닝+딥러닝 책을 바탕으로 공부한 내용입니다. CH9 텍스트를 위한 인공 신경망 ③ LSTM과 GRU 셀로 훈련 순환 신경망에서 빼놓을 수 없는 핵심 기술인 LSTM과 GRU 셀을 사용한 모델을 만들어보자 ▶ LSTM 신경망 훈련하기 LSTM 셀 타임스텝이 긴 데이터를 효과적으로 학습하기 위해 고안된 순환층 입력 게이트, 삭제 게이트, 출력 게이트 역할을 하는 작은 셀이 포함되어 있음 은닉 상태 외에 셀 상태를 출력함 - 셀 상태는 다음 층으로 전달되지 않으며 현재 셀에서만 순환됨 먼저 이전 절처럼 IMDB 리뷰 데이터를 로드하고 샘플의 길이를 100으로 맞춰주자 from tensorflow.keras.datasets import imdb from sklearn.model_selecti..