Python/ML & DL 공부 21

[ML] 05-3 트리의 앙상블

혼자 공부하는 머신러닝+딥러닝 책을 바탕으로 공부한 내용입니다. CH5 트리 알고리즘 ③ 앙상블 학습을 통한 성능 향상 앙상블 학습이 무엇인지 이해하고 다양한 앙상블 학습 알고리즘을 실습을 통해 배워보자 앙상블 학습 - 더 좋은 예측 결과를 만들기 위해 여러 개의 모델을 훈련하는 머신러닝 알고리즘 - 정형 데이터를 다루는데 가장 뛰어난 성과를 내는 알고리즘 - 대부분 결정 트리를 기반으로 만들어져 있음 ▶ 랜덤 포레스트 대표적인 결정 트리 기반의 앙상블 학습 방법 부트스트랩 샘플을 사용, 랜덤하게 일부 특성을 선택하여 트리를 만드는 것이 특징 랜덤하게 선택한 샘플과 특성을 사용하므로 과대적합을 막아주고, 안정적인 성능을 얻을 수 있음 사이킷런의 랜덤 포레스트는 기본적으로 100개의 결정 트리를 훈련 Ra..

[ML] 05-2 교차 검증과 그리드 서치

혼자 공부하는 머신러닝+딥러닝 책을 바탕으로 공부한 내용입니다. CH5 트리 알고리즘 ② 최적의 모델을 위한 하이퍼파라미터 탐색 검증 세트, 교차 검증에 대해 배우기 그리드 서치와 랜덤 서치를 이용해 최적의 성능을 내는 하이퍼파라미터를 찾아보자 ▶ 검증 세트 검증세트는 하이퍼파라미터 튜닝을 위해 모델을 평가할 때, test set을 사용하지 않기 위해 train set에서 다시 떼어 낸 data set이다. test set으로 일반화 성능을 올바르게 예측하려면 가능한 한 test set을 사용하지 않아야 한다. test set을 사용하지 않고 모델이 과대적합인지 과소적합인지 판단하기 위해 검증 세트를 이용하자 train set에서 모델을 훈련하고 검증 세트로 모델 평가 테스트하고 싶은 매개변수를 바꿔가며..

[ML] 05-1 결정 트리

혼자 공부하는 머신러닝+딥러닝 책을 바탕으로 공부한 내용입니다. CH5 트리 알고리즘 ① 화이트 와인을 찾아보자 알코올 도수, 당도, pH 데이터를 기준으로 화이트 와인을 골라내보자 로지스틱 회귀 모델, 결정 트리 ▶ 로지스틱 회귀로 와인 분류하기 # 6,497개 와인 샘플 데이터 불러오기 import pandas as pd wine = pd.read_csv("https://bit.ly/wine_csv_data") wine.head() class은 타깃값으로 0이면 레드 와인, 1이면 화이트 와인(양성 클래스)이다. 데이터를 살펴보자 wine.info() 결측치는 없는 것으로 확인된다 wine.describe() alcohol, sugar, pH의 스케일이 다르므로 표준화 전처리를 해주어야 한다. tra..

[ML] 04-2 확률적 경사 하강법

혼자 공부하는 머신러닝+딥러닝 책을 바탕으로 공부한 내용입니다. CH4 다양한 분류 알고리즘 ② 점진적 학습을 위한 확률적 경사 하강법 한빛 마켓은 럭키백의 폭발적인 인기에 힘입어 생선을 실시간으로 학습하기 위한 새로운 머신러닝 모델을 필요로 한다. 확률적 경사 하강법을 사용해 점진적으로 학습하는 로지스틱 회귀 모델을 만들어보자 ▶ 점진적인 학습 키워드로 먼저 공부해보자! 점진적 학습 온라인 학습이라고도 부름 학습이 끝난 모델에 대하여 작은 묶음 단위의 데이터를 주입해 모델을 학습시키는 방법 가장 대표적인 점진적 학습 알고리즘은 확률적 경사 하강법 확률적 경사 하강법 훈련 세트에서 샘플을 하나씩 꺼내 손실 함수의 경사를 따라 최적의 모델을 찾는 알고리즘 미니배치 경사 하강법 샘플을 하나씩 사용하지 않고 ..

[ML] 04-1 로지스틱 회귀

혼자 공부하는 머신러닝+딥러닝 책을 바탕으로 공부한 내용입니다. CH4 다양한 분류 알고리즘 ① 럭키백의 확률 계산하기 로지스틱 회귀 알고리즘을 배우고 이진 분류, 다중 분류 문제에서 클래스 확률을 예측해보자 한빛 마켓은 '럭키백(생선) 이벤트'를 하려고 한다. 럭키백은 구성품을 모른 채 먼저 구매하고, 배송받은 후에야 구성품을 알 수 있다. 럭키백에 포함된 생선의 확률을 알려주기 위해 로지스틱 회귀를 사용해보자 ▶ 데이터 준비 import pandas as pd fish = pd.read_csv("https://bit.ly/fish_csv_data") fish.head() 어떤 종류의 생선이 있는지 판다스의 unique() 함수를 사용해 확인해보자 print(pd.unique(fish['Species'..

[ML] 03-3 특성 공학과 규제

혼자 공부하는 머신러닝+딥러닝 책을 바탕으로 공부한 내용입니다. CH3 회귀 알고리즘과 모델 규제 ③ 모델의 과대적합 제어하기 여러 특성을 사용한 다중 회귀에 대해 배우고 사이킷런의 여러 도구를 사용해보자 복잡한 모델의 과대적합을 막기 위한 릿지와 라쏘 회귀에 대해 배워보자 ▶ 다중 회귀 선형 회귀는 특성이 많을수록 더 좋은 효과를 낸다 앞서 만들었던 모델보다 더 좋은 성능을 내기 위해 길이, 높이, 두께 특성을 모두 사용해서 모델을 만들어보자 여러 개의 특성을 사용한 선형 회귀를 다중 회귀라고 부른다. 또, 기존의 특성을 사용해 새로운 특성을 뽑아내는 작업을 특성 공학이라고 부른다. ▶ 데이터 준비 이번에는 판다스를 이용해 농어 데이터를 판다스 데이터프레임에 저장하자 그 후 넘파이 배열로 변환하여 선형..

[ML] 03-2 선형 회귀

혼자 공부하는 머신러닝+딥러닝 책을 바탕으로 공부한 내용입니다. CH3 회귀 알고리즘과 모델 규제 ② 선형 회귀로 훈련 세트 범위 밖의 샘플 예측하기 k-최근접 이웃 회귀와 선형 회귀 알고리즘의 차이 이해하기 사이킷런을 사용해 여러 가지 선형 회귀 모델을 만들어보자 농어 담담 직원이 길이가 50cm인 농어를 들고와 무게를 예측해달라고 하였다. 이전에 만든 모델을 사용해 농어의 무게를 예측해보니, 저울에 나온 농어의 무게와 모델이 예측한 무게가 너무 차이가 났다. 이 문제점을 해결해보자 ▶ k-최근접 이웃의 한계 이전에 만들었던 모델을 가져와 길이가 50cm인 농어의 무게를 예측해보자 import numpy as np # 농어 데이터 perch_length = np.array([8.4, 13.7, 15.0..

[ML] 03-1 k-최근접 이웃 회귀

혼자 공부하는 머신러닝+딥러닝 책을 바탕으로 공부한 내용입니다. CH3 회귀 알고리즘과 모델 규제 ① 회귀 문제 다루기 지도 학습의 한 종류인 회귀 문제를 이해하고 k-최근접 이웃 알고리즘을 사용해 농어의 무게를 예측하는 회귀 문제를 풀어보자 K-최근접 이웃 회귀란? k-최근접 이웃 알고리즘을 사용해 회귀 문제를 푼다. 가장 가까운 이웃 샘플을 찾고 이 샘플들의 타깃값을 평균하여 예측으로 삼는다. ▶ 데이터 준비 먼저, 농어의 길이/무게 데이터를 준비해보자 http://bit.ly/perch_data import numpy as np # 농어 데이터 perch_length = np.array([8.4, 13.7, 15.0, 16.2, 17.4, 18.0, 18.7, 19.0, 19.6, 20.0, 21...

[ML] 02-2 데이터 전처리

혼자 공부하는 머신러닝+딥러닝 책을 바탕으로 공부한 내용입니다. CH2 데이터 다루기 ② 스케일이 다른 특성 처리 올바른 결과 도출을 위해 데이터 전처리 과정을 거쳐보자. 전처리 과정을 거친 데이터로 훈련했을 때의 차이를 알고 표준점수로 특성의 스케일을 변환하는 방법을 배우자 이전에 만든 모델은 100%의 정확도를 달성했다. 그런데 '길이가 25cm, 무게가 150g인 도미를 빙어로 예측한다'는 문제가 생겼다. ▶ 넘파이로 데이터 준비하기 먼저, 도미와 빙어의 데이터를 준비하자 # 도미, 빙어의 길이와 무게 데이터 fish_length = [25.4, 26.3, 26.5, 29.0, 29.0, 29.7, 29.7, 30.0, 30.0, 30.7, 31.0, 31.0, 31.5, 32.0, 32.0, 32..

[ML] 02-1 훈련 세트와 테스트 세트

혼자 공부하는 머신러닝+딥러닝 책을 바탕으로 공부한 내용입니다. CH2 데이터 다루기 ① 훈련 모델 평가 이전에는 train, test data를 따로 준비하지 않고 훈련한 데이터로 모델 학습 후 평가했기 때문에 정확도가 100%였다. 머신러닝 알고리즘의 성능을 제대로 평가하기 위해 훈련 세트와 테스트 세트를 나눠서 학습해보자. ▶ 훈련 세트와 테스트 세트 먼저, 도미와 빙어의 데이터를 합쳐 하나의 파이썬 리스트로 준비한 후 2차원 리스트로 만들어주자 # 도미, 빙어의 길이와 무게 데이터 fish_length = [25.4, 26.3, 26.5, 29.0, 29.0, 29.7, 29.7, 30.0, 30.0, 30.7, 31.0, 31.0, 31.5, 32.0, 32.0, 32.0, 33.0, 33.0,..