Python/ML & DL 공부

[ML] 02-1 훈련 세트와 테스트 세트

dori_0 2022. 3. 3. 23:57

혼자 공부하는 머신러닝+딥러닝 책을 바탕으로 공부한 내용입니다.

 

CH2 데이터 다루기 ①

훈련 모델 평가

 


 

이전에는 train, test data를 따로 준비하지 않고 훈련한 데이터로 모델 학습 후 평가했기 때문에 정확도가 100%였다.
머신러닝 알고리즘의 성능을 제대로 평가하기 위해 훈련 세트와 테스트 세트를 나눠서 학습해보자.

 

 

▶ 훈련 세트와 테스트 세트

먼저, 도미와 빙어의 데이터를 합쳐 하나의 파이썬 리스트로 준비한 후 2차원 리스트로 만들어주자

# 도미, 빙어의 길이와 무게 데이터
fish_length = [25.4, 26.3, 26.5, 29.0, 29.0, 29.7, 29.7, 30.0, 30.0, 30.7, 31.0, 31.0, 
               31.5, 32.0, 32.0, 32.0, 33.0, 33.0, 33.5, 33.5, 34.0, 34.0, 34.5, 35.0, 
               35.0, 35.0, 35.0, 36.0, 36.0, 37.0, 38.5, 38.5, 39.5, 41.0, 41.0, 9.8, 
               10.5, 10.6, 11.0, 11.2, 11.3, 11.8, 11.8, 12.0, 12.2, 12.4, 13.0, 14.3, 15.0]
fish_weight = [242.0, 290.0, 340.0, 363.0, 430.0, 450.0, 500.0, 390.0, 450.0, 500.0, 475.0, 500.0, 
               500.0, 340.0, 600.0, 600.0, 700.0, 700.0, 610.0, 650.0, 575.0, 685.0, 620.0, 680.0, 
               700.0, 725.0, 720.0, 714.0, 850.0, 1000.0, 920.0, 955.0, 925.0, 975.0, 950.0, 6.7, 
               7.5, 7.0, 9.7, 9.8, 8.7, 10.0, 9.9, 9.8, 12.2, 13.4, 12.2, 19.7, 19.9]
               
# 2차원 리스트 만들기
fish_data = [[l, w] for l, w in zip(fish_length, fish_weight)]
fish_target = [1]*35 + [0]*14

다음과 같이 파이썬의 리스트로 2차원 리스트를 표현할 수는 있지만 고차원 리스트를 표현하기엔 매우 번거롭다.

 

 

넘파이는 고차원의 배열을 손쉽게 만들고 조작할 수 있는 간편한 도구를 많이 제공한다.

생선 데이터를 2차원 넘파이 배열로 변환해보자

import numpy as np
# 파이썬 리스트를 넘파이 배열로 바꾸기
input_arr = np.array(fish_data)
target_arr = np.array(fish_target)

input_arr.shape #(49,2)

이때, train과 test 세트를 순서대로 35개, 14개로 나누면 train 세트에는 도미 데이터만 있고 test 세트에는 빙어 데이터만 있으므로 정확도는 0%가 된다. (샘플링 편향)

 

 

샘플링 편향이란?

훈련 세트와 테스트 세트에 샘플이 골고루 섞여 있지 않아 샘플링이 한쪽으로 치우쳐져 있는 상태

 

 

 

훈련 세트와 테스트 세트에 샘플을 골고루 섞기 위해 넘파이의 random() 함수를 사용해보자

# 29개의 index 랜덤하게 섞기
np.random.seed(42)
index = np.arange(49)
np.random.shuffle(index)
index

0부터 48까지 인덱스가 잘 섞인 것을 확인할 수 있다.

 

 

이제 train set에는 35개, test set에는 14개 데이터를 배정해주자

# train, test 랜덤하게 35개/14개씩 배정
train_input = input_arr[index[:35]]
train_target = target_arr[index[:35]]
test_input = input_arr[index[35:]]
test_target = target_arr[index[35:]]

# train, test 세트에 도미와 빙어가 잘 섞였는지 산점도로 확인
import matplotlib.pyplot as plt
plt.scatter(train_input[:,0], train_input[:,1])
plt.scatter(test_input[:,0], test_input[:,1])
plt.xlabel('length')
plt.ylabel('weight')
plt.show()

파란색 : train, 주황색 : test

산점도를 확인해보니 원하던대로 train set, test set가 잘 섞인 것이 확인된다.

 

 

▶ 두번째 머신러닝 프로그램

이제, 훈련 세트와 테스트 세트로 k-최근접 이웃 모델을 훈련시켜보자

from sklearn.neighbors import KNeighborsClassifier
kn = KNeighborsClassifier()
kn = kn.fit(train_input, train_target)

# 정확도
kn.score(test_input, test_target)  #1.0
  • 정확도는 100%로 테스트 세트에 있는 모든 생선을 맞혔다.

 

 

predict() 메서드로 테스트 세트의 예측 결과와 실제 타깃을 확인해보자

kn.predict(test_input)

test_target

  • 테스트 세트에 대한 예측 결과가 정답과 일치하는 것을 확인할 수 있다.

 

 

 

 

 

 

 

'Python > ML & DL 공부' 카테고리의 다른 글

[ML] 03-3 특성 공학과 규제  (0) 2022.03.07
[ML] 03-2 선형 회귀  (2) 2022.03.06
[ML] 03-1 k-최근접 이웃 회귀  (0) 2022.03.06
[ML] 02-2 데이터 전처리  (0) 2022.03.05
[ML] 01-3 마켓과 머신러닝  (0) 2022.03.03