분류 전체보기 61

[ML] 03-2 선형 회귀

혼자 공부하는 머신러닝+딥러닝 책을 바탕으로 공부한 내용입니다. CH3 회귀 알고리즘과 모델 규제 ② 선형 회귀로 훈련 세트 범위 밖의 샘플 예측하기 k-최근접 이웃 회귀와 선형 회귀 알고리즘의 차이 이해하기 사이킷런을 사용해 여러 가지 선형 회귀 모델을 만들어보자 농어 담담 직원이 길이가 50cm인 농어를 들고와 무게를 예측해달라고 하였다. 이전에 만든 모델을 사용해 농어의 무게를 예측해보니, 저울에 나온 농어의 무게와 모델이 예측한 무게가 너무 차이가 났다. 이 문제점을 해결해보자 ▶ k-최근접 이웃의 한계 이전에 만들었던 모델을 가져와 길이가 50cm인 농어의 무게를 예측해보자 import numpy as np # 농어 데이터 perch_length = np.array([8.4, 13.7, 15.0..

[ML] 03-1 k-최근접 이웃 회귀

혼자 공부하는 머신러닝+딥러닝 책을 바탕으로 공부한 내용입니다. CH3 회귀 알고리즘과 모델 규제 ① 회귀 문제 다루기 지도 학습의 한 종류인 회귀 문제를 이해하고 k-최근접 이웃 알고리즘을 사용해 농어의 무게를 예측하는 회귀 문제를 풀어보자 K-최근접 이웃 회귀란? k-최근접 이웃 알고리즘을 사용해 회귀 문제를 푼다. 가장 가까운 이웃 샘플을 찾고 이 샘플들의 타깃값을 평균하여 예측으로 삼는다. ▶ 데이터 준비 먼저, 농어의 길이/무게 데이터를 준비해보자 http://bit.ly/perch_data import numpy as np # 농어 데이터 perch_length = np.array([8.4, 13.7, 15.0, 16.2, 17.4, 18.0, 18.7, 19.0, 19.6, 20.0, 21...

[ML] 02-2 데이터 전처리

혼자 공부하는 머신러닝+딥러닝 책을 바탕으로 공부한 내용입니다. CH2 데이터 다루기 ② 스케일이 다른 특성 처리 올바른 결과 도출을 위해 데이터 전처리 과정을 거쳐보자. 전처리 과정을 거친 데이터로 훈련했을 때의 차이를 알고 표준점수로 특성의 스케일을 변환하는 방법을 배우자 이전에 만든 모델은 100%의 정확도를 달성했다. 그런데 '길이가 25cm, 무게가 150g인 도미를 빙어로 예측한다'는 문제가 생겼다. ▶ 넘파이로 데이터 준비하기 먼저, 도미와 빙어의 데이터를 준비하자 # 도미, 빙어의 길이와 무게 데이터 fish_length = [25.4, 26.3, 26.5, 29.0, 29.0, 29.7, 29.7, 30.0, 30.0, 30.7, 31.0, 31.0, 31.5, 32.0, 32.0, 32..

[ML] 02-1 훈련 세트와 테스트 세트

혼자 공부하는 머신러닝+딥러닝 책을 바탕으로 공부한 내용입니다. CH2 데이터 다루기 ① 훈련 모델 평가 이전에는 train, test data를 따로 준비하지 않고 훈련한 데이터로 모델 학습 후 평가했기 때문에 정확도가 100%였다. 머신러닝 알고리즘의 성능을 제대로 평가하기 위해 훈련 세트와 테스트 세트를 나눠서 학습해보자. ▶ 훈련 세트와 테스트 세트 먼저, 도미와 빙어의 데이터를 합쳐 하나의 파이썬 리스트로 준비한 후 2차원 리스트로 만들어주자 # 도미, 빙어의 길이와 무게 데이터 fish_length = [25.4, 26.3, 26.5, 29.0, 29.0, 29.7, 29.7, 30.0, 30.0, 30.7, 31.0, 31.0, 31.5, 32.0, 32.0, 32.0, 33.0, 33.0,..

[ML] 01-3 마켓과 머신러닝

혼자 공부하는 머신러닝+딥러닝 책을 바탕으로 공부한 내용입니다. CH1 나의 첫 머신러닝 도미와 빙어 분류 가장 간단한 머신러닝 알고리즘 중 하나인 k-최근접 이웃을 사용하여 2개의 종류를 분류하는 머신러닝 모델을 훈련해보자 ▶ 도미 데이터 준비하기 http://bit.ly/bream_list (도미 데이터 출처) _ 35마리의 도미 데이터셋(길이, 무게) 준비 # 35마리의 도미 bream_length = [25.4, 26.3, 26.5, 29.0, 29.0, 29.7, 29.7, 30.0, 30.0, 30.7, 31.0, 31.0, 31.5, 32.0, 32.0, 32.0, 33.0, 33.0, 33.5, 33.5, 34.0, 34.0, 34.5, 35.0, 35.0, 35.0, 35.0, 36.0,..

[Kaggle ] Pima Indians Diabetes 예측 ② 데이터 전처리 후 모델 학습/예측

Pima Indians Diabetes 예측하기 ② 데이터 전처리 후 모델 학습/예측 데이터 전처리는 모든 데이터 분석 프로젝트에서 반드시 거쳐야 하는 과정입니다. 먼저, 아무것도 하지 않고 모델을 실행해 정확도를 본 후 여러 방법으로 데이터를 다듬어 정확도의 변화를 살펴보며 모델 성능을 개선해보겠습니다. ▶ 전처리 없이 모델 실행 1. 데이터 로드 후 8:2로 학습, 예측 데이터로 나누기 # 라이브러리 로드 import pandas as pd import numpy as np import seaborn as sns import matplotlib.pyplot as plt # 데이터셋 로드 df = pd.read_csv("C:/data/diabetes.csv") # 8:2로 학습, 예측 데이터셋 나누기 ..

[Kaggle] Pima Indians Diabetes 예측 ① EDA, 시각화 탐색

Pima Indians Diabetes 예측하기 ① EDA, 시각화 탐색 다음 데이터셋을 이용하였습니다. https://www.kaggle.com/uciml/pima-indians-diabetes-database Pima Indians Diabetes Database Predict the onset of diabetes based on diagnostic measures www.kaggle.com Pregnancies : 임신 횟수 Glucose : 2시간 동안의 경구 포도당 내성 검사에서 혈장 포도당 농도 BloodPressure : 이완기 혈압(mm Hg) SkinThickness : SkinThicknessTriceps 피부 주름 두께 (mm) Insulin : 2시간 혈청 인슐린 (mu U / m..

[MySQL] 프로그래머스 SQL 고득점 Kit

프로그래머스 SQL 고득점 Kit를 풀어봤습니다. https://programmers.co.kr/learn/challenges?tab=sql_practice_kit 코딩테스트 연습 기초부터 차근차근, 직접 코드를 작성해 보세요. programmers.co.kr SELECT 모든 레코드 조회하기 SELECT * from animal_ins order by animal_id; 역순 정렬하기 SELECT name, datetime from animal_ins order by animal_id desc; 아픈 동물 찾기 SELECT animal_id ,name from animal_ins where intake_condition = 'sick' order by animal_id; 어린 동물 찾기 SELECT a..

SQL/SQL 문제 2022.02.28

[Tableau] 국민건강보험공단 대시보드

국민건강보험공단 데이터를 이용해 대시보드를 만들었습니다. 건강검진정보 https://www.data.go.kr/data/15007122/fileData.do 의약품처방정보 https://www.data.go.kr/data/15007117/fileData.do 진료내역정보 https://www.data.go.kr/data/15007115/fileData.do Smoking/Drinking Dashboard Smoking/Drinking Dashboard public.tableau.com Medical history/Medicine Dashboard Medical history/Medicine Dashboard public.tableau.com

TABLEAU/Dashboard 2022.02.22

[Python] map 함수

[Python] map 함수 파이썬의 내장 함수 map() 여러 개의 데이터를 한 번에 다른 형태로 변환하기 위해 사용 list, tuple에 대해 자주 사용 ▶ 사용법 map(함수, 순회 가능한 객체) ▶ map 함수 예시 (1) 직육면체의 가로, 세로, 높이 개수를 입력받아 가로+세로+높이를 구해보자 가로(W), 세로(L), 높이(H) case 1) map 함수 사용 X rect = input("직육면체의 가로, 세로, 높이의 개수를 입력하세요:").split() W = int(rect[0]) L = int(rect[1]) H = int(rect[2]) W + L + H # 가로+세로+높이 개수 만약 입력 받는 변수가 많다면, 하나하나 int로 바꿔줘야 하는 불편함이 있다. case 2) map 함수..

Python/Study 2022.02.18