전체 글 61

[Python] pd.where과 np.where의 차이

[Python] pd.where과 np.where의 차이 1. pd.where 판다스의 Series객체.where() 함수 Series객체.where(Series객체에 대한 조건문, 거짓 일 때의 대체 값) 형태로 사용 조건문의 참값에 Series객체 값을 넣어줌 2. np.where np.where(배열에 대한 조건문, 참일 때 값, 거짓일 때 값) 형태로 사용 array(배열)로 반환함 ▶ 하나의 데이터 프레임 만들기 import pandas as pd import numpy as np df = pd.DataFrame({'a':[1, 2, 3, 4, 5], 'b':[6, 7, 8, 9, 10]}) df ▶ pd.where 예시 a열 중 4보다 작은 값에는 그대로 a열의 값, 그 외의 값에는 100 넣..

Python/Study 2022.02.18

[Pandas] loc와 iloc의 차이

[Pandas] loc와 iloc의 차이 판다스에서 특정 행(row)이나 열(column)을 골라낼 때 사용 1. loc location의 약어 데이터 프레임의 행 또는 컬럼의 label이나 boolean array로 인덱싱하는 방법 사람이 읽을 수 있는 label 값으로 특정 값들을 골라오는 방법 2. iloc integer location의 약어 데이터 프레임의 행이나 컬럼의 인덱스 값으로 접근 ▶ loc 예시 사용법 df.loc[행 인덱싱 값, 열 인덱싱 값] 하나의 데이터 프레임을 불러오기 import pandas as pd customer_m = pd.read_csv("c:/data/customer_master.csv") customer_m.head() 레이블 이름이 0인 행 추출 custome..

Python/Study 2022.02.18

[Python] 03장 _ 고객의 전체 모습을 파악하는 테크닉

파이썬 데이터 분석 실무 테크닉 100 03장 _ 고객의 전체 모습을 파악하는 테크닉 [ 머신러닝 ] 1. 데이터 불러오고 확인하기 import pandas as pd use_log = pd.read_csv("c:/data/use_log.csv") customer_m = pd.read_csv("c:/data/customer_master.csv") class_m = pd.read_csv("c:/data/class_master.csv") campaign_m = pd.read_csv("c:/data/campaign_master.csv") use_log.head() customer_m.head() class_m.head() campaign_m.head() 2. 고객 데이터 가공하기 customer_m에 clas..

[Python] 02장 _ 대리점 데이터를 가공하는 테크닉

파이썬 데이터 분석 실무 테크닉 100 02장 _ 대리점 데이터를 가공하는 테크닉 [ 데이터 가공 ] 1. 데이터 불러오기 import pandas as pd uriage_data = pd.read_csv("C:/data/uriage.csv") uriage_data.head() kokyaku_data = pd.read_excel("C:/data/kokyaku_daicho.xlsx") kokyaku_data.head() item_name 에는 오류, item_price에는 결측치가 존재하는 것을 확인할 수 있다. 2. 데이터의 오류 살펴보기 uriage_data["item_name"] item_name에 공백이 포함되거나 대문자, 소문자가 섞여있는 오류를 확인할 수 있다. uriage_data["item_..

[Python] 01장 _ 웹에서 주문 수를 분석하는 테크닉

파이썬 데이터 분석 실무 테크닉 100 01장 _ 웹에서 주문 수를 분석하는 테크닉 [ 데이터 가공 ] 1. 데이터 불러오기 import pandas as pd customer_master = pd.read_csv("C:/data/customer_master.csv") customer_master.head() item_master = pd.read_csv("C:/data/item_master.csv") item_master.head() transaction_1 = pd.read_csv("C:/data/transaction_1.csv") transaction_2 = pd.read_csv("C:/data/transaction_2.csv") transaction_detail_1 = pd.read_csv("C:..

[Python] 국가(대륙)별/상품군별 온라인쇼핑 해외직접판매액 데이터 분석

국가(대륙)별/상품군별 온라인쇼핑 해외직접판매액 데이터 분석 e : 추정치, p : 잠정치, - : 자료없음, ... : 미상자료, x : 비밀보호, ▽ : 시계열 불연속 ▶ 가설설정 1. 국가별/상품군별 온라인쇼핑 해외직접판매는 성장하고 있을까? 2. 해외 직접판매를 한다면 어느 국가에 대해, 어느 상품으로 판매전략을 세우면 좋을까? ▶ 준비과정 1. 필요한 라이브러리 가져오기 import pandas as pd import seaborn as sns import matplotlib.pyplot as plt %matplotlib inline plt.rc('font', family='Malgun Gothic') plt.rc('axes', unicode_minus=False) 2. 데이터 로드하기 df_r..

[Python] 서울 종합병원 분포 데이터 분석

서울 종합병원 분포 데이터 분석 ▶ 가설설정 서울의 종합병원은 고르게 분포되어 있을까? ▶ 준비과정 1. 필요한 라이브러리 가져오기 import pandas as pd import seaborn as sns import matplotlib.pyplot as plt %matplotlib inline plt.rc('font', family='Malgun Gothic') plt.rc('axes', unicode_minus=False) 2. 데이터 로드하기 df = pd.read_csv("C:/Data/소상공인시장진흥공단_상가업소정보_의료기관_201909.csv",encoding = "cp949") # 행열 개수 df.shape 3. 데이터 미리보기/요약하기 head, tail을 통해 데이터를 미리보고 info..

[Tableau] superstore 대시보드

Tableau에서 제공해주는 superstore 데이터를 이용해 대시보드를 만들었습니다. https://public.tableau.com/app/profile/.84822189/viz/SalesAnalyticsDashboard_1/1_1 Sales Analytics Dashboard_1 Sales Analytics Dashboard_1 public.tableau.com https://public.tableau.com/app/profile/.84822189/viz/SalesAnalyticsDashboard_2/2_1 Sales Analytics Dashboard_2 Sales Analytics Dashboard_2 public.tableau.com https://public.tableau.com/app/p..

TABLEAU/Dashboard 2022.02.02

[DACON_101] Lv.2 결측치 보간법과 랜덤포레스트로 따릉이 데이터 예측하기

https://dacon.io/competitions/open/235698/overview/description ▶ [ Lv.2 결측치 보간법과 랜덤포레스트로 따릉이 데이터 예측하기 ] 를 공부했습니다. ▶ EDA _ 탐색적 자료 분석 이전 게시글 Lv1과 데이터가 같으므로 이 단계에서 행, 열 개수 확인/ 데이터 확인은 생략하겠습니다! 1. 라이브러리, 파일 불러오기 데이터분석을 하기 위해 pandas 라이브러리와 파일을 불러오기 import pandas as pd train = pd.read_csv('C:/data/train.csv') test = pd.read_csv('C:/data/test.csv') ▶ 전처리 1. 결측치 삭제, 대체 (방법 1) 결측치를 평균값으로 대체 Lv1에서는 결측치를 0..