[빅데이터 분석기사] 실기 5회 - 2유형 x_train과 x

🏆 자격증, 어학

[빅데이터 분석기사] 실기 5회 - 2유형 x_train과 x_test 개수가 다를때 reindex 사용

데이터팍스 2024. 8. 20. 17:54

import pandas as pd
train = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/krdatacertificate/e5_p2_train_.csv')
test = pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/krdatacertificate/e5_p2_test_.csv')

display(train.head(2))
test.head(2)

x_train=train.drop(columns=['price'])
y_train=train['price']
x_test=test

print(x_train.info())
print(y_train.info())
print(x_test.info())

데이터 불러온 다음에 나눠줬다 info로 데이터 타입 확인했음 > 원핫 인코딩 필요

#데이터 크기
print(x_test.describe())
print(x_train.describe())
print(y_train.describe())

데이터 이상치 확인해보려고 기초통계량 함수 써서 min, max 비교해봤는데 이상치는 딱히 없었다

print(x_train.isnull().sum())
print(x_test.isnull().sum())
print(y_train.isnull().sum())

결측치도 없었다

ID=x_test['ID'].copy()
x_train=x_train.drop(columns='ID')
x_test=x_test.drop(columns='ID')

ID는 필요 없는 변수니까 제거해줬고

x_train=pd.get_dummies(x_train)
x_test=pd.get_dummies(x_test)

근데 문제가 생겼다

사진 삭제

사진 설명을 입력하세요.

원핫 인코딩 해주고 나니 x_train과 x_test 칼럼 개수도, 순서도 다름... train 데이터에는 test에 없는 데이터들이 있었음

이걸 어찌하나 고민하다가

x_test	=	x_test.reindex(columns	=	x_train.columns,	fill_value=0)

많은 칼럼을 기준으로 적은 칼럼을 reindex 해줬다

그러고 나선 칼럼 개수도, 순서도 동일하게 된것을 확인함

from sklearn.model_selection import train_test_split
x_train, x_val, y_train, y_val = train_test_split(x_train,
                                                  y_train,
                                                  test_size=0.2,
                                                  random_state=2024)
print(x_train.shape)
print(x_val.shape)
print(x_val.shape)
print(y_train.shape)

이후로는 x_train, y_train 분할해주고 (회귀 쓸거라서 stratify 필요없음)

from sklearn.ensemble import RandomForestRegressor
model=RandomForestRegressor(random_state=2024)
model.fit(x_train,y_train)
y_pred=model.predict(x_val)
from sklearn.metrics import mean_squared_error
mse=mean_squared_error(y_val,y_pred)
rmse=mse**0.5
print(rmse)

y_result=model.predict(x_test)
result=pd.DataFrame({'ID':ID,'Target':y_result})
result.to_csv('datafox',index=False)
pd.read_csv("datafox")

정답까지 맞게 나옴!

5회의 핵심

x_test	=	x_test.reindex(columns	=	x_train.columns,	fill_value=0)