[빅데이터 분석기사] 실기 7회 - 2유형 RandomForestRegressor

🏆 자격증, 어학

[빅데이터 분석기사] 실기 7회 - 2유형 RandomForestRegressor

데이터팍스 2024. 8. 20. 17:52

x_train=train.drop(['이용금액'],axis=1)
y_train=train['이용금액']
x_test=test

print(x_train.info())
print(x_test.info())
print(y_train.info())

일단 train 데이터를 x_train과 y_train으로 분리한다
info()로 데이터 타입을 확인한다 >> object, category 있으면 원핫 인코딩 해줘야함

x_train.head()
x_test.head()
y_train.head()

3. head로 데이터 어떻게 생겼는지 간략하게 봐주고

print(x_train.shape)
print(x_test.shape)
print(y_train.shape)

4. x_train과 y_train 개수 맞는지도 확인

print(x_train.describe())
print(x_test.describe())
print(y_train.describe())

5. describe로 기초통계량 확인해서 x_train과 x_test의 min, max 값을 비교해서 이상치가 있는지 확인

y_train.value_counts()

6. y_train 값 확인해서 연속형임을 확인 > 회귀로 풀어야 함

print(x_train.isnull().sum())
print(x_test.isnull().sum())
print(y_train.isnull().sum())

7. 결측치가 있는지 확인해봄 >> 있으면 결측치 대체

Id	=	x_test['ID'].copy()
x_train	=	x_train.drop(columns	=	['ID'])	#	drop(columns	=	['변수1','변수2'])	변수	추가해서	여러개	삭제	가능	
x_test	=	x_test.drop(columns	=	['ID'])

8. 변수처리

불필요한 변수(columns) 제거

id 는 불필요한 변수이므로 제거합니다.

단, test 셋의 id가 나중에 제출이 필요하다면 별도로 저장해둠

x_train=pd.get_dummies(x_train)
x_test=pd.get_dummies(x_test)
print(x_train.info())
print(x_test.info())

9. 원핫 인코딩 진행하고 잘됐는지 확인(데이터 개수, 칼럼 순서, 칼럼 개수)

만약 x_test의 변수가 수가 더 많은 경우면 아래의 방식대로 진행

x_train = x_train.reindex(columns = x_test.columns, fill_value=0) 
x_train.info()

from sklearn.model_selection import train_test_split
x_train, x_val, y_train, y_val = train_test_split(x_train,
                                                  y_train,
                                                  test_size=0.2,
                                                  random_state=2024)

10. 데이터를 검증용과 훈련용으로 분할함

from sklearn.ensemble import RandomForestRegressor
model=RandomForestRegressor(random_state=2024)
model.fit(x_train,y_train)

11. 모델링

y_pred=model.predict(x_val)
from sklearn.metrics import mean_squared_error
mse=mean_squared_error(y_val,y_pred)
rmse=mse**0.5
print(rmse)

12. 모델을 사용해서 검증용 데이터로 예측값 구한 다음에, rmse를 구해봤음

사진 삭제

사진 설명을 입력하세요.

띠용?? 값이 너무 큰데?? 싶어서 정답 코드로도 돌려봤는데 똑같이 나온다

#rmse값이 크더라도 당황하지 말아요..

날짜 데이터에 대한 후처리, 업종명에 대해 후처리 등의 접근을 추가로 해볼 여지가 있어보입니다~!

라는구만 괜찮겠지??

y_result	=	model.predict(x_test)
result	=	pd.DataFrame({'ID':	Id,	'target':	y_result})
result
result.to_csv('datafox.csv',index=False)

13. 데이터 제출

df2	=	pd.read_csv("datafox.csv")
print(df2.head())

14. 데이터 불러오기 해서 제대로 저장됐는지 확인