๐ ์๊ฒฉ์ฆ, ์ดํ
[๋น ๋ฐ์ดํฐ ๋ถ์๊ธฐ์ฌ] ์ค๊ธฐ - 3์ ํ ๋ค์คํ๊ท๋ถ์, ์๊ด๋ถ์
๋ฐ์ดํฐํ์ค
2024. 8. 21. 18:05
๋ฌธ์ ์์ ๋ค์คํ๊ท๋ถ์์ ํ๋ค๊ณ ๋์๋ค๋ฉด
# x=๋
๋ฆฝ๋ณ์, y=์ข
์๋ณ์ ํ ๋น
x=df[['์นผ๋ผ๋ช
1','์นผ๋ผ๋ช
2','์นผ๋ผ๋ช
3']] ํน์ x=df.drop(columns=['์นผ๋ผ๋ช
'])
y=df['์นผ๋ผ๋ช
']
๊ทธ ๋ค์์ sklearn์ด๋ statsmodel๋ก ํ์ง ๊ณ ๋ฏผํด์ผ ํ๋ค
#sklearn ํ์ด ๋ฐฉ์
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
model=LinerRegression()
result=model.fit(x,y)
๊ฒฐ์ ๊ณ์=model.score(x,y)
ํ๊ท๊ณ์=model.coef_
#statsmodels ํ์ด ๋ฐฉ์
import pandas as pd
import numpy as np
import statsmodels.api as sm
x=sm.add_constant(x) #์์์ถ๊ฐ
model=sm.OLS(y,x).fit() #y,x ์์ผ๋ก ์ธ ๊ฒ
summary=model.summary()
์ด๊ฒ๋ง ์ธ์ฐ๋ฉด ๋ค์คํ๊ท๋ถ์์ ํธ๋๋ฐ ๋ฌธ์ ๊ฐ ์๋ค!!
from scipy.stats import pearsonr
r, pvalue=pearson(x,y)
์ฐ๊ณ ๋ณด๋ ์ฝ๋๊ฐ ๋ณ๊ฑฐ ์์์..?
๊ทผ๋ฐ ์์ด๋ฆฌ ํท๊ฐ๋ ธ๋ ๊ฑฐ๋ ๋จธ์ฑ