[빅데이터 분석기사] 실기 - 3유형 모평균 검정(모집단 2개) T-test, wilcoxon

🏆 자격증, 어학

[빅데이터 분석기사] 실기 - 3유형 모평균 검정(모집단 2개) T-test, wilcoxon

데이터팍스 2024. 8. 20. 17:58

1. 대응표본(쌍체) T 검정 : 동일한 객체의 전 vs 후 평균 비교

import	pandas	as	pd
import	numpy	as	np
import	scipy.stats	as	stats
from	scipy.stats	import	shapiro

shapiro를 먼저 불러온다

#	1.	가설설정
#	H0	:	약을	먹기전과	먹은	후의	혈압	평균은	같다(효과가	없다)
#	H1	:	약을	먹기전과	먹은	후의	혈압	평균은	같지	않다(효과가	있다)

#	2.	유의수준	확인	:	유의수준	5%로	확인

#	3.	정규성	검정	(차이값에	대해	정규성	확인)
statistic,	pvalue	=	stats.shapiro(df['after']-df['before'])
print(round(statistic,4),	round(pvalue,4))

여기서 주의할점 : 대응표본은 정규성 검정할때 stats.shapiro()의 값에 df['후']-df['전']을 넣는다

#	4.1	(정규성O)	대응표본(쌍체)	t검정(paired	t-test)
statistic,	pvalue	=	stats.ttest_rel(df['after'],	df['before'],	alternative='two-sided')	#	alternative='two-side
print(round(statistic,4),	round(pvalue,4)	)

모평균 검정 - 모집단 2개 - 대응표본 - 정규성 O - ttest

stats.ttest_rel() 함수 사용

#	4.2	(정규성X)	wilcoxon	부호순위	검정
statistic,	pvalue	=	stats.wilcoxon(df['after']-df['before'],	alternative='two-sided')
print(round(statistic,4),	round(pvalue,4)	)
#	alternative	(대립가설	H1)	옵션	:	'two-sided',	'greater',	'less'

모평균 검정 - 모집단 2개 - 대응표본 - 정규성 X - wilcoxon

stats.wilcoxn() 함수 사용

df['후'] - df['전]) 값을 넣는다

2. 독립표본 T 검정 : A집단의 평균 vs B집단의 평균 (동일한 집단이 아님)

#	1.	가설설정
#	H0	:	A그룹과	B그룹의	혈압	평균은	같다.						(A	=	B)
#	H1	:	A그룹과	B그룹의	혈압	평균은	같지	않다.	(A	≠	B)

#	2.	유의수준	확인	:	유의수준	5%로	확인

#	3.	정규성	검정
#	H0(귀무가설)	:	정규분포를	따른다.
#	H1(대립가설)	:	정규분포를	따르지	않는다.
statisticA,	pvalueA	=	stats.shapiro(df['A'])
statisticB,	pvalueB	=	stats.shapiro(df['B'])
print(round(statisticA,4),	round(pvalueA,4))
print(round(statisticB,4),	round(pvalueB,4))

대응표본은 df['후']-df['전'] 값 덩어리를 shaprio 함수에 넣어서 정규성을 검정했다면

독립표본은 A,B 값을 각각 shapiro 함수에 넣어 정규성을 구함

만약 하나라도 정규분포를 따르지 않는다면 비모수 검정방법(윌콕슨)을 써야 함 >> 근데 비모수는 시험에 출제될 확률이 적음

#	4.	등분산성	검정
#	H0(귀무가설)	:	등분산	한다.
#	H1(대립가설)	:	등분산	하지	않는다.
statistic,	pvalue	=	stats.bartlett(df['A'],	df['B'])
print(round(statistic,4),	round(pvalue,4)	)

독립표본은 정규성 검사 외에 등분산성도 검정해야 하는데

stats.barlett(df['칼럼'], df['칼럼']) 함수를 사용한다

#	5.1	(정규성O,	등분산성	O)	t검정
statistic,	pvalue	=	stats.ttest_ind(df['A'],	df['B'], equal_var=True, alternative='two-sided')
print(round(statistic,4),	round(pvalue,4)	)

모평균 검정 - 모집단 2개 - 독립표본 - 정규성 O - 등분산성 O - ttest

stats.ttest_ind() 함수 사용, equal_var = True

#	5.1	(정규성O,	등분산성	X)	t검정
statistic,	pvalue	=	stats.ttest_ind(df['A'],	df['B'], equal_var=False, alternative='two-sided')
print(round(statistic,4),	round(pvalue,4)	)

모평균 검정 - 모집단 2개 - 독립표본 - 정규성 O - 등분산성 X - ttest

stats.ttest_ind() 함수 사용, equal_var = False

#	5.2	(정규성X)윌콕슨의	순위합	검정
statistic,	pvalue	=	stats.ranksums(df['A'],	df['B'],	alternative='two-sided')
print(round(statistic,4),	round(pvalue,4)	)

모평균 검정 - 모집단 2개 - 독립표본 - 정규성 X - ranksums

stats.ranksums() 함수 사용

헷갈리니까 표로 정리해서 외워야겠음

'🏆 자격증, 어학' 카테고리의 다른 글

[빅데이터 분석기사] 실기 - 3유형 모평균 검정 함수 비교 (0)	2024.08.20
[빅데이터 분석기사] 실기 - 3유형 모평균 검정(모집단 3개) F-검정, ANOVA 분석 (0)	2024.08.20
[빅데이터 분석기사] 실기 - 3유형 모평균 검정(모집단 1개) T-test,wilcoxon (0)	2024.08.20
[빅데이터 분석기사] 실기 - 2유형 모델 성능평가 함수, 해석 (0)	2024.08.20
[빅데이터 분석기사] 실기 2회 - drop (0)	2024.08.20

현재글[빅데이터 분석기사] 실기 - 3유형 모평균 검정(모집단 2개) T-test, wilcoxon

DATAFOX🦊

데이터 분석을 박스에 담는 블로그📦 네이버 블로그에서 이전중

Today :
Yesterday :

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

DATAFOX🦊