9-1. Python으로 상관분석하기 (t검정)

* 검정 주제: 프로배구에서 승패에 따른 상대범실

1. 데이터 불러오기(경기데이터.xlsx)

import pandas as pd

data = pd.read_excel("경기데이터.xlsx", sheet_name = "프로배구") #데이터불러오기
data.head()

2. 등분산성 검증(두 집단의 분산이 동일한지)

from scipy import stats

win_errors = data.상대범실[data.승패 == 1]  # 승리 시 상대범실
loss_errors = data.상대범실[data.승패 == 0] # 패배 시 상대범실

# Levene's test 수행: scipy.stats 모듈의 levene 함수를 사용하여 등분산 검정을 수행합니다.
statistic, p_value = stats.levene(win_errors, loss_errors)

# 결과 출력: 검정 통계량과 p-값을 출력합니다.
print('Levene 검정 통계량: %.3f' % statistic)
print('p-값: %.3f' % p_value)

# 결과 해석: p-값을 기준으로 등분산 가정을 만족하는지 판단합니다.
alpha = 0.05  # 유의수준 설정 (일반적으로 0.05 사용)
if p_value < alpha:
    print("등분산 가정이 만족되지 않습니다.")
else:
    print("등분산 가정이 만족됩니다.")

p_value(유의확률) > alpha(유의수준) 이면 등분산 가정이 만족한다고 판단
-> T 검정 진행

3. 상관분석(T검정) 진행

# T-검정 수행: scipy.stats 모듈의 ttest_ind 함수를 사용하여
# 두 그룹 (승리, 패배) 간 상대범실의 평균 차이를 검정합니다.
t_statistic, p_value = stats.ttest_ind(win_errors, loss_errors)

# 결과 출력: T-통계량과 p-값을 출력합니다.
print('T-통계량: %.3f' % t_statistic)
print('p-값: %.3f' % p_value)

# 결과 해석: p-값을 기준으로 유의미한 차이가 있는지 판단합니다.
alpha = 0.05  # 유의수준 설정 (일반적으로 0.05 사용)
if p_value < alpha:
    print("승패와 상대범실 간에 유의미한 차이가 있습니다.")
else:
    print("승패와 상대범실 간에 유의미한 차이가 없습니다.")

p_value(유의확률) > alpha(유의수준) 이면 두 집단 간 유의미한 차이가 없다고 결론내리며 대립가설이 채택되었다고 합니다.(반대의 경우 귀무가설 채택)

4. 결과정리

# N, M, SD 계산: 각 그룹에 대해 N, M, SD 값을 계산합니다.
win_N = len(win_errors)  # 승리 시 상대범실 데이터 개수 (N)
win_M = win_errors.mean()  # 승리 시 상대범실 평균 (M)
win_SD = win_errors.std()  # 승리 시 상대범실 표준편차 (SD)

loss_N = len(loss_errors)  # 패배 시 상대범실 데이터 개수 (N)
loss_M = loss_errors.mean()  # 패배 시 상대범실 평균 (M)
loss_SD = loss_errors.std()  # 패배 시 상대범실 표준편차 (SD)

# 결과 출력: 계산된 N, M, SD 값을 출력합니다.
print("승리 시 상대범실:")
print("N:", win_N)
print("M: %.3f" %win_M)
print("SD: %.3f" %win_SD)

print("\n패배 시 상대범실:")
print("N: ", loss_N)
print("M: %.3f" %loss_M)
print("SD: %.3f" %loss_SD)

1. 데이터 불러오기(경기데이터.xlsx)

2. 등분산성 검증(두 집단의 분산이 동일한지)

3. 상관분석(T검정) 진행

4. 결과정리

티스토리툴바