데이터를 기반으로

두 범주형 변수의 검정(카이제곱 독립성 검정) 본문

통계/검정

두 범주형 변수의 검정(카이제곱 독립성 검정)

이노후 2023. 2. 1. 00:33
728x90
반응형

- 두 변수의 독립성을 검정하기 위해 카이제곱 독립성 검정 진행

- 모든 변수들 끼리 종속성이 존재하다고 나와서 크래머 v계수를 추출하여 해당 건 설명

 

 

사용 분석 기법

두 변수 간 독립성 검정(카이제곱)

(검정 Process)

 

- 가설 설립

   (예시)

   H0(귀무가설) : A 변수와 B 변수간에 관련이 없다(독립이다)

   H1(대립가설) : A 변수와 B 변수간에 관련이 있다(독립이 아니다 = 종속성이 존재한다)

 

- Chi-square indepence test를 이용한 가설 검정

p-value 값의 맞춰 가설 채택

 

(참고 링크 : https://en.wikipedia.org/wiki/Chi-squared_test )

 

Chi-squared test - Wikipedia

From Wikipedia, the free encyclopedia Statistical hypothesis test A chi-squared test (also chi-square or χ2 test) is a statistical hypothesis test used in the analysis of contingency tables when the sample sizes are large. In simpler terms, this test is p

en.wikipedia.org

 

Cramer's V 계수(크래머 V 계수)

 

( 참고 링크 : 크래머 V계수(Cramér's V) - IBM Documentation / Cramér's V - Wikipedia )

크래머 V 계수는 2개의 변수의 독립성 검정을 진행한 후 연관되어 있다는 통계적 결론이 도출되었을 때, 해당 연관성의 정도를 보여주는 척도

→ 분석가의 재량 및 해당 비즈니스에 맞춰 약한 연관성이 존재하는 변수들을 사용하고자 보는 척도

 

가입 기간과 고객 등급 간 독립성 검정 진행(카이제곱 독립성 검정)

 

(가설)            

H0 : 고객 등급과 가입 기간 간에 관련이 없다(독립이다).            

H1 : 고객 등급과 가입 기간 간에 관련이 있다(독립이 아니다).            

 

(검정)

1. p-value = 0.0 → 귀무가설 기각 → 대립가설 채택 → 독립이 아니다.                            

2. chi-squared test statistic = 138265.70 > 26.22 → 귀무가설 기각 → 대립가설 채택 → 독립이 아니다.    

 

(결론)

가입 기간 변수는 고객 등급에 종속성이 존재한다.

 

크래머 V 계수 추출

 

(결과)

크래머 V계수 = ES = 0.071 < 0.2

 

(해석)

가입 기간과 고객 등급은 통계적으로 독립적이지 않지만, 두 변수 간의 종속성(관계)가 매우 약한 편이다. 

 

(예시) 특정 변수 추출 과정 - 할인 구매 비율

EDA를 통한 후보 변수 추출

할인 구매 비율과 고객 등급 간 독립성 검정 진행(카이제곱 독립성 검정)

 

(가설)            

H0 : 고객 등급과 할인 구매 비율 간에 관련이 없다(독립이다).            

H1 : 고객 등급과 할인 구매 비율 간에 관련이 있다(독립이 아니다).         

 

(검정)

1. p-value = 0.0 → 귀무가설 기각 → 대립가설 채택 → 독립이 아니다.                            

2. chi-squared test statistic = 112981.39 > 26.22 → 귀무가설 기각 → 대립가설 채택 → 독립이 아니다.    

 

(결론)

할인 구매 비율은 고객 등급에 종속성이 존재한다.

 

크래머 V 계수 추출

 

(결과)

크래머 V계수 = ES = 0.064 < 0.2

 

(해석)

할인 구매 비율과 고객 등급은 통계적으로 독립적이지 않지만, 두 변수 간의 종속성(관계)가 매우 약한 편이다. 

 

 

위 모든 데이터는 임시로 생성한 데이터이며, 해당 변수 및 결과 또한 임의의 데이터로 나온 결과에 대한 해석 입니다.

 

728x90
반응형