데이터를 기반으로

상관계수의 기초 - 피어슨 상관계수(Pearson correlation)(1) 본문

통계/통계관련 개념

상관계수의 기초 - 피어슨 상관계수(Pearson correlation)(1)

이노후 2023. 8. 25. 12:29
728x90
반응형

이전 글에서 공분산과 상관계수에 대한 차이를 알아보았다.

 

https://ds92.tistory.com/124

 

공분산과 상관계수의 차이 - (1)

이전 게시글에서 변수 타입에 대해 정의를 내려보았다. 그럼 이제 각 변수들 간의 어떠한 관계가 있을 건지에 대한 궁금증이 생기기 마련이다. 우리는 어떠한 특정 현상이나 관계에 대해 가장

ds92.tistory.com

 

https://ds92.tistory.com/125

 

공분산과 상관계수의 차이 - (2)

1번 글에 이어서 상관계수의 개념을 보면서 시작하고자 한다. [ 상관 계수(Correlation coefficient) ] 상관계수(相關係數, correlation coefficient)는 두 변수 사이의 통계적 관계를 표현하기 위해 특정한 상

ds92.tistory.com

 

이번 글에서는 상관계수의 대명사이자 가장 흔하게 상관계수를 구할 때 사용하는 방법인 바로 '피어슨 상관계수' 이다.

 

이번 글을 작성하고자 공부하면서, 기존에 내가 구했던 상관계수도 조금씩 틀렸던 부분을 발견할 수 있었다.

 

상관계수에 대한 개념은 위에서 확인했기에, 이번 글에서는 오직 '피어슨' 상관계수에만 포커싱을 가지며 작성할 계획이다.

 

 

[ 피어슨 상관 계수 란? ]

통계학에서 , 피어슨 상관 계수(Pearson Correlation Coefficient ,PCC)란 두 변수 X 와 Y 간의 선형 상관 관계를 계량화한 수치다. 피어슨 상관 계수는 코시-슈바르츠 부등식에 의해 +1과 -1 사이의 값을 가지며, +1은 완벽한 양의 선형 상관 관계, 0은 선형 상관 관계 없음, -1은 완벽한 음의 선형 상관 관계를 의미한다. 일반적으로 상관관계는 피어슨 상관관계를 의미하는 상관계수이다.

- 출처 : 위키백과 -

 

위키백과 이미지

 

위키백과 이미지

 

위 그래프 산점도 위에 숫자들이 곧 상관 계수이다.

 

y=x 그래프 스러울 수록 1에 가깝고, y=-x 그래프와 비슷할 수록 -1 에 가까운 수치가 산정된다.

 

우리가 상관계수를 추출하여 관련이 있는지 보고자하는 2개의 집단에 대한 가정들이 몇개있다. 이러한 가정들을 만족해야 비로소 상관계수라는 척도로 두 변수 사이에 대한 관계를 탐색할 수 있는 것이다.

 

먼저, 내가 알고 있는 상관 계수를 사용하기 전 사전 가정으로 알고 있던 내용이 최근 유행인 생성형 AI들은 어떻게 답변을 내놓을 지 궁금하여 직접 질문을 해보았다.

 

아레는 구글에서 제공하는 바드에게 물어보니 아래와 같은 답변을 받았다.

 

아래의 사진은 chat GPT 에게 질문한 답변이다.

이렇게 여러가지에 대한 가정들이 나오는 것을 확인할 수 있었다.

 

심지어 여러 논문에서는 이러한 가정을 만족하는지 조차도 확인하지 않고 지나간 논문들도 꽤 많아서 어떤게 맞는 것인지 찾기 어려운 부분이 있었다.

 

많은 서칭을 통해 가장 피어슨 상관 계수에 대한 사전 정의를 명확하게 설명해주는 저널을 발견했다.

 

https://academic.oup.com/ckj/article/14/11/2332/6262634

 

Conducting correlation analysis: important limitations and pitfalls

Abstract. The correlation coefficient is a statistical measure often used in studies to show an association between variables or to look at the agreement betwee

academic.oup.com

해당 사이트에 존재하는 위 저널이 가장 잘 설명해주는 것을 확인할 수 있었다.

 

위 저널에서 설명하는 피어슨 상관계수를 사용할 수 있는 사전 가정은 크게 4가지였다.

 

[ 상관계수 사전 가정 ]

1. 두 변수는 모두 정규 분포를 따르는가?

   → 더 명확하게 말하면, 이변량 정규분포(bivariate normal distribute)를 만족하는가?

   → 모수적인 방법이라 정규분포가 가정되어야 한다.

2. 이상치들이 존재하지 않는가?

   → 상관 계수는 이상치에 민감하게 반응하기에, 데이터의 이상치를 제거하고 진행해야한다.

3. 두 변수 모두 연속형 변수인가?

4. 선형관계에 있는가?

     산점도를 통해 육안으로 확인해보는 방식을 선호하지만, 더욱 정확하게 진행하고자 한다면 선형회귀분석을 통해 선형성을 검증해보는 

         것도 좋다.

 

위 가정 중 먼저 y=x 그래프와 y=x^2 그래프의 데이터를 생성하여, 각각의 상관계수를 추출해보고자 한다.

 

x_df 는 y=x 그래프에 맞춘 데이터 프레임이고, x_2_df 는 y=x^2에 맞춘 그래프이다.

 

 

각 그래프를 그려보니, 위와 같이 원하던 방향으로 잘 분포되어 있는 것을 확인할 수 있었다.

 

마지막 상관계수를 추출해보면 위와 같이 곡선인 y=x2 의 그래프는 당연하게도 상관계수가 0에 가까운 -0.1이 나온것을 확인할 수 있었다.

 

정확하게 표현하는 법은 아니지만 단순하게 표현한다면 곡선 그래프는 선형관계가 되기 쉽지 않다. 그러므로 위와 같은 결과가 보여진 것을 알 수 있었다.

 

이러한 특성을 보이고 있다고 생각하면 될 것 같고 글이 길어져서, 2번째 글로 이어서 설명할 예정이다.

실제 데이터셋을 기반으로 진행해보고, 정규성 검정까지 정리할 예정이다.

728x90
반응형