데이터를 기반으로

공분산과 상관계수의 차이 - (2) 본문

통계/통계관련 개념

공분산과 상관계수의 차이 - (2)

이노후 2023. 8. 16. 17:20
728x90
반응형

1번 글에 이어서 상관계수의 개념을 보면서 시작하고자 한다.

 

[ 상관 계수(Correlation coefficient) ]

상관계수(相關係數, correlation coefficient)는 두 변수 사이의 통계적 관계를 표현하기 위해 특정한 상관 관계의 정도를 수치적으로 나타낸 계수이다.[1]
여러 유형의 상관계수가 존재하지만 제각기 자신들만의 정의와 특징이 있다. 이들은 모두 값의 범위가 -1에서 +1 사이에 속하며 여기서 ±1은 정도가 가장 센 잠재적 일치를 나타내고 0은 정도가 가장 센 불일치를 나타낸다.[2]

- 출처 : 위키 백과 -

 

이전 공분산의 범위는 - 무한대 ~ + 무한대 이다.

상관 계수는 -1 ~ +1 이다.

 

이것만 두고 보아도 무엇이 다른지 확연히 알 수 있다. 바로 스케일의 차이다.

 

우리가 왜 모든 변수의 유사 관계나 상관성이 있는지 보고자 할 때 공분산이 아닌 상관 계수를 추출해서 보는 이유는 바로 스케일 때문이다.

 

분산과 공분산은 스케일에 대한 영향을 크게 받는다. 이것은 코드로 직접 실행하며 예시를 들어주어야 쉽다.

1 부터 10 까지의 평균과 분산을 구한것이 5.5 / 8.25 이다.

거기에 1000을 곱해서 1000부터 10000까지 평균과 분산을 구한 것이 5500 / 8250000 으로 나온 것을 볼 수 있다.

 

우리는 이전 게시물에서 분산은 평균과의 퍼진 정도라고 했었다. 위 코드를 보고 val_100에 해당하는 리스트는 진짜로 vals 보다 더 평균을 기준으로 멀리 있을까? 답은 아니다. 단지 각각 요소들의 값의 기준이 커져서 그런 것이다.

 

공분산 또한 마찬가지이다. ddof 는 자유도를 의미하며 현재 우리는 리스트를 생성하여 전체 리스트를 기준으로 진행하고 있기에 굳이 자유도를 지정해줄 필요는 없지만 여기서 다룰 중요한 이야기는 아니니 추후에 다시 이야기를 나누어 보자.

 

다시 정리하자면, 그냥 h,w 의 공분산과 h_100, w_100 의 공분산의 크기의 차이는 확연하게 났다. h 와 w 의 상관성이 h_100 과 w_100 보다 낮은가? 아니다. 결국 스케일의 차이로 위와 같이 보여지고 있는 것이다.

 

그럼 동일한 요소들을 가지고 상관 계수를 추출해보면(각각 이산형 데이터 이므로 피어슨 상관 계수로 추출해본다) 스케일에 영향을 받지 않고 동일한 상관 계수를 보여주는 것을 확인할 수 있었다.

 

이렇게 우리는 공분산이 아닌 상관 계수를 추출하여 두 변수의 연관성이 있는 지에 대해서 판단하는 척도로 사용한다.

 

이 다음은 변수의 타입 별로 어떠한 상관 분석이 필요한지에 대해서 정리하고자 한다.

728x90
반응형