데이터를 기반으로

공분산과 상관계수의 차이 - (1) 본문

통계/통계관련 개념

공분산과 상관계수의 차이 - (1)

이노후 2023. 8. 15. 00:19
728x90
반응형

이전 게시글에서 변수 타입에 대해 정의를 내려보았다.

 

그럼 이제 각 변수들 간의 어떠한 관계가 있을 건지에 대한 궁금증이 생기기 마련이다.

 

우리는 어떠한 특정 현상이나 관계에 대해 가장 명확하게 해석할 수 있는 '인과 관계'를 찾고자 한다.

 

하지만, 현실에서 인과 관계를 증명하기는 생각보다 어려울 수 있다.

 

분석을 진행하면서 의사 결정권자 분들에게 리포팅을 보여드리거나 어떠한 현상에 대해 설명할 때 마다 이러한 명확함을 좋아하기에 연관이 있는 관계를 확대 해석하여 인과 관계로 오해하곤 한다.

 

그렇기에 분석가라면 정확히 인과 관계가 아닌 상관 또는 연관이 있는 관계라는 점을 명확하게 짚고 넘어가야한다.

 

이 정도로 현업에서 발생할 만한 케이스에 대한 설명을 끝내고, 제목에 보여지는 공분산과 상관계수에 대해 설명하고자 한다.

 

[ 공분산(Covariance) ]

공분산(共分散, 영어: covariance)은 2개의 확률변수의 선형 관계를 나타내는 값이다.[1] 만약 2개의 변수중 하나의 값이 상승하는 경향을 보일 때 다른 값도 상승하는 선형 상관성이 있다면 양수의 공분산을 가진다.[2] 반대로 2개의 변수중 하나의 값이 상승하는 경향을 보일 때 다른 값이 하강하는 선형 상관성을 보인다면 공분산의 값은 음수가 된다. 이렇게 공분산은 상관관계의 상승 혹은 하강하는 경향을 이해할 수 있으나 2개 변수의 측정 단위의 크기에 따라 값이 달라지므로 상관분석을 통해 정도를 파악하기에는 부적절하다. 상관분석에서는 상관관계의 정도를 나타내는 단위로 모상관계수로는 그리스 문자 ρ를, 표본상관계수로는 알파벳 s를 사용한다.

- 출처 : 위키 백과 -

 

위키 백과에 생각보다 공분산에 대한 설명이 상세하게 나와 있어서 놀랐다.

 

먼저, 공분산 개념을 알기 전에 평균, 편차, 분산 등에 대한 개념을 알아야 공분산을 명확히 이해할 수 있기에 간단하게 개념을 한 줄로 작성해보겠다.

 

- 평균(Average) : 우리가 보통 말하는 평균은 대부분 산술평균에 해당하며, 표본을 모두 더한 후 해당 표본의 수로 나눈 값을 말한다.

- 편차(Deviation) : 데이터(측정 값) - 평균값 으로 구하며 데이터와 평균의 차이를 말한다.

- 분산(Variance) : 편차 제곱의 합에서 데이터 수로 나눈 값을 말하며 데이터의 퍼진 정도를 말한다.

       예시) 분산이 크다 : 평균에서 벗어난 데이터들이 많다. / 분산이 작다 : 평균 주위에 데이터가 몰려있다.

 

이렇게 3개의 개념을 읽은 뒤 다시 공분산 개념을 살펴보자.

 

먼저, 공분산의 수식은 아래와 같다.

 

Cov(X, Y) = E{(X-ux)(Y-uy)}

 

X와 Y라는 변수와의 공분산은  X의 편차와 Y의 편차를 곱하여 그것의 평균을 구한다는 것인데 이것이 어떤 의미인지 더욱 깊이 있게 살펴보자.

 

먼저 위 수식으로 한번 살펴보자.

 

1. X 값이 커질때, Y 값도 커진다 → (양수)x(양수) = 공분산 값 (양수) ↑

2. X값이 커질때, Y 값이 작아진다 → (양수)x(음수) = 공분산 값 (음수) ?

3. X값이 작아질때, Y 값이 커진다 → (음수)x(양수) = 공분산 값 (음수) ?

4. X값이 작아질때, Y 값이 작아진다 → (음수)x(음수) = 공분산 값 (양수) ↑

 

결과론 적으로 1번과 4번의 공분산 값은 커진다. 즉, X 값의 변화에 따라 Y 값도 동일하게 움직인다는 뜻이다.

(= X와 Y의 의존성이 높다)

 

반대로, 의존성이 낮다는 것은 두 변수가 서로 독립이라는 뜻이다.

 

독립적이라는 것은 X가 어떻게 변화하든 Y가 변화하는 것에 영향을 미치지 않고 서로 연관이 없으며 종속적인 관계가 아닌 독립적이라고 보는 것을 의미한다.

 

X가 커질 수록 Y 가 커지고, X가 작아질 수록 Y가 작아진다. 우리는 이것을 선형관계라고 표현하기로 했다.

 

Y = aX + b (양의 선형관계)

Y = -aX + b (음의 선형관계)

 

위 2가지 공식이 곧 해당 현상을 보여주는 공식이다.

 

참고 자료 : https://ds92.tistory.com/82

 

선형(Linearity)과 비선형(Non-linearity)의 차이점

선형함수와 비선형함수는 정확히 어떤 차이점을 가질까? 위와 같은 질문을 시작으로 선형과 비선형의 본질적인 의미까지 파악해보고자 한다. 우선 먼저 선형이란 무엇일까? [ 선형 ] 선형성(線

ds92.tistory.com

 

그럼 여기서, 질문!

Y=X^2 은 선형관계인가? 그럼 공분산은?

 

차근차근 알아보자.

 

1. Y=X^2 의 경우, X와 Y는 선형관계인가?

    → X^2은 선형관계는 아니다. 위 참고자료에서 보이듯이 선형성을 만족하지 못하기 때문이다.

 

2. Y=X^2 의 경우, 선형관계가 아니기에 공분산은 0일까?

    → 해당 건은 수식으로 설명을 이어가야 이해하기가 쉽다. 아래의 기댓값 연산에서의 규칙을 보여주는 공식들이다.

출처 : https://blog.naver.com/mykepzzang/220837877074

    →  이와 같을 때, Cov(X, Y) = E(XY) - E(X)E(Y) 이다. 이를 바꾸면, Cov(X, X^2) = E(X*X^2) - E(X)E(X^2) 으로 볼 수 있다. 위 공식 E(XY) = E(X)E(Y) 를 이용한다면 Cov(X, X^2) = E(X)E(X)^2 - E(X)E(X)^2 이므로 결과는 0 이다.

 

그러므로 해당 공분산 값은 0으로 볼 수 있다.

 

다음 글에서 상관 계수에 대해서 깊이 알아보며 공분산과의 차이를 명확하게 알아보자.

 

참고 사이트 : https://blog.naver.com/sw4r/221025662499

 

Covariance (COV: 공분산)란?

Cov(X, Y)라는 녀석을 많이 만나 봤을 것이다. 통계학에 온 이상 이런 것들은 아주 기초적이겠지만, 볼 ...

blog.naver.com

 

728x90
반응형