일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- Python
- 분석
- 직장인자기계발
- 독서리뷰
- 패스트캠퍼스
- 딥러닝
- 상관분석
- Ai
- It
- nlp
- 패스트캠퍼스후기
- API
- 리뷰
- 자동매매프로그램
- 데이터분석
- 빅데이터
- 직장인인강
- 활성화함수
- 데이터
- 파이썬을활용한시계열데이터분석A-Z올인원패키지
- 클라우드
- 머신러닝
- 패캠챌린지
- ChatGPT
- DAGs
- 방콕여행
- 태국여행
- airflow
- 파이썬
- 챗지피티
- Today
- Total
데이터를 기반으로
공분산과 상관계수의 차이 - (1) 본문
이전 게시글에서 변수 타입에 대해 정의를 내려보았다.
그럼 이제 각 변수들 간의 어떠한 관계가 있을 건지에 대한 궁금증이 생기기 마련이다.
우리는 어떠한 특정 현상이나 관계에 대해 가장 명확하게 해석할 수 있는 '인과 관계'를 찾고자 한다.
하지만, 현실에서 인과 관계를 증명하기는 생각보다 어려울 수 있다.
분석을 진행하면서 의사 결정권자 분들에게 리포팅을 보여드리거나 어떠한 현상에 대해 설명할 때 마다 이러한 명확함을 좋아하기에 연관이 있는 관계를 확대 해석하여 인과 관계로 오해하곤 한다.
그렇기에 분석가라면 정확히 인과 관계가 아닌 상관 또는 연관이 있는 관계라는 점을 명확하게 짚고 넘어가야한다.
이 정도로 현업에서 발생할 만한 케이스에 대한 설명을 끝내고, 제목에 보여지는 공분산과 상관계수에 대해 설명하고자 한다.
[ 공분산(Covariance) ]
공분산(共分散, 영어: covariance)은 2개의 확률변수의 선형 관계를 나타내는 값이다.[1] 만약 2개의 변수중 하나의 값이 상승하는 경향을 보일 때 다른 값도 상승하는 선형 상관성이 있다면 양수의 공분산을 가진다.[2] 반대로 2개의 변수중 하나의 값이 상승하는 경향을 보일 때 다른 값이 하강하는 선형 상관성을 보인다면 공분산의 값은 음수가 된다. 이렇게 공분산은 상관관계의 상승 혹은 하강하는 경향을 이해할 수 있으나 2개 변수의 측정 단위의 크기에 따라 값이 달라지므로 상관분석을 통해 정도를 파악하기에는 부적절하다. 상관분석에서는 상관관계의 정도를 나타내는 단위로 모상관계수로는 그리스 문자 ρ를, 표본상관계수로는 알파벳 s를 사용한다.
- 출처 : 위키 백과 -
위키 백과에 생각보다 공분산에 대한 설명이 상세하게 나와 있어서 놀랐다.
먼저, 공분산 개념을 알기 전에 평균, 편차, 분산 등에 대한 개념을 알아야 공분산을 명확히 이해할 수 있기에 간단하게 개념을 한 줄로 작성해보겠다.
- 평균(Average) : 우리가 보통 말하는 평균은 대부분 산술평균에 해당하며, 표본을 모두 더한 후 해당 표본의 수로 나눈 값을 말한다.
- 편차(Deviation) : 데이터(측정 값) - 평균값 으로 구하며 데이터와 평균의 차이를 말한다.
- 분산(Variance) : 편차 제곱의 합에서 데이터 수로 나눈 값을 말하며 데이터의 퍼진 정도를 말한다.
예시) 분산이 크다 : 평균에서 벗어난 데이터들이 많다. / 분산이 작다 : 평균 주위에 데이터가 몰려있다.
이렇게 3개의 개념을 읽은 뒤 다시 공분산 개념을 살펴보자.
먼저, 공분산의 수식은 아래와 같다.
Cov(X, Y) = E{(X-ux)(Y-uy)}
X와 Y라는 변수와의 공분산은 X의 편차와 Y의 편차를 곱하여 그것의 평균을 구한다는 것인데 이것이 어떤 의미인지 더욱 깊이 있게 살펴보자.
먼저 위 수식으로 한번 살펴보자.
1. X 값이 커질때, Y 값도 커진다 → (양수)x(양수) = 공분산 값 (양수) ↑
2. X값이 커질때, Y 값이 작아진다 → (양수)x(음수) = 공분산 값 (음수) ?
3. X값이 작아질때, Y 값이 커진다 → (음수)x(양수) = 공분산 값 (음수) ?
4. X값이 작아질때, Y 값이 작아진다 → (음수)x(음수) = 공분산 값 (양수) ↑
결과론 적으로 1번과 4번의 공분산 값은 커진다. 즉, X 값의 변화에 따라 Y 값도 동일하게 움직인다는 뜻이다.
(= X와 Y의 의존성이 높다)
반대로, 의존성이 낮다는 것은 두 변수가 서로 독립이라는 뜻이다.
독립적이라는 것은 X가 어떻게 변화하든 Y가 변화하는 것에 영향을 미치지 않고 서로 연관이 없으며 종속적인 관계가 아닌 독립적이라고 보는 것을 의미한다.
X가 커질 수록 Y 가 커지고, X가 작아질 수록 Y가 작아진다. 우리는 이것을 선형관계라고 표현하기로 했다.
Y = aX + b (양의 선형관계)
Y = -aX + b (음의 선형관계)
위 2가지 공식이 곧 해당 현상을 보여주는 공식이다.
참고 자료 : https://ds92.tistory.com/82
선형(Linearity)과 비선형(Non-linearity)의 차이점
선형함수와 비선형함수는 정확히 어떤 차이점을 가질까? 위와 같은 질문을 시작으로 선형과 비선형의 본질적인 의미까지 파악해보고자 한다. 우선 먼저 선형이란 무엇일까? [ 선형 ] 선형성(線
ds92.tistory.com
그럼 여기서, 질문!
Y=X^2 은 선형관계인가? 그럼 공분산은?
차근차근 알아보자.
1. Y=X^2 의 경우, X와 Y는 선형관계인가?
→ X^2은 선형관계는 아니다. 위 참고자료에서 보이듯이 선형성을 만족하지 못하기 때문이다.
2. Y=X^2 의 경우, 선형관계가 아니기에 공분산은 0일까?
→ 해당 건은 수식으로 설명을 이어가야 이해하기가 쉽다. 아래의 기댓값 연산에서의 규칙을 보여주는 공식들이다.
→ 이와 같을 때, Cov(X, Y) = E(XY) - E(X)E(Y) 이다. 이를 바꾸면, Cov(X, X^2) = E(X*X^2) - E(X)E(X^2) 으로 볼 수 있다. 위 공식 E(XY) = E(X)E(Y) 를 이용한다면 Cov(X, X^2) = E(X)E(X)^2 - E(X)E(X)^2 이므로 결과는 0 이다.
그러므로 해당 공분산 값은 0으로 볼 수 있다.
다음 글에서 상관 계수에 대해서 깊이 알아보며 공분산과의 차이를 명확하게 알아보자.
참고 사이트 : https://blog.naver.com/sw4r/221025662499
Covariance (COV: 공분산)란?
Cov(X, Y)라는 녀석을 많이 만나 봤을 것이다. 통계학에 온 이상 이런 것들은 아주 기초적이겠지만, 볼 ...
blog.naver.com
'통계 > 통계관련 개념' 카테고리의 다른 글
상관계수의 기초 - 피어슨 상관계수(Pearson correlation)(1) (0) | 2023.08.25 |
---|---|
공분산과 상관계수의 차이 - (2) (0) | 2023.08.16 |
변수(Variable)의 개념 및 종류 (0) | 2023.07.30 |
선형(Linearity)과 비선형(Non-linearity)의 차이점 (0) | 2022.09.02 |