데이터를 기반으로

패스트캠퍼스 챌린지 25일차 본문

스터디/패스트캠퍼스

패스트캠퍼스 챌린지 25일차

이노후 2022. 2. 17. 23:33
728x90
반응형

오늘의 강의는 다중공선성에 대한 이야기로 강의가 시작되었다.

 

다중공선성이란 X 독립변수들 끼리의 강한 상관관계가 있는 것을 의미한다. 이러한 다중공선성이 존재하는 데이터들을 기반으로 모델을 구축하게 되면 과적합이 일어날 가능성이 크다.

 

하여, 이를 해결하기 위해 크게 2가지 방법이 있다.

 

왼쪽 화면은 블로그에 직접 강의 내용을 정리하며 듣고 있는 화면이고 오른쪽 화면은 강의 화면이다.

 

1. VIF(Variance Inflation Factor) 변수 선택

 → 해당 방법론은 독립변수를 다른 독립변수들로 선형 회귀한 성능을 의미하며, 이를 통해 상호 가장 의존적인

     독립변수를 제거하는 법

 

VIF의 단계는 각 X 독립변수를 종속변수로 칭하고 회귀 분석을 각각 돌린다. 그 후 R-Square를 각각 확인하면서 값이 높을 수록 해당 독립변수 X는 독립변수가 아닐 확률이 높다. 

 

공식에 의해서 R-Square 가 낮아지면 VIF 값은 높아지고 이러면 해당 독립변수의 종속성은 높아지니 제거 대상이 된다.

 

 

2. PCA(Principal Component Analysis) 변수 선택

→ 차원 축소라고 부르며 해당 장에서는 복잡하고 추후 더 자세한 설명을 진행한다고 한다.

 

 

왼쪽은 강의 자료 화면이고 오른쪽은 강의화면이다.

 

PCA는 독립이 될 수 있는 차원으로 변경하여 사용하는 것이다.

 

2가지 모두 결과는 같으나 방법 적인 측면에서 다르고 VIF는 기존 자료가 유지되는 반면에 PCA는 새롭게 구성되는 차이점이 있다.

 

 

 

※ 본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성었습니다. 

 

※ 관련 링크 : https://bit.ly/37BpXiC

728x90
반응형