데이터를 기반으로

패스트캠퍼스 챌린지 17일차 본문

스터디/패스트캠퍼스

패스트캠퍼스 챌린지 17일차

이노후 2022. 2. 9. 23:15
728x90
반응형

오늘의 강의는 어제에 이어 잔차 분석에 대한 설명으로 시작되었다.

 

어제는 정상성과 정규분포에 대한 설명을 이어갔고 오늘은 자기상관과 등분산성의 대한 설명을 이어나갈 것으로 예상된다.

 

먼저 자기상관 테스트인데 4가설 방법중 륭 박스와 더빈 왓슨이 가장 많이 쓰인다고 한다.

 

귀무가설은 자기상관이 0이다.(존재하지 않는다) / 대립가설 0이 아니다.(존재한다)

 

더빈왓슨은 륭 박스와 가설은 동일하나 의사결정을 륭박스나 다른 가설들은 유의수준과 P-value를 고려하지만 더빈왓슨은 검정통계량을 이용한다는 점이다.

 

검정 통계량은 0~4 사이의 값으로 측정되는데 0은 양의 자기상관 / 4는 음의 자기상관이 존재한다고 한다.

 

왼쪽은 강의를 들으며 블로그에 메모를 하는 중이고 오른쪽 화면은 강의화면이다.

 

다음은 등분산성이다.

 

등분산성은 3가지 검증이 있지만 가장 많이 쓰이는 것은 Goldfeld–Quandt test 이다.

 

귀무가설은 데이터가 Homoscedasticity 상태이다(등분산이다) / 대립가설은 Heteroscedasticity상태이다(등분산이 아니다 or 발산하는 분산이다) 로 설정하고 검증을 진행한다.

 

의사결정은 다른 검증들과 동일하게 P-value와 유의수준을 비교하여 진행한다.

 

왼쪽은 강의자료이고 오른쪽 화면은 강의 화면이다.

 

그림과 같이 해당 등분산성 테스트의 결과를 확인하고 의사결정 방식에 따라 검증을 할 수 있는 것을 확인하였다.

 

다음 강의부터는 새로운 챕터를 들어갈 것 같다.

 

이러한 잔차 검증에서 4가지를 꼭 테스트하고 넘어가야 좋은 모델을 구축할 것이라 생각된다.

 

 

 

 

※ 본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성었습니다. 

 

※ 관련 링크 : https://bit.ly/37BpXiC

728x90
반응형