데이터를 기반으로

패스트캠퍼스 챌린지 49일차 본문

스터디/패스트캠퍼스

패스트캠퍼스 챌린지 49일차

이노후 2022. 3. 13. 19:35
728x90
반응형

어제의 강의는 ARMA를 실제 데이터에 적용하고 해석하는 시간을 가졌었다.

 

오늘은 ARMA 이외에 추가적인 독립변수를 반영하고 모델링하고 ARMAX의 한계를 이해하고 향후 방향성을 정리하는 시간을 가졌다.

 

왼쪽화면은 강의 자료 화면이고 오른쪽 화면은 강의 화면이다.

 

우선 회귀분석과 ARMA를 돌려서 비교를 해보고자 한다. 회귀를 돌려보니 정확도가 0.995가 나온 것으로 확인된다. 그리고 M2 통계량을 확인해보니 유의한것으로 확인되며 외도와 첨도, 잔차를 보면 정규분포를 따르는 것으로 보인다.

 

하지만, JB는 정규분포가 아니라고 이야기하고 있다. 실제로 그런지 한번 확인해봐야한다. 잔차의 그래프를 보니 ACF 가 높은 부분이 많고 PACF는 LAG(1~3) 부분의 상관이 높은 것이 몇개 확인되고 이후에 30, 40 쯤에 상당히 높은 부분이 보인다. 

 

왼쪽화면은 강의 자료 화면이고 오른쪽 화면은 강의 화면이다.

 

왼쪽 화면의 ACF와 PACF를 보면 ARMA(1,4)로 진행해야 하는 것을 판단할 수 있다. 

 

실습 자료 하단으로 내려가다 보면 ARMAX 사용법이 나오는데 ARMA 함수를 그대로 사용하고 해당 함수의 옵션값에 EXOG = X 로 값을 지정해줄 수 있다. X 는 추가로 사용할 독립변수 명을 넣으면 된다.

 

실습자료에서는 X를 M2 를 넣어서 사용하였다.

 

이렇게 지정하여 잔차분석을 진행해보면 통계치들이 모두 유의하게 나오고 ACF와 PACF가 훨씬 기존보다 안정적인 잔차그래프가 나온다. 그래프를 보면 1,1 로 그리는게 좋아보인다.

 

기존의 1,4 보다 1,1이 더 좋아보이게 나온다. 기존에 진행한것들도 그렇고 신규로 진행한 것들도 그렇고 ACF, PACF 를 그려보면 초기에는 괜찮지만 시간이 흐를 수록 끝에 가면 점차 불안정해지는 모습을 볼 수 있다.

 

이것은 ARMA는 백색소음을 이용하여 추세는 확실히 제거하였지만 계절성을 제거하지 못해서 그런 것이다.

 

그래서 우리가 궁극적으로 구현해야할 모델은 SARIMAX 이다.  SARIMAX를 예제로 그려보았는데 ACF, PACF 의 그래프들은 완전하게 백색소음을 유지하고 있는 것을 볼 수 있다.

 

 

 

 

 

※ 본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성었습니다. 

 

※ 관련 링크 : https://bit.ly/37BpXiC

728x90
반응형