데이터를 기반으로

패스트캠퍼스 챌린지 43일차 본문

스터디/패스트캠퍼스

패스트캠퍼스 챌린지 43일차

이노후 2022. 3. 7. 23:26
728x90
반응형

어제 강의는 실습 데이터를 기반으로 실제 정상성 테스트를 진행해보았고 나아가 랜덤워크 부분도 확인을 해보았다.

 

오늘의 강의는 예제 실습들을 더욱 세부적으로 확인해보며 정상성 변환에 대한 이해도를 높여보는 시간을 가지기로 했다.

 

왼쪽 화면은 강의자료 화면이고 오른쪽 화면은 강의 화면이다.

 

실습데이터는 항공사 승객수요 데이터로 진행을 했다.  정상성 테스트 전에 전처리 작업은 인덱싱을 월별로 조정해주는 작업을 진행했다. 

 

우선 왼쪽 화면의 하단 그래프를 보면 왼쪽 상단은 raw 데이터로 그린 그래프이고 오른쪽 상단은 로그 변환한 것이고 왼쪽 하단은 차분을 한 번 한 그래프이고 오른쪽 하단은 차분 1번 후 로그 변환을 진행한 그래프이다.

 

각각의 그래프를 유심히 보면 각자의 차이점이 눈에 보인다. 우선 가장 먼저 raw 데이터를 기반으로 그냥 그린 그래프에는 추세가 우상향이며 스케일이 계속 커지는 것을 알 수 있다.

 

그렇게 로그변환을 취한 오른쪽 상단 그래프를 보면 위아래로 왔다갔다 하는 스케일은 일정해지고 추세만 존재하는 것을 알 수 있다.

 

그리고 왼쪽 하단의 차분을 한 번 진행한 것은 스케일은 점점 커지고 있지만 추세는 없어진 것으로 보인다. 그리고 마지막 차분과 로그변환을 한 그래프를 보면 스케일도 일정하고 추세도 없는 것을 볼 수 있다.

 

왼쪽 화면은 강의자료 화면이고 오른쪽 화면은 강의 화면이다.

 

위는 그래프로만 판단했던 것을 각각 차분과 로그변환을 한것에 대한 ADF / KPSS / ACF를 각각 확인해보는 과정을 거쳐보았다.

 

단순 로그변환으로만 했을 때는 모든게 비정상성을 보였고 차분과 로그변환을 한 것은 ADF와 KPSS는 정상성을 보였다.

ACF는 점차 하락하는 추세가 남아있는 것을 확인할 수 있었다.

 

 

 

 

 

 

 

※ 본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성었습니다. 

 

※ 관련 링크 : https://bit.ly/37BpXiC

 
728x90
반응형