데이터를 기반으로

패스트캠퍼스 챌린지 5일차 본문

스터디/패스트캠퍼스

패스트캠퍼스 챌린지 5일차

이노후 2022. 1. 28. 22:13
728x90
반응형

오늘의 강의는 'ch03.데이터분석 준비하기 시계열 데이터패턴 추출' 이다.

 

이전에는 데이터 분석 전체에 대한 강의가 위주였다면 이제부터는 시계열 데이터에 관련된 관점으로 중점적인 강의가 시작되는 것 같다. 

 

일반적인 수치형 데이터의 전처리와는 다른 것을 확실히 느낀 것이 하나의 데이터를 주기의 관점으로 바라보는 것이 조금 달랐다.

 

일반적인 빈도를 카운팅 할 때도 일반적인 수치형 자료는 해당 값이 얼마나 빈번하게 나왔나를 카운팅하는 방식인데 시계열 데이터는 해당 데이틔 주기를 판단하여 1년이면 1 / 분기면 4 / 월이면 12 등 이러한 시계열적 관점으로 데이터의 빈도를 해석한다.

 

결측치에 대한 방법도 다양하다 이전 시점의 데이터로 대체하던지 아니면 이후에 오는 데이터로 또는 전체 값의 평균치를 넣는 등 다양한 결측치를 해결하는 방법들이 존재한다.

왼쪽은 강의자료 화면이고 오른쪽은 강의 화면이다.

 

 

예전 시계열 데이터 관련 강의를 들었을 때 가장 기초적인 부분이지만 확실한 이해가 부족했더는 부분이 추세성, 계절성 등에 대한 설명이었다.

 

추세성은 해당 데이터의 추세를 의미하고 계절성은 스케일이 일정하게 패턴이 나타나는 것을 말한다.

 

스케일이 동일하지 않게 주기적으로 일어나는 것을 주기라고 한다.

 

 

왼쪽은 강의자료 화면이고 오른쪽은 강의 화면이다.

 

 

파이썬에서는 이러한 추세성, 계절성, 주기 등을 한번에 제공하는 패키지가 있다고 한다.

 

화면에서 보이는 것과 같이 각각의 추세성 따로 계절성 따로 그래프로 뽑는게 아닌 한번에 4가지의 추세성, 계절성, 주기, 잔차 까지 볼 수 있게 제공하는 기능이 있다고 한다.

 

 

 

※ 본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성었습니다. 

 

※ 관련 링크 : https://bit.ly/37BpXiC

728x90
반응형