데이터를 기반으로

패스트캠퍼스 챌린지 22일차 본문

스터디/패스트캠퍼스

패스트캠퍼스 챌린지 22일차

이노후 2022. 2. 14. 23:24
728x90
반응형

오늘의 강의는 실습코드를 기반한 강의로 시작되었다.

 

어제 글을 보면 알겠지만 이론을 조금 설명해주는 시간을 가졌고 어제 설명했던 이론에 대한 실습 코드들을 기반한 강의들이 진행되었다.

 

우선 가장 먼저 이론에서 말했던 피처 엔지니어링 부분의 강의가 시작 되었다.

 

왼쪽 화면은 강의자료 화면이고 오른쪽 화면은 강의화면이다.

 

오른쪽 화면의 그래프를 보시면 위 아래 2개가 있는데 위는 train 데이터의 그래프이고 밑에는 test 데이터의 그래프이다.

보면 알겠지만 train 데이터는 상승추세였지만 test는 하락추세임을 볼 수 있다. 이렇듯 train 데이터로 학습한 모델이 정 반대의 test 데이터의 추세를 예측하는 것은 쉽지 않은 일이다.

 

하여, 예측할 때 가장 최근 시점을 예측하고 해당 예측치를 기준으로 학습하고 그 다음 시점의 데이터를 예측하고 이 작업을 반복하는 프로세스를 거치는 방법론도 있다고 했다.

 

추가로 단순하게 1년을 기준으로 상반기/하반기 또는 분기 별로 시점에 맞게 예측을 하는 것은 데이터의 스케일이 달라 동일한 수치로 대입을 하면 뚝 떨어지는 그래프를 확인하게 된다.

 

이러한 문제점들이 있을 때 어떻게 피처엔지니어링을 해야하는지 계속해서 강의에서 설명을 해준다.

 

동일한 작년도 기간의 데이터를 대입할 때 윤달에 대한 문제가 있는 것을 알게되었다.

 

왼쪽 화면은 강의자료 화면이고 오른쪽 화면은 강의화면이다.

 

강사님은 윤달때문에 윤달을 기점으로 전과 후를 나누어서 전처리를 진행한다고 하셨다. 이와 같이 다양한 전처리 방법이 있는 것을 알게되었다.

 

 

 

※ 본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성었습니다. 

 

※ 관련 링크 : https://bit.ly/37BpXiC

728x90
반응형