데이터를 기반으로

패스트캠퍼스 챌린지 11일차 본문

스터디/패스트캠퍼스

패스트캠퍼스 챌린지 11일차

이노후 2022. 2. 3. 01:20
728x90
반응형

오늘의 강의는 어제에 이어서 실습으로 진행되었다.

 

실습에 앞서 이론적인 설명을 진행해주셨다. 기존까지는 시계열 데이터에 관련된 설명과 실습이 이어져 나갔지만 오늘의 이론 설명은 비시계열 데이터에 관련된 설명으로 시작되었다.

 

일반적으로 모델의 학습과 평가에 대한 데이터 분리에 대한 설명으로 시작되었다. 비시계열 데이터는 Training dataset 과 Test dataset 으로 데이터를 나눈다. 일반적으로 Training dataset은 학습 데이터로 모델의 학습을 위한 데이터셋이고 Test dataset은 모델이 잘 학습되었는지 평가를 하기 위한 데이터 셋이다.

 

보통 데이터가 많은 경우도 있지만 적은 경우도 많기 때문에 이러한 1회성의 학습과 평가를 진행하지 않고 여러차례 학습과 평가를 반복하며 모델의 정확도와 성능을 올리는 작업을 한다.

 

해당 이론에 대한 설명은 교차검증에 대한 설명이 이어졌다. K-교차검증이란 데이터셋을 K개로 분할한뒤 순서대로 학습과 평가를 번갈아가면서 하며 평균적인 정확도와 성능을 체크하는 방법이다.

 

왼쪽은 강의자료이고 오른쪽은 강의화면이다.

 

단, K-교차검증은 비복원으로 진행되는 점을 유의해야한다. 이러한 방법 말고도 K-fold, Random-subsamples 등 다양한 방법론들이 존재한다.

 

이러한 교차검증을 먼저 설명해준 이유는 시계열 데이터에서는 어떻게 사용되는가 해서 설명을 해주신 것이었다.

 

시계열 데이터에서는 시점을 기준으로 예측하기에  학습데이터 기준으로 가장 먼저 오는 평가데이터는 가장 예측이 잘된다. 하지만 그 이후 시점들은 점차 순차적으로 정확도가 떨어질 가능성이 높다.

 

하여, 시계열 데이터에서는 1스텝 교차검사와 2스텝 교차검사를 같이 진행한다.

 

왼쪽은 코딩화면이고 오른쪽은 강의화면이다.

 

이후 다시 실습으로 돌아와 데이터 셋을 훈련과 평가 셋으로 나눠야하는 부분을 진행했다.

 

시점이 Index로 잡혀있어 Index의 시점을 기준으로 데이터 셋을 split 하여 학습과 평가 데이터 셋을 구성할 수 있었다.

 

 

 

※ 본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성었습니다. 

 

※ 관련 링크 : https://bit.ly/37BpXiC

728x90
반응형