데이터를 기반으로

패스트캠퍼스 챌린지 40일차 본문

스터디/패스트캠퍼스

패스트캠퍼스 챌린지 40일차

이노후 2022. 3. 4. 22:38
728x90
반응형

오늘의 강의는 등분산이 아닌 데이터 정상화 방법 이해하기라는 것으로 시작했다.

 

왼쪽 화면은 강의 자료 화면이고 오른쪽 화면은 강의 화면이다.

 

시간이 흐를 수록 등분산성이 일정하지 않거나 하나의 추세가 있거나 하면 비정상성인 케이스라고 봐왔다.

 

즉, 우리는 추세나 분산이나 이러한 것들을 정상을 만드는 것이 목표인데 이번 시간에는 로그변환과 차분, Box-Cox 변환 총 3가지를 공부할 것이다.

 

우선 로그변환부터 보면 일반적으로 구글링을 해보면 시간이 흐를 수록 값이 증가하는 그래프이다.    

 

y대신 로그 y를 사용하여 모델링을 하고 예측을 한 뒤 다시 로그변환을 풀어 y를 보는 것이다. 해당 로직은 비정상성일 때 정상성으로 바꾼 뒤 모델링하고 다시 예측한 뒤 다시 비정상성으로 바꾸는 과정과 동일하다.

 

로그 변환은 기존의 y 그래프가 시간이 갈 수록 증가하는 추세가 있는 그래프라면 그 증가폭이 로그 변환을 하면 줄어든다는 것이다. 기존보다 증가폭이 줄어들어 기울기가 줄어든다고 생각하면 된다.

 

한마디로 분산이 일정해지는 것으로 봐도 무방하다.

 

이번 강의는 수학적 증명에 대한 강의로 이어져서 이해만 하고 넘어가는 시간을 가졌다.

 

그러고 이번엔 2번째인 차분에 대한 설명인데 차분은 계절성을 제거하는 효과가 있다.

 

왼쪽 화면은 강의 자료 화면이고 오른쪽 화면은 강의 화면이다.

 

계절성 제거 방법에는 2가지가 있다. 첫 번째는 계절성을 직접 추정하여 제거하는 법이다. 

 

이미 피처 엔지니어링에서 Yt를 통해 Xs(시즈널)를 추출하는 곳에서 했던 방식이다.

 

여기서 문제는 Xs가 시즈널을 즉, 계절성을 잘 반영했는지가 의문이다. 이러한 단점을 보완하기 위해 두 번째 방법은 차분을 적용하는 것이다. 

 

차분에서 d는 시점인데 예를 들어 d가 1이면 1만큼의 시점의 차이를 적용하는 것이다.

 

 

 

 

※ 본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성었습니다. 

 

※ 관련 링크 : https://bit.ly/37BpXiC

728x90
반응형