일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 활성화함수
- correlation
- 딥러닝
- 파이썬을활용한시계열데이터분석A-Z올인원패키지
- 분석
- DAGs
- Python
- Ai
- 에어플로
- 직장인인강
- airflow
- 자동매매프로그램
- 리뷰
- 빅데이터
- 직장인자기계발
- 파이썬
- 데이터
- 데이터분석
- 머신러닝
- 챗지피티
- 패캠챌린지
- 패스트캠퍼스
- 태국여행
- 패스트캠퍼스후기
- 방콕여행
- 데이터 분석
- 독서리뷰
- API
- 상관분석
- EDA
- Today
- Total
데이터를 기반으로
패스트캠퍼스 챌린지 40일차 본문
오늘의 강의는 등분산이 아닌 데이터 정상화 방법 이해하기라는 것으로 시작했다.
왼쪽 화면은 강의 자료 화면이고 오른쪽 화면은 강의 화면이다.
시간이 흐를 수록 등분산성이 일정하지 않거나 하나의 추세가 있거나 하면 비정상성인 케이스라고 봐왔다.
즉, 우리는 추세나 분산이나 이러한 것들을 정상을 만드는 것이 목표인데 이번 시간에는 로그변환과 차분, Box-Cox 변환 총 3가지를 공부할 것이다.
우선 로그변환부터 보면 일반적으로 구글링을 해보면 시간이 흐를 수록 값이 증가하는 그래프이다.
y대신 로그 y를 사용하여 모델링을 하고 예측을 한 뒤 다시 로그변환을 풀어 y를 보는 것이다. 해당 로직은 비정상성일 때 정상성으로 바꾼 뒤 모델링하고 다시 예측한 뒤 다시 비정상성으로 바꾸는 과정과 동일하다.
로그 변환은 기존의 y 그래프가 시간이 갈 수록 증가하는 추세가 있는 그래프라면 그 증가폭이 로그 변환을 하면 줄어든다는 것이다. 기존보다 증가폭이 줄어들어 기울기가 줄어든다고 생각하면 된다.
한마디로 분산이 일정해지는 것으로 봐도 무방하다.
이번 강의는 수학적 증명에 대한 강의로 이어져서 이해만 하고 넘어가는 시간을 가졌다.
그러고 이번엔 2번째인 차분에 대한 설명인데 차분은 계절성을 제거하는 효과가 있다.
왼쪽 화면은 강의 자료 화면이고 오른쪽 화면은 강의 화면이다.
계절성 제거 방법에는 2가지가 있다. 첫 번째는 계절성을 직접 추정하여 제거하는 법이다.
이미 피처 엔지니어링에서 Yt를 통해 Xs(시즈널)를 추출하는 곳에서 했던 방식이다.
여기서 문제는 Xs가 시즈널을 즉, 계절성을 잘 반영했는지가 의문이다. 이러한 단점을 보완하기 위해 두 번째 방법은 차분을 적용하는 것이다.
차분에서 d는 시점인데 예를 들어 d가 1이면 1만큼의 시점의 차이를 적용하는 것이다.
※ 본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성었습니다.
※ 관련 링크 : https://bit.ly/37BpXiC
'스터디 > 패스트캠퍼스' 카테고리의 다른 글
패스트캠퍼스 챌린지 42일차 (0) | 2022.03.06 |
---|---|
패스트캠퍼스 챌린지 41일차 (0) | 2022.03.05 |
패스트캠퍼스 챌린지 39일차 (0) | 2022.03.03 |
패스트캠퍼스 챌린지 38일차 (0) | 2022.03.02 |
패스트캠퍼스 챌린지 37일차 (0) | 2022.03.01 |