일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 데이터 분석
- 패캠챌린지
- 파이썬
- Python
- 빅데이터
- 직장인자기계발
- 직장인인강
- 패스트캠퍼스후기
- DAGs
- 통계분석
- 방콕여행
- 머신러닝
- 자동매매프로그램
- 활성화함수
- 에어플로
- 데이터
- EDA
- 상관분석
- correlation
- 분석
- airflow
- API
- 독서리뷰
- 데이터분석
- Ai
- 딥러닝
- 리뷰
- 태국여행
- 패스트캠퍼스
- 파이썬을활용한시계열데이터분석A-Z올인원패키지
- Today
- Total
목록파이썬을활용한시계열데이터분석A-Z올인원패키지 (49)
데이터를 기반으로
어제의 강의에 이어 오늘은 MA부터 시작되었다. 데이터들의 전체적인 추세로 보는 하나의 지표인 MA가 데이터 분석적인 관점에서는 어떻게 사용되는지 확인할 수 있는 시간이었다. 오늘은 MA의 수식적은 증명과 이해로 강의가 시작되었다. 왼쪽 화면은 강의 자료 화면이고 오른쪽 화면은 강의 화면이다. 오늘은 MA에 대한 수식적인 증명을 진행한다고 한다. 해당 부분은 강의는 넘어가고 다음 강의부터 글을 남기고자 한다. (수식 증명에 대한 것은 딱히 글로 남길 수 있는 부분의 한계가 있기에..) 그렇게 다음 강의에서는 이동평균(MA) 알고리즘 실습으로 패턴을 이해하는 시간을 갖도록 했다. 실습에서는 Armaprocess 라는 함수를 통해 AR과 MA함수를 사용할 수 있다. 왼쪽 화면은 강의 자료 화면이고 오른쪽 화..
이제부터는 제대로된 시계열 알고리즘인 단순 선형 / 적분 선형 / 비선형 / 다변향 선형 확률 과정을 진행하고자 한다. 오늘의 강의는 단순 선형 확률과정의 방향과 백색잡음의 정의와 실습을 통해 이해도를 향상시키는 방향으로 진행되었다. 왼쪽은 강의 자료 화면이고 오른쪽은 강의 화면이다. 우선 일반 선형확률과정이란 시계열 데이터가 가우시안 백색 잡음의 현재값과 과거값의 선형 조합이라고 한다. 수식을 보면 백색잡음과 시점들의 특정한 비율을 곱한 것들의 무수한 합으로 보여진다. 가장 앞에 백색잡음이 존재하는 이유는 일반 선형확률과정의 세부적인 알고리즘 중 하나가 백색잡음이다. 이전에 봤던 개념이지만 리마인드 차원에서 한번 더 설명해주셨다. 잔차진단 중 한 가지이고 백색잡음은 정규분포이고 시간이 흘러도 평균이 0..
어제 강의는 실습 데이터를 기반으로 실제 정상성 테스트를 진행해보았고 나아가 랜덤워크 부분도 확인을 해보았다. 오늘의 강의는 예제 실습들을 더욱 세부적으로 확인해보며 정상성 변환에 대한 이해도를 높여보는 시간을 가지기로 했다. 왼쪽 화면은 강의자료 화면이고 오른쪽 화면은 강의 화면이다. 실습데이터는 항공사 승객수요 데이터로 진행을 했다. 정상성 테스트 전에 전처리 작업은 인덱싱을 월별로 조정해주는 작업을 진행했다. 우선 왼쪽 화면의 하단 그래프를 보면 왼쪽 상단은 raw 데이터로 그린 그래프이고 오른쪽 상단은 로그 변환한 것이고 왼쪽 하단은 차분을 한 번 한 그래프이고 오른쪽 하단은 차분 1번 후 로그 변환을 진행한 그래프이다. 각각의 그래프를 유심히 보면 각자의 차이점이 눈에 보인다. 우선 가장 먼저 ..
오늘의 강의는 어제에 이어 실습을 통해 정상성 테스트를 하는 부분을 이어서 진행했다. 왼쪽 화면은 강의 자료이자 실습화면이고 오른쪽 화면은 강의 화면이다. 어제에 이어서 실습코드를 실행해보니 ADF는 비정상성을 말하고 KPSS는 정상성을 말하고 ACF그래프를 보니 시간이 지나면서 점차 하강하는 추세가 보여진다. 이렇게 각각이 다른 정상성에 대해 말해주고 있기에 한가지 테스트에 의존하여 결정하면 안된다고 한다. 일반적으로 OLS로 진행했을 때와 차분을 했을 때 각각의 통계량과 ACF를 비교해보면 모두 다 값이 일치하게 나오진 않는다. 먼저 기본적으로 가공하지 않은 raw data를 보면 ADF, KPSS 각각 비정상성을 의미할 때가 많다. 간혹 raw data가 모두 정상성을 가질 수 있지만 확률적으로 매..
어제 강의는 차분에서 계절성을 제거하는 부분까지 진행하였다. 오늘의 강의는 차분에서 추세를 제거하는 부분부터 강의가 시작되었다. 왼쪽 화면은 강의 자료 화면이고 오른쪽 화면은 강의 화면이다. 차분에서 추세를 제거하는 방법은 크게 2가지가 있다. 그 중 첫번째는 추세를 추정하고 해당 추세를 제거하여 정상성을 확보하는 방법이다. 해당 방법은 계절성 제거하는 첫 번째 방법과 동일하게 사람의 주관적인 판단이 들어가는 부분이라 얼마나 잘 추세를 반영하여 제거했는지 확인하기 애매하다. 하여, 두 번째 방법을 사용하는데 해당 수식을 보면 계절성과 조금 다른 수식인데 d는 차분인데 처음 차분 1로 진행하고 추세가 사라지지 않았다면 d를 2로 두고 한번 더 적용하는 식으로 추세가 사라질 때 까지 해당 방법을 추세가 제거..
오늘의 강의는 등분산이 아닌 데이터 정상화 방법 이해하기라는 것으로 시작했다. 왼쪽 화면은 강의 자료 화면이고 오른쪽 화면은 강의 화면이다. 시간이 흐를 수록 등분산성이 일정하지 않거나 하나의 추세가 있거나 하면 비정상성인 케이스라고 봐왔다. 즉, 우리는 추세나 분산이나 이러한 것들을 정상을 만드는 것이 목표인데 이번 시간에는 로그변환과 차분, Box-Cox 변환 총 3가지를 공부할 것이다. 우선 로그변환부터 보면 일반적으로 구글링을 해보면 시간이 흐를 수록 값이 증가하는 그래프이다. y대신 로그 y를 사용하여 모델링을 하고 예측을 한 뒤 다시 로그변환을 풀어 y를 보는 것이다. 해당 로직은 비정상성일 때 정상성으로 바꾼 뒤 모델링하고 다시 예측한 뒤 다시 비정상성으로 바꾸는 과정과 동일하다. 로그 변환..