일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 파이썬
- 독서리뷰
- 딥러닝
- 리뷰
- 머신러닝
- 분석
- Ai
- 패캠챌린지
- 직장인인강
- 태국여행
- 상관분석
- 데이터분석
- EDA
- 직장인자기계발
- 데이터
- 에어플로
- correlation
- 자동매매프로그램
- 데이터 분석
- Python
- 파이썬을활용한시계열데이터분석A-Z올인원패키지
- DAGs
- 통계분석
- 방콕여행
- 패스트캠퍼스후기
- 패스트캠퍼스
- API
- airflow
- 활성화함수
- 빅데이터
- Today
- Total
목록파이썬을활용한시계열데이터분석A-Z올인원패키지 (49)
데이터를 기반으로
오늘은 약속이 있어 저녁에 강의가 힘들 것 같아 약속장소에 조금 일찍 나와 테블릿으로 수강을 하고 블로그 글을 작성한다. 테블릿은 강의화면이고 하단의 책은 요즘 내가 따로 보고 있는 분석책인데 비슷한 이론이 나오는 것을 확인해 같이 보고 있었다. 오늘은 여태 말한 전처리와 피처엔지니어링 후 결과가 어떻게 달라지는 지 비교해보는 강의로 시작되었다. 우선 회귀 결과인 R-Square부터 확인을 하며 시작되었다. 전처리를 한 경우 / 피처 엔지니어링을 한 경우 / 다중공선성을 제거한 경우 등 다양한 경우의 수로 모델의 결과를 비교해보았다. 비교 기준 수치는 어제와 동일한 MAE, MSE, MAPE 이었다. 전처리를 하고 피처엔지니어링을 하고 다중공선성을 제거한 마지막 모델이 가장 좋은 수치를 보여주었다. 이렇..
오늘은 어제의 다중공선성 부분에 대한 실습 코드로 강의가 시작되었다. 왼쪽 화면은 강의 자료 화면이고 오른쪽은 강의 화면이다. 일반적으로 독립변수들 간의 상관관계를 보고자할 때 corr함수를 써서 상관계수 수치를 확인한다. 본 강의에서는 사진에는 없지만 히트맵을 통해 각 변수들간의 상관계수를 시각화하여 확인했다. 우리는 시계열 데이터에 관해 진행을 할 예정이기에 자기상관을 확인하면 된다. 자기상관에 대한 그래프를 그린 것을 확인해보면 season / holiday / working day 등 다양한 관점의 데이터들을 추출하고 해당 데이터의 자기상관을 ACF를 그려보니 자기상관이 많은 것으로 보여졌다. 이러한 변수들을 수치화하하여 보기 위해 각 변수별로 VIF를 추출하는 코드들이 있다. 왼쪽 화면은 강의 ..
오늘의 강의는 다중공선성에 대한 이야기로 강의가 시작되었다. 다중공선성이란 X 독립변수들 끼리의 강한 상관관계가 있는 것을 의미한다. 이러한 다중공선성이 존재하는 데이터들을 기반으로 모델을 구축하게 되면 과적합이 일어날 가능성이 크다. 하여, 이를 해결하기 위해 크게 2가지 방법이 있다. 왼쪽 화면은 블로그에 직접 강의 내용을 정리하며 듣고 있는 화면이고 오른쪽 화면은 강의 화면이다. 1. VIF(Variance Inflation Factor) 변수 선택 → 해당 방법론은 독립변수를 다른 독립변수들로 선형 회귀한 성능을 의미하며, 이를 통해 상호 가장 의존적인 독립변수를 제거하는 법 VIF의 단계는 각 X 독립변수를 종속변수로 칭하고 회귀 분석을 각각 돌린다. 그 후 R-Square를 각각 확인하면서 값..
오늘의 강의는 2가지인데 하나는 condition number의 행렬관점의 코딩으로 설명해주는 강의와 번수간 스케일 차이 조정으로 시작되는 강의였다. condition number는 어제의 강의에서 실습 코딩으로 이어진 강의라 해당 게시물에서는 패스하겠다. 왼쪽은 강의 자료 화면이고 오른쪽 은 강의화면이다. 변수간 스케일링을 해주는 가장 큰 이유는 각각의 변수의 범위가 다르기 때문에 각 변수간의 비교가 어렵기 때문에 이를 비교할 수 있도록 범위를 동일하게 만들어주는 것이다. 스케일링을 하는 이유는 강의에서는 크게 2가지로 나누었다. 하드웨어 적인 측면으로는 메모리를 많이 잡아 먹어서인데 예를 들면 수치가 엄청 큰 데이터들의 연산을 진행하려면 메모리를 많이 잡아 먹는다. 이때 스케일링 후 연산을 진행하게 ..
오늘의 강의는 실습코드를 기반한 강의로 시작되었다. 어제 글을 보면 알겠지만 이론을 조금 설명해주는 시간을 가졌고 어제 설명했던 이론에 대한 실습 코드들을 기반한 강의들이 진행되었다. 우선 가장 먼저 이론에서 말했던 피처 엔지니어링 부분의 강의가 시작 되었다. 왼쪽 화면은 강의자료 화면이고 오른쪽 화면은 강의화면이다. 오른쪽 화면의 그래프를 보시면 위 아래 2개가 있는데 위는 train 데이터의 그래프이고 밑에는 test 데이터의 그래프이다. 보면 알겠지만 train 데이터는 상승추세였지만 test는 하락추세임을 볼 수 있다. 이렇듯 train 데이터로 학습한 모델이 정 반대의 test 데이터의 추세를 예측하는 것은 쉽지 않은 일이다. 하여, 예측할 때 가장 최근 시점을 예측하고 해당 예측치를 기준으로 ..
오늘은 챕터 2번째인 시계열 데이터 분석 강의가 시작되었다. 강의 실습 을 진행하기 전 기존에 시계열 데이터 전처리에 관련된 이론 부분을 한번 리마인드하고 가는 시간을 가졌다. 왼쪽화면은 강의자료화면이고 오른쪽은 강의화면이다. 데이터를 어떻게 파생변수로 만들어 사용하는 지 예시를 들어주었고 데이터 성향에 따라 파생 변수를 생성하는 방법이 다양하다. 홈쇼핑 데이터같은 경우 물품에 따라 계절성을 타는 물품들이 있으니 계절을 구분할 수 있는 파생변수를 만들어서 진행하고 분기별로 의미가 있는 데이터는 분기를 구분하는 파생 변수를 만드는 식으로 진행한다. 이번 강의에서는 시계열 데이터의 관리 부분도 알려주었다. Time series DB관리의 링크도 첨부하여 공부할 수 있도록 알려주었다. 시계열 데이터를 적재하다..