일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 분석
- 파이썬
- 데이터
- EDA
- Python
- 독서리뷰
- 상관분석
- DAGs
- correlation
- 딥러닝
- Ai
- 리뷰
- 통계분석
- 활성화함수
- 에어플로
- 방콕여행
- 직장인인강
- 패캠챌린지
- 머신러닝
- 파이썬을활용한시계열데이터분석A-Z올인원패키지
- 데이터분석
- API
- 직장인자기계발
- 빅데이터
- 데이터 분석
- airflow
- 패스트캠퍼스후기
- 자동매매프로그램
- 태국여행
- 패스트캠퍼스
- Today
- Total
목록패스트캠퍼스후기 (50)
데이터를 기반으로
오늘은 약속이 있어 저녁에 강의가 힘들 것 같아 약속장소에 조금 일찍 나와 테블릿으로 수강을 하고 블로그 글을 작성한다. 테블릿은 강의화면이고 하단의 책은 요즘 내가 따로 보고 있는 분석책인데 비슷한 이론이 나오는 것을 확인해 같이 보고 있었다. 오늘은 여태 말한 전처리와 피처엔지니어링 후 결과가 어떻게 달라지는 지 비교해보는 강의로 시작되었다. 우선 회귀 결과인 R-Square부터 확인을 하며 시작되었다. 전처리를 한 경우 / 피처 엔지니어링을 한 경우 / 다중공선성을 제거한 경우 등 다양한 경우의 수로 모델의 결과를 비교해보았다. 비교 기준 수치는 어제와 동일한 MAE, MSE, MAPE 이었다. 전처리를 하고 피처엔지니어링을 하고 다중공선성을 제거한 마지막 모델이 가장 좋은 수치를 보여주었다. 이렇..
오늘은 어제의 다중공선성 부분에 대한 실습 코드로 강의가 시작되었다. 왼쪽 화면은 강의 자료 화면이고 오른쪽은 강의 화면이다. 일반적으로 독립변수들 간의 상관관계를 보고자할 때 corr함수를 써서 상관계수 수치를 확인한다. 본 강의에서는 사진에는 없지만 히트맵을 통해 각 변수들간의 상관계수를 시각화하여 확인했다. 우리는 시계열 데이터에 관해 진행을 할 예정이기에 자기상관을 확인하면 된다. 자기상관에 대한 그래프를 그린 것을 확인해보면 season / holiday / working day 등 다양한 관점의 데이터들을 추출하고 해당 데이터의 자기상관을 ACF를 그려보니 자기상관이 많은 것으로 보여졌다. 이러한 변수들을 수치화하하여 보기 위해 각 변수별로 VIF를 추출하는 코드들이 있다. 왼쪽 화면은 강의 ..
오늘의 강의는 다중공선성에 대한 이야기로 강의가 시작되었다. 다중공선성이란 X 독립변수들 끼리의 강한 상관관계가 있는 것을 의미한다. 이러한 다중공선성이 존재하는 데이터들을 기반으로 모델을 구축하게 되면 과적합이 일어날 가능성이 크다. 하여, 이를 해결하기 위해 크게 2가지 방법이 있다. 왼쪽 화면은 블로그에 직접 강의 내용을 정리하며 듣고 있는 화면이고 오른쪽 화면은 강의 화면이다. 1. VIF(Variance Inflation Factor) 변수 선택 → 해당 방법론은 독립변수를 다른 독립변수들로 선형 회귀한 성능을 의미하며, 이를 통해 상호 가장 의존적인 독립변수를 제거하는 법 VIF의 단계는 각 X 독립변수를 종속변수로 칭하고 회귀 분석을 각각 돌린다. 그 후 R-Square를 각각 확인하면서 값..
오늘의 강의는 2가지인데 하나는 condition number의 행렬관점의 코딩으로 설명해주는 강의와 번수간 스케일 차이 조정으로 시작되는 강의였다. condition number는 어제의 강의에서 실습 코딩으로 이어진 강의라 해당 게시물에서는 패스하겠다. 왼쪽은 강의 자료 화면이고 오른쪽 은 강의화면이다. 변수간 스케일링을 해주는 가장 큰 이유는 각각의 변수의 범위가 다르기 때문에 각 변수간의 비교가 어렵기 때문에 이를 비교할 수 있도록 범위를 동일하게 만들어주는 것이다. 스케일링을 하는 이유는 강의에서는 크게 2가지로 나누었다. 하드웨어 적인 측면으로는 메모리를 많이 잡아 먹어서인데 예를 들면 수치가 엄청 큰 데이터들의 연산을 진행하려면 메모리를 많이 잡아 먹는다. 이때 스케일링 후 연산을 진행하게 ..
오늘 강의는 어제 중간까지 보다 이어지는 내용이다. 어제 시계열 데이터에 대한 전처리의 결과부분이다. 분기, 월 등 단순한 로직으로 값을 대체하여 모델링까지 진행을 해보면 설명력은 조금 떨어져도 데이터 자체의 유의미한 변수들이 많아졌다. 또한 이후 정상성, 자기상관 등 다양한 관점으로 확인을 해보니 Outlier도 없고 좀 더 정확도도 높은 현실적인 그래프들이 그려지는 것을 볼 수 있었다. 왼쪽화면은 강의자료 화면이고 오른쪽 화면은 강의 화면이다. 이어서 오늘의 새로운 강의는 Condition Number에 관련된 강의로 시작되었다. 왼쪽화면은 강의자료 화면이고 오른쪽 화면은 강의 화면이다. train과 test의 성능을 향상시켜야하지만 이를 같이 향상하는게 목표이지만 두 개다 동시에 성능을 향상시키기에..
오늘의 강의는 실습코드를 기반한 강의로 시작되었다. 어제 글을 보면 알겠지만 이론을 조금 설명해주는 시간을 가졌고 어제 설명했던 이론에 대한 실습 코드들을 기반한 강의들이 진행되었다. 우선 가장 먼저 이론에서 말했던 피처 엔지니어링 부분의 강의가 시작 되었다. 왼쪽 화면은 강의자료 화면이고 오른쪽 화면은 강의화면이다. 오른쪽 화면의 그래프를 보시면 위 아래 2개가 있는데 위는 train 데이터의 그래프이고 밑에는 test 데이터의 그래프이다. 보면 알겠지만 train 데이터는 상승추세였지만 test는 하락추세임을 볼 수 있다. 이렇듯 train 데이터로 학습한 모델이 정 반대의 test 데이터의 추세를 예측하는 것은 쉽지 않은 일이다. 하여, 예측할 때 가장 최근 시점을 예측하고 해당 예측치를 기준으로 ..