일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 | 31 |
- 딥러닝
- 머신러닝
- airflow
- 데이터 분석
- correlation
- 직장인자기계발
- 패캠챌린지
- 상관분석
- 패스트캠퍼스후기
- 패스트캠퍼스
- DAGs
- 직장인인강
- 파이썬
- 방콕여행
- 빅데이터
- Ai
- 데이터
- 독서리뷰
- API
- 파이썬을활용한시계열데이터분석A-Z올인원패키지
- 데이터분석
- 에어플로
- 자동매매프로그램
- 리뷰
- 통계분석
- 태국여행
- 활성화함수
- Python
- 분석
- EDA
- Today
- Total
목록스터디 (63)
데이터를 기반으로
이번 강의는 저번 강의에 이어서 비정상성 데이터를 정상성으로 변환하여 예측 후 비정상성으로 다시 바꾸는 과정에 대한 설명으로 시작되었다. 왼쪽 화면은 강의 자료이고 오른쪽 화면은 강의 화면이다. 정상성의 대표 알고리즘은 백색소음이라 했고 비정상 프로세스를 대표하는 것은 랜덤 워크(Random Walk)라는 알고리즘이라 한다. 랜덤 워크는 랜덤하게 어떤 방향으로 이동할지 모르는 것을 랜덤워크라고 한다. 왼쪽 화면의 예제 그래프를 보면 어디로 갈지 방향성이 난해한 것들을 확인할 수 있다. 차분은 바로 이전 시점과 현재시점의 차이를 말한다. 차분은 Yt의 증가량이라고 본다. 차분은 보통 특정 범위에서 일정하게 나온다. 이렇게 차분을 한 값이 정상성을 따르고 그 이후 다시 비정상성으로 변환하려면 누적합을 진행해..
오늘의 강의는 약정상성과 강정상성의 강의인 어제 내용과 이어지는 강의였다. 어제 정상성에서는 시간이 흘러도 통계적인 특성이 달라지지 않는 것을 의미한다 했지만 실제 데이터가 시간이 흘러도 일정한 평균과 분산과 표준편차 등을 가지기는 힘든일이다. 그래서 약정상성과 강정상성을 나누어 보고자하는 것이다. 왼쪽 화면은 강의 자료이고 오른쪽 화면은 강의 화면이다. 강정상성의 가장 대표적인 예시는 백색잡음(White Noise)이다. 이상적인 데이터인 백색잡음 데이터는 강정상성의 예시이지만 이러한 데이터를 분석하는 것은 크게 의미가 있지 않다. 이유는 이렇게 시간이 흘러도 일정한 데이터를 분석해서 어떤 의미가 있겠는가? 이러한 부분 때문에 해당 데이터의 중점을 덜 두는 이유라고 한다. 아무튼, 백색잡음은 정규분포이..
오늘은 약속이 있어 저녁에 강의가 힘들 것 같아 약속장소에 조금 일찍 나와 테블릿으로 수강을 하고 블로그 글을 작성한다. 테블릿은 강의화면이고 하단의 책은 요즘 내가 따로 보고 있는 분석책인데 비슷한 이론이 나오는 것을 확인해 같이 보고 있었다. 오늘은 여태 말한 전처리와 피처엔지니어링 후 결과가 어떻게 달라지는 지 비교해보는 강의로 시작되었다. 우선 회귀 결과인 R-Square부터 확인을 하며 시작되었다. 전처리를 한 경우 / 피처 엔지니어링을 한 경우 / 다중공선성을 제거한 경우 등 다양한 경우의 수로 모델의 결과를 비교해보았다. 비교 기준 수치는 어제와 동일한 MAE, MSE, MAPE 이었다. 전처리를 하고 피처엔지니어링을 하고 다중공선성을 제거한 마지막 모델이 가장 좋은 수치를 보여주었다. 이렇..
오늘은 어제의 다중공선성 부분에 대한 실습 코드로 강의가 시작되었다. 왼쪽 화면은 강의 자료 화면이고 오른쪽은 강의 화면이다. 일반적으로 독립변수들 간의 상관관계를 보고자할 때 corr함수를 써서 상관계수 수치를 확인한다. 본 강의에서는 사진에는 없지만 히트맵을 통해 각 변수들간의 상관계수를 시각화하여 확인했다. 우리는 시계열 데이터에 관해 진행을 할 예정이기에 자기상관을 확인하면 된다. 자기상관에 대한 그래프를 그린 것을 확인해보면 season / holiday / working day 등 다양한 관점의 데이터들을 추출하고 해당 데이터의 자기상관을 ACF를 그려보니 자기상관이 많은 것으로 보여졌다. 이러한 변수들을 수치화하하여 보기 위해 각 변수별로 VIF를 추출하는 코드들이 있다. 왼쪽 화면은 강의 ..
오늘의 강의는 다중공선성에 대한 이야기로 강의가 시작되었다. 다중공선성이란 X 독립변수들 끼리의 강한 상관관계가 있는 것을 의미한다. 이러한 다중공선성이 존재하는 데이터들을 기반으로 모델을 구축하게 되면 과적합이 일어날 가능성이 크다. 하여, 이를 해결하기 위해 크게 2가지 방법이 있다. 왼쪽 화면은 블로그에 직접 강의 내용을 정리하며 듣고 있는 화면이고 오른쪽 화면은 강의 화면이다. 1. VIF(Variance Inflation Factor) 변수 선택 → 해당 방법론은 독립변수를 다른 독립변수들로 선형 회귀한 성능을 의미하며, 이를 통해 상호 가장 의존적인 독립변수를 제거하는 법 VIF의 단계는 각 X 독립변수를 종속변수로 칭하고 회귀 분석을 각각 돌린다. 그 후 R-Square를 각각 확인하면서 값..
오늘의 강의는 2가지인데 하나는 condition number의 행렬관점의 코딩으로 설명해주는 강의와 번수간 스케일 차이 조정으로 시작되는 강의였다. condition number는 어제의 강의에서 실습 코딩으로 이어진 강의라 해당 게시물에서는 패스하겠다. 왼쪽은 강의 자료 화면이고 오른쪽 은 강의화면이다. 변수간 스케일링을 해주는 가장 큰 이유는 각각의 변수의 범위가 다르기 때문에 각 변수간의 비교가 어렵기 때문에 이를 비교할 수 있도록 범위를 동일하게 만들어주는 것이다. 스케일링을 하는 이유는 강의에서는 크게 2가지로 나누었다. 하드웨어 적인 측면으로는 메모리를 많이 잡아 먹어서인데 예를 들면 수치가 엄청 큰 데이터들의 연산을 진행하려면 메모리를 많이 잡아 먹는다. 이때 스케일링 후 연산을 진행하게 ..