일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 | 31 |
- 패캠챌린지
- 직장인자기계발
- correlation
- 분석
- 상관분석
- 파이썬
- EDA
- 빅데이터
- 데이터 분석
- 데이터분석
- airflow
- 에어플로
- 직장인인강
- DAGs
- 독서리뷰
- 통계분석
- 자동매매프로그램
- 방콕여행
- 머신러닝
- 패스트캠퍼스
- Python
- 파이썬을활용한시계열데이터분석A-Z올인원패키지
- 딥러닝
- API
- 데이터
- 태국여행
- 패스트캠퍼스후기
- Ai
- 리뷰
- 활성화함수
- Today
- Total
데이터를 기반으로
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/bCvEgn/btrtsEAUf2f/orXbAYUl4E1EhpjgCw24QK/img.png)
도서명 : Machine Learning and Data Science Blueprints for Finance(금융 전략을 위한 머신러닝) 출판사 : 한빛미디어 지은이 : 하리움 탓샛(Hariom Tatsat) / 사힐 푸리(Sahil Puri) / 브래드 루카보(Brad Lookabaugh) 옮긴이 : 김한상 펴낸이 : 김태헌 독서 기간 : 2022-02-07 ~ 2022-02-22 "한빛미디어 활동을 위해서 책을 제공받아 작성된 서평입니다." 나는 책을 받는 2월 7일(월요일) 퇴근 후 바로 카페로 달려갔다. 도저히 집에서 해당 도서를 접하기 어려워 코로나라는 시국에 위험하지만 마스크를 잘 착용하고 방역수칙을 최대한 지키는 선에서 두근두근 설레는 마음으로 카페로 향했다. 겉 표지부터가 너무나 아름다..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/cBeTRO/btrtMKBXg3Q/deOkRFjb74IAbpyZbFkNhK/img.png)
오늘의 강의는 약정상성과 강정상성의 강의인 어제 내용과 이어지는 강의였다. 어제 정상성에서는 시간이 흘러도 통계적인 특성이 달라지지 않는 것을 의미한다 했지만 실제 데이터가 시간이 흘러도 일정한 평균과 분산과 표준편차 등을 가지기는 힘든일이다. 그래서 약정상성과 강정상성을 나누어 보고자하는 것이다. 왼쪽 화면은 강의 자료이고 오른쪽 화면은 강의 화면이다. 강정상성의 가장 대표적인 예시는 백색잡음(White Noise)이다. 이상적인 데이터인 백색잡음 데이터는 강정상성의 예시이지만 이러한 데이터를 분석하는 것은 크게 의미가 있지 않다. 이유는 이렇게 시간이 흘러도 일정한 데이터를 분석해서 어떤 의미가 있겠는가? 이러한 부분 때문에 해당 데이터의 중점을 덜 두는 이유라고 한다. 아무튼, 백색잡음은 정규분포이..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/JrIYy/btrtITMj0Oy/qrkh7SCnjTZ7iKqYBSkVd1/img.jpg)
오늘은 약속이 있어 저녁에 강의가 힘들 것 같아 약속장소에 조금 일찍 나와 테블릿으로 수강을 하고 블로그 글을 작성한다. 테블릿은 강의화면이고 하단의 책은 요즘 내가 따로 보고 있는 분석책인데 비슷한 이론이 나오는 것을 확인해 같이 보고 있었다. 오늘은 여태 말한 전처리와 피처엔지니어링 후 결과가 어떻게 달라지는 지 비교해보는 강의로 시작되었다. 우선 회귀 결과인 R-Square부터 확인을 하며 시작되었다. 전처리를 한 경우 / 피처 엔지니어링을 한 경우 / 다중공선성을 제거한 경우 등 다양한 경우의 수로 모델의 결과를 비교해보았다. 비교 기준 수치는 어제와 동일한 MAE, MSE, MAPE 이었다. 전처리를 하고 피처엔지니어링을 하고 다중공선성을 제거한 마지막 모델이 가장 좋은 수치를 보여주었다. 이렇..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/bTtH6R/btrtHCYlBZE/eSNwHFsEhlPvqDqEsbgzoK/img.png)
오늘은 어제의 다중공선성 부분에 대한 실습 코드로 강의가 시작되었다. 왼쪽 화면은 강의 자료 화면이고 오른쪽은 강의 화면이다. 일반적으로 독립변수들 간의 상관관계를 보고자할 때 corr함수를 써서 상관계수 수치를 확인한다. 본 강의에서는 사진에는 없지만 히트맵을 통해 각 변수들간의 상관계수를 시각화하여 확인했다. 우리는 시계열 데이터에 관해 진행을 할 예정이기에 자기상관을 확인하면 된다. 자기상관에 대한 그래프를 그린 것을 확인해보면 season / holiday / working day 등 다양한 관점의 데이터들을 추출하고 해당 데이터의 자기상관을 ACF를 그려보니 자기상관이 많은 것으로 보여졌다. 이러한 변수들을 수치화하하여 보기 위해 각 변수별로 VIF를 추출하는 코드들이 있다. 왼쪽 화면은 강의 ..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/dUOgre/btrtxpEXVEs/IfUf7IrAuKzxMT3WsvbUkk/img.png)
오늘의 강의는 다중공선성에 대한 이야기로 강의가 시작되었다. 다중공선성이란 X 독립변수들 끼리의 강한 상관관계가 있는 것을 의미한다. 이러한 다중공선성이 존재하는 데이터들을 기반으로 모델을 구축하게 되면 과적합이 일어날 가능성이 크다. 하여, 이를 해결하기 위해 크게 2가지 방법이 있다. 왼쪽 화면은 블로그에 직접 강의 내용을 정리하며 듣고 있는 화면이고 오른쪽 화면은 강의 화면이다. 1. VIF(Variance Inflation Factor) 변수 선택 → 해당 방법론은 독립변수를 다른 독립변수들로 선형 회귀한 성능을 의미하며, 이를 통해 상호 가장 의존적인 독립변수를 제거하는 법 VIF의 단계는 각 X 독립변수를 종속변수로 칭하고 회귀 분석을 각각 돌린다. 그 후 R-Square를 각각 확인하면서 값..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/dHXa6s/btrtwk365b5/6aOKSIL5v4taDXKGIFo4yK/img.png)
오늘의 강의는 2가지인데 하나는 condition number의 행렬관점의 코딩으로 설명해주는 강의와 번수간 스케일 차이 조정으로 시작되는 강의였다. condition number는 어제의 강의에서 실습 코딩으로 이어진 강의라 해당 게시물에서는 패스하겠다. 왼쪽은 강의 자료 화면이고 오른쪽 은 강의화면이다. 변수간 스케일링을 해주는 가장 큰 이유는 각각의 변수의 범위가 다르기 때문에 각 변수간의 비교가 어렵기 때문에 이를 비교할 수 있도록 범위를 동일하게 만들어주는 것이다. 스케일링을 하는 이유는 강의에서는 크게 2가지로 나누었다. 하드웨어 적인 측면으로는 메모리를 많이 잡아 먹어서인데 예를 들면 수치가 엄청 큰 데이터들의 연산을 진행하려면 메모리를 많이 잡아 먹는다. 이때 스케일링 후 연산을 진행하게 ..