일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 | 31 |
- 패스트캠퍼스
- 딥러닝
- 에어플로
- 패스트캠퍼스후기
- API
- Python
- 파이썬
- EDA
- Ai
- 리뷰
- 빅데이터
- correlation
- 패캠챌린지
- 머신러닝
- airflow
- 활성화함수
- 데이터 분석
- 통계분석
- 파이썬을활용한시계열데이터분석A-Z올인원패키지
- 자동매매프로그램
- 상관분석
- 데이터분석
- 방콕여행
- 직장인자기계발
- 분석
- 독서리뷰
- 직장인인강
- DAGs
- 태국여행
- 데이터
- Today
- Total
목록패스트캠퍼스 (50)
데이터를 기반으로
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/oeDxs/btruZQHEwgo/K2vpgI2NBpXuaIyJrJesd0/img.png)
이전 강의는 알고리즘 용어에 대한 정리를 하는 시간을 가졌었다. 이번 강의는 정상성 데이터에 초점을 맞춰서 어떻게 변환하는지와 그에 맞는 효과가 무엇인지 보는 시간을 가졌다. 정상성에 대한 이론적 이해와 실습의 관점을 한번에 설명한다고 한다. 왼쪽 화면은 강의 자료 화면이고 오른쪽 화면은 강의 화면이다. 우리는 여태 X에 대한 추세, 계절성, 더미, lag 등을 사용하며 정상성을 확인해 왔다. 하지만 Y에 대해 볼것이다 이제는 Y에 대한 정상성을 만들고자하는데 Y에서는 X에서 보던 추세, 계절성 등 없는 것이 정상이라고 한다. 그래프로 보면 비정상성은 어떠한 추세가 껴있고 정상성에는 추세가 없고 일정한 변동 폭으로 시간이 흘러도 동일하게 보여지면 정상성이라고 한다. 이는 추세가 있다고해서 예측을 못하는 ..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/Le87t/btruWkg956c/UCcPq0c1gr75kRH2SVHOtK/img.png)
어제의 강의는 분석 실습을 통해 데이터 마이닝 레퍼런스 알고리즘의 대한 성능을 확인하는 시간을 가져보았다. 오늘의 강의는 알고리즘 용어들을 정리하고 시계열 알고리즘 소개 방향에 대해 확립하는 시간을 가졌다. 왼쪽 화면은 강의 자료 화면이고 오른쪽 화면은 강의 화면이다. 일단 그림을 보시다 싶이 회귀분석은 선형과 비선형으로 가장 크게 나뉜다. 비선형이라 하면 데이터가 선형성을 띄고 있지 않는 것을 의미하는데 자세한 설명은 예전 강의에서 진행된 적이 있다. 보통 비선형은 모델을 구현하기 어려운 문제 중 하나이다. 하여 딥러닝 쪽을 이용하여 해결하는 것이 대부분이다. 하여, 보통 선형 회귀를 먼저 접근하게 된다. 선형 회귀에서 Multivariate와 Univariate로 나뉜다. Multivariate은 행..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/c7J4yb/btruQj3oR7p/6bcsP38IokLdrPH1IDFMEk/img.png)
오늘의 강의는 어제의 마지막 부분에 GBM을 이어 진행되었다. 앙상블은 CLT와 잔차진단을 함께 적용되는 알고리즘이라고 보면된다. 마지막 Boosting은 bias 를 줄이기 위해 과적합이 사라지긴 어려운 단점이 있다. 예전 강의에서 Variance와 Bias는 반비례 관계이기에 각각을 가장 적당하 만족하는 중간 점을 찾는 것이 중요하다는 강의가 있었다. 결론적으로 Variance를 줄이기 위해서는 CLT를 Bias를 줄이기 위해서는 Residual을 이용한다고 보면 된다. 이렇게가 저번 강의와 이어지는 강의 내용이고 오늘은 분석 실습을 통해 데이터 마이닝 레퍼런스 알고리즘들의 성능을 확인해보는 시간을 가져봤다. 왼쪽 화면은 강의 자료화면이고 오른쪽은 강의 화면이다. 코드들이 꽤 긴데 이러한 코드들을 하..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/cF2uzz/btruFfgPq0B/V0Kdt8f1mhyJL5HTYoquHk/img.png)
오늘의 강의는 어제에 이어 Bagging과 Boosting에 대한 알고리즘의 설명으로 강의가 시작되었다. 왼쪽 화면은 강의 자료 화면이고 오른쪽은 강의 화면이다. 오른쪽 강의 화면을 보면 해당 부분은 랜덤 포레스트에 대한 설명을 진행하고 있는 화면이다. 랜덤포레스트란 여러개의 의사 결정 나무 모델들을 기반으로 각각의 예측 확률의 평균으로 종합하여 모델을 운영하는 알고리즘이다. 어디서 많이 봤던 메커니즘이다. 과거 강의에서 CLT라고 중심극한정리라는 방법과 비슷한 메커니즘이다. Bagging 알고리즘은 CLT 개념을 반영한 알고리즘이라고 보면 된다. 이러한 CLT의 개념이 적용된 부분이라 앞단에 앙상블 메소드라고 Variance and Bias 에 관한 그림이 나왔던 부분에서 Bagging은 높은 Vari..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/Lle4E/btruAsGey3Q/eahZ7dmk41z6q1I1Lz2uxK/img.jpg)
오늘은 강의 들을 시간과 블로그 글을 쓸 여유가 안되어 지하철에서 수강하며 글을 써서 인증샷이 다소 협소한 점 이해부탁드립니다. 테블릿으로 강의를 들으며 블로그에 정리하는 중의 사진입니다. 사진상은 수강중인 화면입니다. 오늘의 강의는 Bagging 과 Boosting 알고리즘과 시계열 알고리즘의 비교에 대한 설명으로 시작되었다. 강사님께서는 이전 강의에서 Cost Function때문에 좀 더 구체적인 설명을 했었다고 한다. 우리는 일반적으로 Cost Function을 고려하지 않는다고 한다. 이유는 너무 알고리즘 자체에만 포커싱을 가지고 고민을 하기 때문이라고 한다. 하지만, 실질적으로 알고리즘 성능을 향상시키는 것은 Cost Function으로 인해 일어난다고 한다. 위 화면은 강의화면입니다. 우리가 ..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/lIvsw/btruqFfvQcn/ClYalANNFb4X356i7dz29k/img.jpg)
오늘의 강의는 어제 강의에 이어 정규화 방법론에 대한 이해도 향상과 해당 실습 코드를 돌려보는 시간이었다. 왼쪽 화면은 강의 자료 화면이고 오른쪽 화면은 강의 화면이다. 화면에 보이는 것은 하이퍼파라미터 특성에 대해 파악해보는 부분이다. 해당 화면에 보이는 그래프는 variable coefficients 라고 변수에 대한 상관을 보여지는 그래프 같다. X축에 각 변수명이 기재되어있고 오른쪽 부터 상관성이 높은 변수부터 왼쪽은 음수로서 상관성이 양의 상관인 변수가 나와있다. 해당 변수들 마다 모델에 미치는 영향도 즉, 계수를 수치화해서 그린 것과 동일한 의미로 보면 될 것 같다. 그렇게 릿지 부분에 대한 그래프를 이어서 보면 알파 값을 줄여주면 줄여줄 수록 계수에 수치가 점점 작아지는 것을 볼 수 있다. ..