일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 | 31 |
- 에어플로
- 데이터 분석
- 데이터분석
- 상관분석
- 리뷰
- 데이터
- 독서리뷰
- 파이썬을활용한시계열데이터분석A-Z올인원패키지
- EDA
- 빅데이터
- 활성화함수
- Python
- 태국여행
- 패캠챌린지
- 자동매매프로그램
- correlation
- 패스트캠퍼스후기
- DAGs
- API
- 패스트캠퍼스
- 직장인인강
- 파이썬
- 직장인자기계발
- 머신러닝
- 방콕여행
- 딥러닝
- Ai
- 분석
- 통계분석
- airflow
- Today
- Total
목록분류 전체보기 (132)
데이터를 기반으로
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/Wfwew/btrtlTs2PEc/yKVbmBSLuTdvh8rKrfJZE0/img.png)
오늘 강의는 어제 중간까지 보다 이어지는 내용이다. 어제 시계열 데이터에 대한 전처리의 결과부분이다. 분기, 월 등 단순한 로직으로 값을 대체하여 모델링까지 진행을 해보면 설명력은 조금 떨어져도 데이터 자체의 유의미한 변수들이 많아졌다. 또한 이후 정상성, 자기상관 등 다양한 관점으로 확인을 해보니 Outlier도 없고 좀 더 정확도도 높은 현실적인 그래프들이 그려지는 것을 볼 수 있었다. 왼쪽화면은 강의자료 화면이고 오른쪽 화면은 강의 화면이다. 이어서 오늘의 새로운 강의는 Condition Number에 관련된 강의로 시작되었다. 왼쪽화면은 강의자료 화면이고 오른쪽 화면은 강의 화면이다. train과 test의 성능을 향상시켜야하지만 이를 같이 향상하는게 목표이지만 두 개다 동시에 성능을 향상시키기에..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/EaqZc/btrtb0k9CN2/KdpNija7b4J7xKOOw5llpK/img.png)
오늘의 강의는 실습코드를 기반한 강의로 시작되었다. 어제 글을 보면 알겠지만 이론을 조금 설명해주는 시간을 가졌고 어제 설명했던 이론에 대한 실습 코드들을 기반한 강의들이 진행되었다. 우선 가장 먼저 이론에서 말했던 피처 엔지니어링 부분의 강의가 시작 되었다. 왼쪽 화면은 강의자료 화면이고 오른쪽 화면은 강의화면이다. 오른쪽 화면의 그래프를 보시면 위 아래 2개가 있는데 위는 train 데이터의 그래프이고 밑에는 test 데이터의 그래프이다. 보면 알겠지만 train 데이터는 상승추세였지만 test는 하락추세임을 볼 수 있다. 이렇듯 train 데이터로 학습한 모델이 정 반대의 test 데이터의 추세를 예측하는 것은 쉽지 않은 일이다. 하여, 예측할 때 가장 최근 시점을 예측하고 해당 예측치를 기준으로 ..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/FRZOw/btrs9hUCloU/KtJeCIlw1LZZ0zJYF7PE01/img.png)
오늘은 챕터 2번째인 시계열 데이터 분석 강의가 시작되었다. 강의 실습 을 진행하기 전 기존에 시계열 데이터 전처리에 관련된 이론 부분을 한번 리마인드하고 가는 시간을 가졌다. 왼쪽화면은 강의자료화면이고 오른쪽은 강의화면이다. 데이터를 어떻게 파생변수로 만들어 사용하는 지 예시를 들어주었고 데이터 성향에 따라 파생 변수를 생성하는 방법이 다양하다. 홈쇼핑 데이터같은 경우 물품에 따라 계절성을 타는 물품들이 있으니 계절을 구분할 수 있는 파생변수를 만들어서 진행하고 분기별로 의미가 있는 데이터는 분기를 구분하는 파생 변수를 만드는 식으로 진행한다. 이번 강의에서는 시계열 데이터의 관리 부분도 알려주었다. Time series DB관리의 링크도 첨부하여 공부할 수 있도록 알려주었다. 시계열 데이터를 적재하다..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/xknyG/btrs3U7fsZU/F9gGDZn8Mi0Y0HkVtdO16K/img.jpg)
오늘 강의는 1차 데이터 분석 준비의 마지막 강의 였다. 사실 강의 마지막에 강사님이 혹여나 1챕터에서 이해가 안가거나 조금은 혼란스러웠던 부분이 있으면 다시 돌아가 리마인드하고 다시 체크하라고 하셨지만 패스트 캠퍼스 50일 챌린지를 위해서 강의를 더 들으면서 이어나가야하는 부분이 조금 아쉬운 것 같다. 강의를 다 들은 것을 보여줘야하니... 서론은 이쯤에서하고 데이터 로드 부터 모델링 후 지표 산출과 검증까지 쭉 한 사이클을 돌리며 강의를 수강해왔다. 조금은 암울하지만 마지막 모델링 후 스케일링 전 모델과 스케일링 후 모델을 비교해보면 스케일링 전 모델은 유의한 변수들도 많고 잔차도 추세가 없이 좋아보였다. 하지만 스케일링이 되지 않아 정규성도 틀어지고 설명력도 낮은 모델이 된 것다. 스케일링을 진행 ..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/cGOvlh/btrs67EA859/kmjMo4o0i4PZFufFquIp90/img.png)
어제에 이어서 실습 강의가 진행되었다. 이번에는 검증 통계량과 P-value 등을 추출하여 검증단계의 프로세스를 진행하는 실습 코드들을 설명해주는 강의었다. 왼쪽은 강의자료화면이고 오른쪽은 강의화면이다. 화면을 보시면 왼쪽의 긴 코드들 하나하나를 설명해주었다. 정상성을 표현하는 부분 등분산성을 표현하는 부분 각각 코드에 반영되어 해당 부분을 수정해서 작업을 진행할 수 있도록 코드가 짜여져있었다. 각 통계량 마다 lag를 조절할 수 있고 함수처럼 변형하며 사용할 수 있도록 코드가 짜여져있어 이후 분석을 할 때 사용하기 편해보였다. 왼쪽은 강의자료화면이고 오른쪽은 강의화면이다. 왼쪽 화면을 보시면 해당 검정통계량 및 시각화를 통해 4가지의 검증을 나온 결과를 보고 각각의 기준 가설을 보며 통계량과 비교하며 ..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/ehK5Vb/btrs2sBkjbq/IJiEs8zkVgkmU73dJdsuD0/img.jpg)
어제 강의까지는 이론 수업이었고 오늘 부터는 실습 코드를 이용한 강의가 진행되었다. 실습 코드의 8번 차례인 잔차 시각화에 관련된 실습이었다. 일반적인 데이터의 시각화를 진행해 왔지만 잔차에 대한 시각화를 해보는 것은 이번 실습을 기점으로 처음이다. 대부분 시각화를 하면서 겪었던 문제점들도 잔차 시각화에서도 동일하게 보여지는 부분이 많았다. 가장 먼저 범위 이슈이다. 이상치 하나 때문에 그래프 전체가 한쪽으로 쏠려서 보이는 적이 많다. 그렇기에 해당 이상치를 제거하고 시각화를 다시해보면 치우쳐지지 않은 그래프를 확인할 수 있다. 강의자님께서 강조해주신 부분은 잔차를 시각화할 때 가장 먼저 떠오르는 생각이 '이게 화이트 노이즈인가?' 라는 관점으로 그래프를 바라 보라고 하셨다. 화이트 노이즈이면 이상적인 ..