일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 활성화함수
- 방콕여행
- 리뷰
- correlation
- 데이터분석
- Ai
- 딥러닝
- 통계분석
- 에어플로
- 분석
- DAGs
- Python
- 독서리뷰
- 패스트캠퍼스후기
- 상관분석
- 데이터 분석
- 패캠챌린지
- 머신러닝
- API
- 패스트캠퍼스
- EDA
- 직장인인강
- airflow
- 파이썬
- 직장인자기계발
- 자동매매프로그램
- 빅데이터
- 파이썬을활용한시계열데이터분석A-Z올인원패키지
- 데이터
- 태국여행
- Today
- Total
목록패스트캠퍼스후기 (50)
데이터를 기반으로
오늘은 챕터 2번째인 시계열 데이터 분석 강의가 시작되었다. 강의 실습 을 진행하기 전 기존에 시계열 데이터 전처리에 관련된 이론 부분을 한번 리마인드하고 가는 시간을 가졌다. 왼쪽화면은 강의자료화면이고 오른쪽은 강의화면이다. 데이터를 어떻게 파생변수로 만들어 사용하는 지 예시를 들어주었고 데이터 성향에 따라 파생 변수를 생성하는 방법이 다양하다. 홈쇼핑 데이터같은 경우 물품에 따라 계절성을 타는 물품들이 있으니 계절을 구분할 수 있는 파생변수를 만들어서 진행하고 분기별로 의미가 있는 데이터는 분기를 구분하는 파생 변수를 만드는 식으로 진행한다. 이번 강의에서는 시계열 데이터의 관리 부분도 알려주었다. Time series DB관리의 링크도 첨부하여 공부할 수 있도록 알려주었다. 시계열 데이터를 적재하다..
오늘 강의는 1차 데이터 분석 준비의 마지막 강의 였다. 사실 강의 마지막에 강사님이 혹여나 1챕터에서 이해가 안가거나 조금은 혼란스러웠던 부분이 있으면 다시 돌아가 리마인드하고 다시 체크하라고 하셨지만 패스트 캠퍼스 50일 챌린지를 위해서 강의를 더 들으면서 이어나가야하는 부분이 조금 아쉬운 것 같다. 강의를 다 들은 것을 보여줘야하니... 서론은 이쯤에서하고 데이터 로드 부터 모델링 후 지표 산출과 검증까지 쭉 한 사이클을 돌리며 강의를 수강해왔다. 조금은 암울하지만 마지막 모델링 후 스케일링 전 모델과 스케일링 후 모델을 비교해보면 스케일링 전 모델은 유의한 변수들도 많고 잔차도 추세가 없이 좋아보였다. 하지만 스케일링이 되지 않아 정규성도 틀어지고 설명력도 낮은 모델이 된 것다. 스케일링을 진행 ..
어제 강의까지는 이론 수업이었고 오늘 부터는 실습 코드를 이용한 강의가 진행되었다. 실습 코드의 8번 차례인 잔차 시각화에 관련된 실습이었다. 일반적인 데이터의 시각화를 진행해 왔지만 잔차에 대한 시각화를 해보는 것은 이번 실습을 기점으로 처음이다. 대부분 시각화를 하면서 겪었던 문제점들도 잔차 시각화에서도 동일하게 보여지는 부분이 많았다. 가장 먼저 범위 이슈이다. 이상치 하나 때문에 그래프 전체가 한쪽으로 쏠려서 보이는 적이 많다. 그렇기에 해당 이상치를 제거하고 시각화를 다시해보면 치우쳐지지 않은 그래프를 확인할 수 있다. 강의자님께서 강조해주신 부분은 잔차를 시각화할 때 가장 먼저 떠오르는 생각이 '이게 화이트 노이즈인가?' 라는 관점으로 그래프를 바라 보라고 하셨다. 화이트 노이즈이면 이상적인 ..
오늘의 강의는 어제에 이어 잔차 분석에 대한 설명으로 시작되었다. 어제는 정상성과 정규분포에 대한 설명을 이어갔고 오늘은 자기상관과 등분산성의 대한 설명을 이어나갈 것으로 예상된다. 먼저 자기상관 테스트인데 4가설 방법중 륭 박스와 더빈 왓슨이 가장 많이 쓰인다고 한다. 귀무가설은 자기상관이 0이다.(존재하지 않는다) / 대립가설 0이 아니다.(존재한다) 더빈왓슨은 륭 박스와 가설은 동일하나 의사결정을 륭박스나 다른 가설들은 유의수준과 P-value를 고려하지만 더빈왓슨은 검정통계량을 이용한다는 점이다. 검정 통계량은 0~4 사이의 값으로 측정되는데 0은 양의 자기상관 / 4는 음의 자기상관이 존재한다고 한다. 왼쪽은 강의를 들으며 블로그에 메모를 하는 중이고 오른쪽 화면은 강의화면이다. 다음은 등분산성..
오늘의 강의는 어제와 비슷하게 시작되었다. 비시계열 데이터에서 설명했던 잔차분석에 대한 시계열 데이터 관점으로의 설명인 강의였다. 그 중 오늘은 기존과 다르게 새롭게 들어보는 내용들이 많아 직접 블로그 글에 메모를 하며 강의를 들었다. 왼쪽 화면은 블로그 글을 작성하기 전에 메모장 역할로 메모하는 화면이고 오른쪽 화면은 강의화면이다. 시계열 모델링에서 잔차진단을 하기 위해 크게 4가지로 나뉜다. 1. 정상성 / 2. 정규분포 / 3. 자기상관 / 4. 등분산성 오늘의 강의에서는 1번 정상성과 2번 정규분포의 부분을 진행하였다. 가장 먼저 정상성이란 자기상관도 없고 등분산성을 있는 케이스를 의미한다고 한다. 한마디로 '정상성 테스트' 에 대한 설명은 자기상관과 등분산성을 하나로 아우른다 라는 의미라고 한다..
오늘의 강의는 여태 진행되었던 비시계열에 대한 강의를 한번 쭉 진행 후 다시 시계열 데이터의 관점으로 바라보는 강의로 시작되었다. 월요일은 다시 자취방으로 돌아와 듀얼모니터로 실습파일을 보며 강의를 시청했다. 오늘은 비시계열 데이터에서 잔차분석에 해당하는 파트를 시계열 데이터 관점으로 바라보며 설명을 해주었다. 이전에 시계열 데이터 분석을 진행했을 때 백색소음(White Noise)라는 단어를 들어본 적이 있다. 정확한 개념은 몰랐지만 오늘 강의를 듣고 개념이 조금 잡혔다. 우리가 실제 관측되는 데이터(표본데이터)와 예측치 사이의 차이를 잔차라고 한다. 해당 잔차가 정규분포를 띄며 상관성이 없는 것이 해당 모델의 개선의 여지가 없음을 의미한다. 먼저 잔차 부분을 보면 잔차의 정규분포인지 아닌지 판별하는 ..