일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 패스트캠퍼스
- airflow
- 패캠챌린지
- 상관분석
- Python
- 분석
- 머신러닝
- 패스트캠퍼스후기
- EDA
- 데이터분석
- 태국여행
- 파이썬
- Ai
- 딥러닝
- 활성화함수
- 파이썬을활용한시계열데이터분석A-Z올인원패키지
- 리뷰
- 빅데이터
- 자동매매프로그램
- 데이터
- DAGs
- 직장인자기계발
- API
- 통계분석
- 직장인인강
- 데이터 분석
- correlation
- 방콕여행
- 에어플로
- 독서리뷰
- Today
- Total
목록패스트캠퍼스후기 (50)
데이터를 기반으로
오늘의 강의는 어제에 이어(모델링 평가지표에 대한 강의) 이론 강의가 진행되었다. 각 모델별 여러가지 지표가 존재하며 해당 모델을 평가하기 위해선 다양한 관점으로 모델을 바라봐야한다. 오늘 강의에서는 모델링을 하면 한번 정도 들었을 법한 Overfitting과 Underfitting에 관련된 이야기로 시작되었다. 한국어로는 과대적합, 과소적합이라고 부른다. 해당 모델이 잘 예측할 수 있도록 학습데이터를 기반으로 모델을 학습시켜 예측치를 뽑아내는 과정에서 학습데이터에 너무 편향되게 학습을 하여 새로운 데이터가 유입되었을 때 학습데이터에 편향된 예측치를 도출해낼 때 이러한 모델을 과대적합된 모델이라고 말할 수 있다. 단어만 보면 반대개념인 과소적합도 추측이 가능하다. 바로 학습데이터를 기반으로 모델이 학습이..
오늘의 강의는 어제에 이어서 진행되었다. 모델을 구축하고 나서 모델을 평가하는 지표로 여러가지가 사용된다. 이전에 비시계열 데이터의 다양한 모델들이 있었고 각각의 모델들 마다 각자 다른 목적을 위한 평가지표가 있다. 우리가 가장 먼저 모델이 얼만큼 예측을 하는지 측정하는 기본적인 지표는 정확도(Accuracy)이다. 정확도란 우리의 모델이 예측 데이터를 추출했을 때 실제 데이터를 얼만큼 예측하는지를 보여주는 지표이다. 정확도는 회귀와 분류 모두에서 사용되는 지표이지만 분류에서 좀 더 정확하게 보여지는 지표이다. 회귀에서는 RMSE, MSE, MAE 등 오차에 좀 더 가중치를 둔 지표들이 많다. 해당 예측치가 실제 데이터와 얼만큼 다른지 어느정도의 오차를 측정하는 지표들이다. 단순히 오차를 측정하는 것이 ..
오늘의 강의는 어제의 이론과 실습을 병행한 강의에서 이어져서 진행되었다. 어제 마지막에 Train과 Test 데이터 셋의 분류 비율 및 분류 방법에 대한 강의가 진행되었고 비시계열 모델에 대한 이론도 설명이 되었다. 그래서 오늘의 강의는 첫 순서는 회귀분석을 돌리고 난 후 결과에 대한 해석과 통계이론에 대한 설명으로 시작되었다. 왼쪽 화면은 코딩화면(강의자료화면)이고 오른쪽 화면은 강의화면이다. 우선 코딩화면을 보시다 싶이 저번에 4번을 지나치고 5번의 비시계열의 데이터셋 분리에 대해 설명이 진행되었다. 이후 오늘은 6번인데 6번은 회귀분석에 대한 코딩으로 시작되었다. 해당 예제 데이터를 회귀분석을 돌려 OLS를 통한 결과치를 해석하는 강의였다. 이론 강의시간에도 설명이 있었지만 회귀분석에서는 많은 통계..
오늘의 강의는 어제에 이어서 실습으로 진행되었다. 실습에 앞서 이론적인 설명을 진행해주셨다. 기존까지는 시계열 데이터에 관련된 설명과 실습이 이어져 나갔지만 오늘의 이론 설명은 비시계열 데이터에 관련된 설명으로 시작되었다. 일반적으로 모델의 학습과 평가에 대한 데이터 분리에 대한 설명으로 시작되었다. 비시계열 데이터는 Training dataset 과 Test dataset 으로 데이터를 나눈다. 일반적으로 Training dataset은 학습 데이터로 모델의 학습을 위한 데이터셋이고 Test dataset은 모델이 잘 학습되었는지 평가를 하기 위한 데이터 셋이다. 보통 데이터가 많은 경우도 있지만 적은 경우도 많기 때문에 이러한 1회성의 학습과 평가를 진행하지 않고 여러차례 학습과 평가를 반복하며 모델..
오늘의 강의는 어제에 이어서 실습으로 진행되었다. 오늘은 본가에 도착하여 기존에 있던 듀얼 모니터로 강의를 들으며 코딩을 진행하였다. 오늘 강의에서는 datetime이라는 패키지의 다양한 기능과 파생변수와 더미변수를 생성하는 로직들을 구현해서 설명해주었다. 가장 먼저 datetime 패키지를 사용하여 연도, 월, 일, 요일, 시간 등 다양한 관점의 시간관련 항목들을 추출할 수 있었다. index 기준으로 연도를 뽑아서 컬럼에 추가도 가능하고 1~3월까지는 1분기 / 4~6월은 2분기 등 4분기까지 추출하여 새로운 컬럼을 추가하면서 시점 관련 파생변수를 생성할 수 있었다. 왼쪽은 코딩화면 오른쪽은 강의화면이다. 왼쪽 화면을 보면 데이터프레임의 각 컬럼별 데이터 타입을 볼 수 있는 .info() 를 통해 데..
오늘의 강의는 어제에 이어서 실습으로 진행되었다. 오늘도 본가여서 누나의 mac 으로 인강을 들으며 테블릿을 통해 자취장 pc에 원격으로 붙여 코딩을 진행하였다. 어제까지의 실습 코드에 대한 내용은 결측치처리에 관한 내용이었다. 시계열 데이터의 결측치 처리에서 datetime의 구간이 시간, 일자, 월별 등 다양한 기준으로 구성할 수 있으며 각 기준별로 결측치가 상이할 수도 있다. 그렇게 결측치에 대한 처리를 완료한 뒤 데이터의 특성을 확인해보고자 시계열 데이터의 EDA를 진행하였다. 위의 mac은 강의화면이고 테블릿 코딩 화면이다. 가장 먼저 진행했던 것은 일별 카운팅과 registered / casual 으로 그래프를 겹쳐 그리면서 확인을 하는 것으로 시작되었다. 처음은 일별 카운팅으로만 시간별 흐름..