일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 데이터 분석
- correlation
- 활성화함수
- 데이터분석
- DAGs
- 자동매매프로그램
- 에어플로
- airflow
- 패스트캠퍼스후기
- 리뷰
- 직장인인강
- 분석
- 상관분석
- 방콕여행
- 파이썬을활용한시계열데이터분석A-Z올인원패키지
- 패캠챌린지
- API
- 데이터
- 머신러닝
- 태국여행
- 파이썬
- Python
- 패스트캠퍼스
- Ai
- EDA
- 통계분석
- 독서리뷰
- 딥러닝
- 직장인자기계발
- 빅데이터
- Today
- Total
목록파이썬을활용한시계열데이터분석A-Z올인원패키지 (49)
데이터를 기반으로
오늘의 강의는 어제에 이어서 진행되었다. 모델을 구축하고 나서 모델을 평가하는 지표로 여러가지가 사용된다. 이전에 비시계열 데이터의 다양한 모델들이 있었고 각각의 모델들 마다 각자 다른 목적을 위한 평가지표가 있다. 우리가 가장 먼저 모델이 얼만큼 예측을 하는지 측정하는 기본적인 지표는 정확도(Accuracy)이다. 정확도란 우리의 모델이 예측 데이터를 추출했을 때 실제 데이터를 얼만큼 예측하는지를 보여주는 지표이다. 정확도는 회귀와 분류 모두에서 사용되는 지표이지만 분류에서 좀 더 정확하게 보여지는 지표이다. 회귀에서는 RMSE, MSE, MAE 등 오차에 좀 더 가중치를 둔 지표들이 많다. 해당 예측치가 실제 데이터와 얼만큼 다른지 어느정도의 오차를 측정하는 지표들이다. 단순히 오차를 측정하는 것이 ..
오늘의 강의는 어제의 이론과 실습을 병행한 강의에서 이어져서 진행되었다. 어제 마지막에 Train과 Test 데이터 셋의 분류 비율 및 분류 방법에 대한 강의가 진행되었고 비시계열 모델에 대한 이론도 설명이 되었다. 그래서 오늘의 강의는 첫 순서는 회귀분석을 돌리고 난 후 결과에 대한 해석과 통계이론에 대한 설명으로 시작되었다. 왼쪽 화면은 코딩화면(강의자료화면)이고 오른쪽 화면은 강의화면이다. 우선 코딩화면을 보시다 싶이 저번에 4번을 지나치고 5번의 비시계열의 데이터셋 분리에 대해 설명이 진행되었다. 이후 오늘은 6번인데 6번은 회귀분석에 대한 코딩으로 시작되었다. 해당 예제 데이터를 회귀분석을 돌려 OLS를 통한 결과치를 해석하는 강의였다. 이론 강의시간에도 설명이 있었지만 회귀분석에서는 많은 통계..
오늘의 강의는 어제에 이어서 실습으로 진행되었다. 실습에 앞서 이론적인 설명을 진행해주셨다. 기존까지는 시계열 데이터에 관련된 설명과 실습이 이어져 나갔지만 오늘의 이론 설명은 비시계열 데이터에 관련된 설명으로 시작되었다. 일반적으로 모델의 학습과 평가에 대한 데이터 분리에 대한 설명으로 시작되었다. 비시계열 데이터는 Training dataset 과 Test dataset 으로 데이터를 나눈다. 일반적으로 Training dataset은 학습 데이터로 모델의 학습을 위한 데이터셋이고 Test dataset은 모델이 잘 학습되었는지 평가를 하기 위한 데이터 셋이다. 보통 데이터가 많은 경우도 있지만 적은 경우도 많기 때문에 이러한 1회성의 학습과 평가를 진행하지 않고 여러차례 학습과 평가를 반복하며 모델..
오늘의 강의는 어제에 이어서 실습으로 진행되었다. 오늘은 본가에 도착하여 기존에 있던 듀얼 모니터로 강의를 들으며 코딩을 진행하였다. 오늘 강의에서는 datetime이라는 패키지의 다양한 기능과 파생변수와 더미변수를 생성하는 로직들을 구현해서 설명해주었다. 가장 먼저 datetime 패키지를 사용하여 연도, 월, 일, 요일, 시간 등 다양한 관점의 시간관련 항목들을 추출할 수 있었다. index 기준으로 연도를 뽑아서 컬럼에 추가도 가능하고 1~3월까지는 1분기 / 4~6월은 2분기 등 4분기까지 추출하여 새로운 컬럼을 추가하면서 시점 관련 파생변수를 생성할 수 있었다. 왼쪽은 코딩화면 오른쪽은 강의화면이다. 왼쪽 화면을 보면 데이터프레임의 각 컬럼별 데이터 타입을 볼 수 있는 .info() 를 통해 데..
오늘의 강의는 어제에 이어서 실습으로 진행되었다. 오늘도 본가여서 누나의 mac 으로 인강을 들으며 테블릿을 통해 자취장 pc에 원격으로 붙여 코딩을 진행하였다. 어제까지의 실습 코드에 대한 내용은 결측치처리에 관한 내용이었다. 시계열 데이터의 결측치 처리에서 datetime의 구간이 시간, 일자, 월별 등 다양한 기준으로 구성할 수 있으며 각 기준별로 결측치가 상이할 수도 있다. 그렇게 결측치에 대한 처리를 완료한 뒤 데이터의 특성을 확인해보고자 시계열 데이터의 EDA를 진행하였다. 위의 mac은 강의화면이고 테블릿 코딩 화면이다. 가장 먼저 진행했던 것은 일별 카운팅과 registered / casual 으로 그래프를 겹쳐 그리면서 확인을 하는 것으로 시작되었다. 처음은 일별 카운팅으로만 시간별 흐름..
오늘은 어제의 실습을 이어서 강의가 진행되었다. 오늘도 아직 본가여서 누나의 mac을 이용해서 강의를 듣고 테블릿으로 자취방 pc원격 접속하여 코딩을 진행했다. Feature Engineering 부분에서 가장 먼저 진행한 것은 datetime형태의 데이터를 변환하는 것이다. 처음에 csv파일을 로드하여 pandas Dataframe 으로 변형된 상태에서 모든 데이터 타입을 확인하고자 .info() 함수를 사용하여 조회를 진행해보았다. Mac화면은 강의화면이고 테블릿 화면은 원격으로 붙어 코딩을 하고 있는 화면이다. 화면을 보면 보이겠지만 가장 첫번째 컬럼은 날짜 컬럼이었다. 해당 데이터는 object타입으로 되어있었다. 한마디로 string 형태의 데이터 였다. 해당 데이터를 날짜형식으로 바꿔주어야 컴..