일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 | 31 |
- 딥러닝
- 분석
- correlation
- 직장인인강
- 상관분석
- API
- 파이썬
- 데이터분석
- 통계분석
- Ai
- 파이썬을활용한시계열데이터분석A-Z올인원패키지
- 데이터 분석
- 패스트캠퍼스후기
- 태국여행
- 리뷰
- 데이터
- DAGs
- airflow
- 방콕여행
- 활성화함수
- Python
- 독서리뷰
- 에어플로
- 직장인자기계발
- EDA
- 패캠챌린지
- 자동매매프로그램
- 빅데이터
- 머신러닝
- 패스트캠퍼스
- Today
- Total
목록스터디 (63)
데이터를 기반으로
오늘의 강의는 어제에 이어서 실습으로 진행되었다. 실습에 앞서 이론적인 설명을 진행해주셨다. 기존까지는 시계열 데이터에 관련된 설명과 실습이 이어져 나갔지만 오늘의 이론 설명은 비시계열 데이터에 관련된 설명으로 시작되었다. 일반적으로 모델의 학습과 평가에 대한 데이터 분리에 대한 설명으로 시작되었다. 비시계열 데이터는 Training dataset 과 Test dataset 으로 데이터를 나눈다. 일반적으로 Training dataset은 학습 데이터로 모델의 학습을 위한 데이터셋이고 Test dataset은 모델이 잘 학습되었는지 평가를 하기 위한 데이터 셋이다. 보통 데이터가 많은 경우도 있지만 적은 경우도 많기 때문에 이러한 1회성의 학습과 평가를 진행하지 않고 여러차례 학습과 평가를 반복하며 모델..
오늘의 강의는 어제에 이어서 실습으로 진행되었다. 오늘은 본가에 도착하여 기존에 있던 듀얼 모니터로 강의를 들으며 코딩을 진행하였다. 오늘 강의에서는 datetime이라는 패키지의 다양한 기능과 파생변수와 더미변수를 생성하는 로직들을 구현해서 설명해주었다. 가장 먼저 datetime 패키지를 사용하여 연도, 월, 일, 요일, 시간 등 다양한 관점의 시간관련 항목들을 추출할 수 있었다. index 기준으로 연도를 뽑아서 컬럼에 추가도 가능하고 1~3월까지는 1분기 / 4~6월은 2분기 등 4분기까지 추출하여 새로운 컬럼을 추가하면서 시점 관련 파생변수를 생성할 수 있었다. 왼쪽은 코딩화면 오른쪽은 강의화면이다. 왼쪽 화면을 보면 데이터프레임의 각 컬럼별 데이터 타입을 볼 수 있는 .info() 를 통해 데..
오늘의 강의는 어제에 이어서 실습으로 진행되었다. 오늘도 본가여서 누나의 mac 으로 인강을 들으며 테블릿을 통해 자취장 pc에 원격으로 붙여 코딩을 진행하였다. 어제까지의 실습 코드에 대한 내용은 결측치처리에 관한 내용이었다. 시계열 데이터의 결측치 처리에서 datetime의 구간이 시간, 일자, 월별 등 다양한 기준으로 구성할 수 있으며 각 기준별로 결측치가 상이할 수도 있다. 그렇게 결측치에 대한 처리를 완료한 뒤 데이터의 특성을 확인해보고자 시계열 데이터의 EDA를 진행하였다. 위의 mac은 강의화면이고 테블릿 코딩 화면이다. 가장 먼저 진행했던 것은 일별 카운팅과 registered / casual 으로 그래프를 겹쳐 그리면서 확인을 하는 것으로 시작되었다. 처음은 일별 카운팅으로만 시간별 흐름..
오늘은 어제의 실습을 이어서 강의가 진행되었다. 오늘도 아직 본가여서 누나의 mac을 이용해서 강의를 듣고 테블릿으로 자취방 pc원격 접속하여 코딩을 진행했다. Feature Engineering 부분에서 가장 먼저 진행한 것은 datetime형태의 데이터를 변환하는 것이다. 처음에 csv파일을 로드하여 pandas Dataframe 으로 변형된 상태에서 모든 데이터 타입을 확인하고자 .info() 함수를 사용하여 조회를 진행해보았다. Mac화면은 강의화면이고 테블릿 화면은 원격으로 붙어 코딩을 하고 있는 화면이다. 화면을 보면 보이겠지만 가장 첫번째 컬럼은 날짜 컬럼이었다. 해당 데이터는 object타입으로 되어있었다. 한마디로 string 형태의 데이터 였다. 해당 데이터를 날짜형식으로 바꿔주어야 컴..
오늘은 이론강의들에서 진행했던 내용들을 실제 코딩으로 결과를 확인하며 진행하는 실습을 진행했다. 명절이라 본가에 올라와 자취방의 pc가 없어 누나의 mac으로 강의를 듣고 테블릿으로 자취방에 있는 pc를 원격으로 붙어서 코딩을 진행하였다. 컴퓨터와 배경색이 다른 이유는 나는 주피터 노트북의 테마를 검은색으로 설정하여 해당 부분이 다른 것이다. 가장 먼저 미리 설치되어 있는 패키지들을 전체적으로 최신 버전으로 업데이트 해주는 것으로 시작했다. 패키지를 업데이트 한 후 패키지들을 import 하고 경고 문구는 무시하게 설정을 해두고 진행했다. 데이터 분석을 진행하기 위해 가장 먼저 데이터를 불러와야한다. 데이터를 불러오는 과정은 여러 방법이 있지만 해당 강의에서는 csv파일을 불러오고자 했다. csv, ex..
오늘의 강의는 어제의 챕터가 이어지는 중이다. 이번에는 시계열 데이터의 전처리 과정을 좀 더 세부적으로 보여주는 강의었다. 일반적인 수치형 데이터를 예측하기 위한 머신러닝 모델을 구축할 때도 feature engineering을 진행할 때 범주형변수로 만들어 주기 위해 원핫인코딩을 진행하는 경우가 있다. 오로지 수치형 데이터만 존재하는 것이 아닌 범주형 데이터가 존재할 때 해당 데이터를 컴퓨터가 인식할 수 있도록 각 클래스 별로 0,1 로 구분하여 컬럼을 새로 생성하는 것이 더미변수화 하는 작업이다. 해당 부분의 피처 엔지니어링 방식이 시계열에도 동일하게 적용될 줄은 몰랐다. 왼쪽화면은 강의자료이고 오른쪽화면은 해당 강의화면이다. 강의화면에 보듯이 수식에 인자들이 많다. 해당 인자들은 더미변수를 통해 변..