일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 직장인자기계발
- 데이터
- airflow
- API
- Ai
- 태국여행
- 통계분석
- 분석
- 데이터분석
- 독서리뷰
- EDA
- 패스트캠퍼스
- 데이터 분석
- 딥러닝
- 머신러닝
- 방콕여행
- 패스트캠퍼스후기
- DAGs
- 활성화함수
- 에어플로
- 패캠챌린지
- 직장인인강
- 리뷰
- correlation
- 자동매매프로그램
- 빅데이터
- 파이썬
- 상관분석
- 파이썬을활용한시계열데이터분석A-Z올인원패키지
- Python
- Today
- Total
목록파이썬을활용한시계열데이터분석A-Z올인원패키지 (49)
데이터를 기반으로
오늘은 이론강의들에서 진행했던 내용들을 실제 코딩으로 결과를 확인하며 진행하는 실습을 진행했다. 명절이라 본가에 올라와 자취방의 pc가 없어 누나의 mac으로 강의를 듣고 테블릿으로 자취방에 있는 pc를 원격으로 붙어서 코딩을 진행하였다. 컴퓨터와 배경색이 다른 이유는 나는 주피터 노트북의 테마를 검은색으로 설정하여 해당 부분이 다른 것이다. 가장 먼저 미리 설치되어 있는 패키지들을 전체적으로 최신 버전으로 업데이트 해주는 것으로 시작했다. 패키지를 업데이트 한 후 패키지들을 import 하고 경고 문구는 무시하게 설정을 해두고 진행했다. 데이터 분석을 진행하기 위해 가장 먼저 데이터를 불러와야한다. 데이터를 불러오는 과정은 여러 방법이 있지만 해당 강의에서는 csv파일을 불러오고자 했다. csv, ex..
오늘의 강의는 어제의 챕터가 이어지는 중이다. 이번에는 시계열 데이터의 전처리 과정을 좀 더 세부적으로 보여주는 강의었다. 일반적인 수치형 데이터를 예측하기 위한 머신러닝 모델을 구축할 때도 feature engineering을 진행할 때 범주형변수로 만들어 주기 위해 원핫인코딩을 진행하는 경우가 있다. 오로지 수치형 데이터만 존재하는 것이 아닌 범주형 데이터가 존재할 때 해당 데이터를 컴퓨터가 인식할 수 있도록 각 클래스 별로 0,1 로 구분하여 컬럼을 새로 생성하는 것이 더미변수화 하는 작업이다. 해당 부분의 피처 엔지니어링 방식이 시계열에도 동일하게 적용될 줄은 몰랐다. 왼쪽화면은 강의자료이고 오른쪽화면은 해당 강의화면이다. 강의화면에 보듯이 수식에 인자들이 많다. 해당 인자들은 더미변수를 통해 변..
오늘의 강의는 'ch03.데이터분석 준비하기 시계열 데이터패턴 추출' 이다. 이전에는 데이터 분석 전체에 대한 강의가 위주였다면 이제부터는 시계열 데이터에 관련된 관점으로 중점적인 강의가 시작되는 것 같다. 일반적인 수치형 데이터의 전처리와는 다른 것을 확실히 느낀 것이 하나의 데이터를 주기의 관점으로 바라보는 것이 조금 달랐다. 일반적인 빈도를 카운팅 할 때도 일반적인 수치형 자료는 해당 값이 얼마나 빈번하게 나왔나를 카운팅하는 방식인데 시계열 데이터는 해당 데이틔 주기를 판단하여 1년이면 1 / 분기면 4 / 월이면 12 등 이러한 시계열적 관점으로 데이터의 빈도를 해석한다. 결측치에 대한 방법도 다양하다 이전 시점의 데이터로 대체하던지 아니면 이후에 오는 데이터로 또는 전체 값의 평균치를 넣는 등 ..
이번 강의는 'ch02.데이터분석 준비하기 시계열 분석 알고리즘 이해' 였다. 기본적인 머신러닝에 대한 설명을 시작으로 강의가 시작되었다. 머신러닝은 크게 Superviesd Learning과 Unsuperviesd Learning 으로 나뉜다. 한마디로 결과값이 있는 것과 결과값이 없는 것의 차이인데 이를 더 쉽게 표현하자면 Superviesd Learning은 지도학습으로 해당 모델이 어떤 걸 예측해야하는지 값을 주어진다. 그 이후 미래에 들어오는 데이터들의 대한 예측을 진행하는 것이다. 반대로 Unsuperviesd Learning은 예측해야하는 결과값이 주어지지 않은 상태에서 해당 결과값을 예측해야한다고 이해하면 편하다. 예를 들어 비지도학습의 대표적인 군집분석으로 예를 들어보자. 기존에 고객을 ..
3일차의 강의는 아직 이론수업의 강의가 진행되었다. 2일차에 들었던 강의는 빅데이터에 대한 전반적인 개념 및 현재 시장에서 진행되는 프로젝트들의 프로세스 위주로 설명이 진행되었다면 3일차에는 통계 및 분석의 기본 프로세스에 초점을 맞춘 설명들이 이어져 나갔다. 왼쪽화면은 이론설명 강의자료이고 오른쪽 화면이 인터넷 강의 장면이다. 강의를 듣고 강의자료를 보면서 한번 더 이해하는 식으로 공부를 진행해나갔다. 기초적인 데이터 타입부터 시작해 변수 종류 등 피처에 대한 기본적인 특징들에 대해서 강의가 시작되었다. 이후에는 분포를 기반으로 설명이 시작되었고 분포의 모양에 대한 설명에서 왜도, 첨도 에 대한 설명이 나왔다. 처음 강의 자료를 듣고 이해가 가지 않았지만 강의에서도 외부 포털사이트에서 직접 검색을 하여..
이번 강의는 데이터 분석의 전체적인 흐름과 그 흐름속에서 단계별로 세세한 설명을 진행해 주었다. 저번 강의에서 제공해준 깃허브에서 전체 코드를 다운로드 한 후 나의 주피터 노트북에 로드할 수 있게 적용시켜 놓았다. 오른쪽 화면은 강의화면이고 왼쪽 화면은 내 로컬 pc의 주피터 노트북 화면이다. 해당 화면의 강의자료를 보며 강의를 수강했다. 가장 먼저 데이터에 관련된 직군들을 위주로 설명을 진행해주었다. 데이터 사이언티스트 / 애널리스트 / 엔지니어 등 다양한 데이터 관련 직업이 생겨났고 각 직업별 업무에 대한 간략한 설명을 진행해주었다. 나는 개인적으로 데이터 싸이언티스트를 꿈꾸며 해당 강의를 수강하고 있고 현재는 데이터 애널리스트로 일을 하고 있다. 종종 데이터 엔지니어의 업무도 병행하고 있다. 이러한..