일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 | 31 |
- 패캠챌린지
- Ai
- 태국여행
- 상관분석
- 빅데이터
- 머신러닝
- 통계분석
- 파이썬을활용한시계열데이터분석A-Z올인원패키지
- correlation
- EDA
- 방콕여행
- DAGs
- 자동매매프로그램
- 데이터분석
- 딥러닝
- 분석
- 직장인인강
- 데이터 분석
- 데이터
- API
- 파이썬
- 리뷰
- 패스트캠퍼스후기
- 독서리뷰
- airflow
- 활성화함수
- 에어플로
- 패스트캠퍼스
- Python
- 직장인자기계발
- Today
- Total
목록분류 전체보기 (132)
데이터를 기반으로
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/bcaUqS/btrr2z2ui8k/4XinNHkphehoWWpwIswj0k/img.jpg)
오늘의 강의는 'ch03.데이터분석 준비하기 시계열 데이터패턴 추출' 이다. 이전에는 데이터 분석 전체에 대한 강의가 위주였다면 이제부터는 시계열 데이터에 관련된 관점으로 중점적인 강의가 시작되는 것 같다. 일반적인 수치형 데이터의 전처리와는 다른 것을 확실히 느낀 것이 하나의 데이터를 주기의 관점으로 바라보는 것이 조금 달랐다. 일반적인 빈도를 카운팅 할 때도 일반적인 수치형 자료는 해당 값이 얼마나 빈번하게 나왔나를 카운팅하는 방식인데 시계열 데이터는 해당 데이틔 주기를 판단하여 1년이면 1 / 분기면 4 / 월이면 12 등 이러한 시계열적 관점으로 데이터의 빈도를 해석한다. 결측치에 대한 방법도 다양하다 이전 시점의 데이터로 대체하던지 아니면 이후에 오는 데이터로 또는 전체 값의 평균치를 넣는 등 ..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/dcpFZ3/btrrTiNpfNE/6yDDGW9fND1YeoyKhSp3ak/img.jpg)
이번 강의는 'ch02.데이터분석 준비하기 시계열 분석 알고리즘 이해' 였다. 기본적인 머신러닝에 대한 설명을 시작으로 강의가 시작되었다. 머신러닝은 크게 Superviesd Learning과 Unsuperviesd Learning 으로 나뉜다. 한마디로 결과값이 있는 것과 결과값이 없는 것의 차이인데 이를 더 쉽게 표현하자면 Superviesd Learning은 지도학습으로 해당 모델이 어떤 걸 예측해야하는지 값을 주어진다. 그 이후 미래에 들어오는 데이터들의 대한 예측을 진행하는 것이다. 반대로 Unsuperviesd Learning은 예측해야하는 결과값이 주어지지 않은 상태에서 해당 결과값을 예측해야한다고 이해하면 편하다. 예를 들어 비지도학습의 대표적인 군집분석으로 예를 들어보자. 기존에 고객을 ..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/ccWwGr/btrrJmqi15T/TbNC6lmIPetUK6TJqxiCWK/img.jpg)
3일차의 강의는 아직 이론수업의 강의가 진행되었다. 2일차에 들었던 강의는 빅데이터에 대한 전반적인 개념 및 현재 시장에서 진행되는 프로젝트들의 프로세스 위주로 설명이 진행되었다면 3일차에는 통계 및 분석의 기본 프로세스에 초점을 맞춘 설명들이 이어져 나갔다. 왼쪽화면은 이론설명 강의자료이고 오른쪽 화면이 인터넷 강의 장면이다. 강의를 듣고 강의자료를 보면서 한번 더 이해하는 식으로 공부를 진행해나갔다. 기초적인 데이터 타입부터 시작해 변수 종류 등 피처에 대한 기본적인 특징들에 대해서 강의가 시작되었다. 이후에는 분포를 기반으로 설명이 시작되었고 분포의 모양에 대한 설명에서 왜도, 첨도 에 대한 설명이 나왔다. 처음 강의 자료를 듣고 이해가 가지 않았지만 강의에서도 외부 포털사이트에서 직접 검색을 하여..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/BbXsI/btrrD8c1qOy/V05eyocm04K7ZqcBMrGtzK/img.jpg)
이번 강의는 데이터 분석의 전체적인 흐름과 그 흐름속에서 단계별로 세세한 설명을 진행해 주었다. 저번 강의에서 제공해준 깃허브에서 전체 코드를 다운로드 한 후 나의 주피터 노트북에 로드할 수 있게 적용시켜 놓았다. 오른쪽 화면은 강의화면이고 왼쪽 화면은 내 로컬 pc의 주피터 노트북 화면이다. 해당 화면의 강의자료를 보며 강의를 수강했다. 가장 먼저 데이터에 관련된 직군들을 위주로 설명을 진행해주었다. 데이터 사이언티스트 / 애널리스트 / 엔지니어 등 다양한 데이터 관련 직업이 생겨났고 각 직업별 업무에 대한 간략한 설명을 진행해주었다. 나는 개인적으로 데이터 싸이언티스트를 꿈꾸며 해당 강의를 수강하고 있고 현재는 데이터 애널리스트로 일을 하고 있다. 종종 데이터 엔지니어의 업무도 병행하고 있다. 이러한..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/wkTEb/btrrwfSg7Xt/mNYBLStg201PjeoxKnoWw0/img.jpg)
드디어 기다리던 패스트 캠퍼스 챌린지 1일차가 되었다. 내 블로그 카테고리를 보면 알겠지만 최근 비트코인 자동매매 프로그램 구축이라는 개인 프로젝트를 진행 중이다. 주식, 비트코인 등 시계열 데이터에 관한 분석을 본격적으로 진행해야겠다는 필요성을 느껴 해당 강의를 수강하게 되었다. 수강한 강의는 바로 "파이썬을 활용한 시계열 데이터 분석 A-Z 올인원 패키지 Online." 이다. 모든 IT 관련 강의들을 찾아보던 중 해당 강의가 타 강의에 비해 알려주는 범위도 넓고 기초 시계열 분석 부터 딥러닝까지 다루는 커리큘럼이라 바로 선택하여 수강 신청을 하게 되었다. 오늘의 강의는 데이터 분석을 하기위한 Tool을 설치하고 환경을 구축하는 강의였다. 가장 먼저 Python을 설치하고 해당 강의에서는 Jupyte..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/cdTwff/btrp1871o1B/7x5fBuWu1Er6q10OesjPfk/img.png)
가장 먼저 고민한 것은 클라우드로 DB를 구성할 지 아니면 로컬에 구축할 지 결정하는 것이었다. 처음부터 클라우드로 구축하고자하니 공수도 크고 부담스러운 면이 있어서 우선은 로컬에 구축후 클라우드로 옮겨갈 생각이다. (사실 그만큼 대용량 데이터를 구축할 예정이 없기에 로컬에 구성해도 될 것 같지만 스크립트가 자동으로 돌아갈 수 있는 환경으로 구축해주려면 DB 또한 같이 움직여야 하니 이 부분은 매매프로그램이 완전히 구축되면 그 때 다시 계획을 세울 예정이다.) 해당 글에서 소개해드릴 것들은 크게 3가지이다. 1. Editor 현재 회사에서 Dbeaver라는 에디터를 사용하고 있어서 해당 에디터를 사용하여 DB관련 작업을 진행해 나갈 예정이다. 2. MariaDB 실무에서는 Mysql과 Hive만 다루다 ..