데이터를 기반으로

패스트캠퍼스 챌린지 7일차 본문

스터디/패스트캠퍼스

패스트캠퍼스 챌린지 7일차

이노후 2022. 1. 30. 01:00
728x90
반응형

오늘은 이론강의들에서 진행했던 내용들을 실제 코딩으로 결과를 확인하며 진행하는 실습을 진행했다.

 

명절이라 본가에 올라와 자취방의 pc가 없어 누나의 mac으로 강의를 듣고 테블릿으로 자취방에 있는 pc를 원격으로 붙어서 코딩을 진행하였다.

 

컴퓨터와 배경색이 다른 이유는 나는 주피터 노트북의 테마를 검은색으로 설정하여 해당 부분이 다른 것이다.

 

가장 먼저 미리 설치되어 있는 패키지들을 전체적으로 최신 버전으로 업데이트 해주는 것으로 시작했다.

 

패키지를 업데이트 한 후 패키지들을 import 하고 경고 문구는 무시하게 설정을 해두고 진행했다.

 

데이터 분석을 진행하기 위해 가장 먼저 데이터를 불러와야한다. 데이터를 불러오는 과정은 여러 방법이 있지만 해당 강의에서는 csv파일을 불러오고자 했다. 

 

csv, excel 등 데이터를 쉽게 로드할 수 있고 전처리도 쉬운 pandas 라는 패키지를 사용해서 불러올 예정이다.

 

pandas 뿐만 아니라 statsmodels, scipy 등 실습에서 사용될 패키지들에 대한 간략한 설명이 진행되었다.

 

 

이번에 불러올 데이터는 'Bike Sharing Demand' 이다.

 

해당 데이터는 예전에 캐글에서 코드를 참고했을 때 보았던 데이터라 이렇게 반가울 수가 없었다.

 

본 강의의 실습 코드 또한 캐글에 있는 데이터를 그대로 불러와 사용할 예정이라고 한다. 

 

이전에 다루었던 데이터라고 하나 다시 한번 각 컬럼에 대한 설명을 캐글사이트에 들어가 직접 읽어보았다.

 

우리나라 따릉이와 비슷한 공유 자전거 개념의 시스템이라 해당 프로젝트를 벤치마킹하여 따릉이에도 적용하는 사례를 공모전에서 진행하는 것을 많이 보았다.

 

실질적으로 데이터 로드하는 부분까지 끝내고 데이터에 대한 사전 탐색(컬럼명 및 컬럼에 대한 도메인 지식 그리고 데이터 생성의 개념)을 진행하여 이해가 확실히 되었다.

 

내일은 본격적으로 EDA 부터 시작할 것으로 예상된다.

 

 

 

※ 본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성었습니다. 

 

※ 관련 링크 : https://bit.ly/37BpXiC

728x90
반응형