데이터를 기반으로

패스트캠퍼스 챌린지 8일차 본문

스터디/패스트캠퍼스

패스트캠퍼스 챌린지 8일차

이노후 2022. 1. 31. 17:01
728x90
반응형

오늘은 어제의 실습을 이어서 강의가 진행되었다.

 

오늘도 아직 본가여서 누나의 mac을 이용해서 강의를 듣고 테블릿으로 자취방 pc원격 접속하여 코딩을 진행했다.

 

Feature Engineering 부분에서 가장 먼저 진행한 것은 datetime형태의 데이터를 변환하는 것이다.

 

처음에 csv파일을 로드하여 pandas Dataframe 으로 변형된 상태에서 모든 데이터 타입을 확인하고자 .info() 함수를 사용하여 조회를 진행해보았다.

Mac화면은 강의화면이고 테블릿 화면은 원격으로 붙어 코딩을 하고 있는 화면이다.

 

화면을 보면 보이겠지만 가장 첫번째 컬럼은 날짜 컬럼이었다. 해당 데이터는 object타입으로 되어있었다.

한마디로 string 형태의 데이터 였다. 해당 데이터를 날짜형식으로 바꿔주어야 컴퓨터가 인식할 수 있는 것 같다.

 

하여 해당 데이터를 datetime으로 변형시킨 뒤 해당 날짜 데이터를 index로 바꾸어주는 작업까지 진행을 해야 해당 데이터 프레임이 시계열 데이터 프레임으로 확실히 변형되는 것이다.

 

강의에서 pandas 패키지로 전처리를 진행하여  pandas timeseries 관련 도큐먼트를 보며 검색하여 document를 보고 직접 따라해보며 강의를 들었다.

Mac화면은 강의화면과 pandas timeseries 관련 document 이다.

 

Datetime으로 인덱스를 지정해두고 해당 time 주기를 'H'로 변경하여 진행한 뒤 null값이 있는지 확인해 보니 약 160건 정도 발견되었다.

Isnull() 이란 함수를 이용하여 확인해보았다.  index를 보면 어떤 시간에 null값인지 확인할 수 있었다.

 

오늘의 강의는 여기서 끝났지만 이제 다음 강의는 해당 null값에 어떤 값으로 대체할 지 정하는 결측치 대체에 관련된 강의가 이어질 것으로 예상된다.

 

확실히 일반적인 수치 및 문자형 데이터로 구성되어있는 데이터 프레임과 시계열 데이터 프레임은 전처리에 사용되는 함수와 관점이 많이 다르다. 물론 중간에 겹치는 함수들도 있지만 조금씩 다른 부분이 존재하여 해당 부분을 잘 체크하면서 공부를 해야겠다고 생각이 되었다.

 

 

 

 

※ 본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성었습니다. 

 

※ 관련 링크 : https://bit.ly/37BpXiC

728x90
반응형