데이터를 기반으로

패스트캠퍼스 챌린지 12일차 본문

스터디/패스트캠퍼스

패스트캠퍼스 챌린지 12일차

이노후 2022. 2. 4. 23:20
728x90
반응형

오늘의 강의는 어제의 이론과 실습을 병행한 강의에서 이어져서 진행되었다.

 

어제 마지막에 Train과 Test 데이터 셋의 분류 비율 및 분류 방법에 대한 강의가 진행되었고 비시계열 모델에 대한 이론도 설명이 되었다.

 

그래서 오늘의 강의는 첫 순서는 회귀분석을 돌리고 난 후 결과에 대한 해석과 통계이론에 대한 설명으로 시작되었다.

 

왼쪽 화면은 코딩화면(강의자료화면)이고 오른쪽 화면은 강의화면이다.

 

우선 코딩화면을 보시다 싶이 저번에 4번을 지나치고 5번의 비시계열의 데이터셋 분리에 대해 설명이 진행되었다. 이후 오늘은 6번인데 6번은 회귀분석에 대한 코딩으로 시작되었다.

 

해당 예제 데이터를 회귀분석을 돌려 OLS를 통한 결과치를 해석하는 강의였다.

 

이론 강의시간에도 설명이 있었지만 회귀분석에서는 많은 통계적 요소가 고려된다. 그중 각 독립변수가 종속변수에 얼마나 영향을 미치는지(유의한지)를 중점적으로 해당 데이터를 설명하고자 한다.

 

코드 결과를 보면 해당 모델에서는 유의미한 독립변수는 2개 밖에 없었다.

(유의수준 알파가 0.05 기준으로 P-value가 0.05 이하인 것들은 유의하다고 판단한다.)

 

하지만 설명력 자체는 엄청 높은 수치를 보여주었다.(거의 1에 가까움)

아마 독립변수가 다양하게 존재하여 설명력이 올라간 것으로 추정되나 해당 모델도 튜닝이 많이 필요해보였다.

 

해당 강의의 회귀분석에 대한 부분은 이렇게 마무리하고 다시 4번인 시각화로 넘어와서 강의를 시작하였다.

 

왼쪽 화면은 코딩화면(강의자료화면)이고 오른쪽 화면은 강의화면이다.

 

시각화는 데이터 분석에서 굉장히 아름다운 부분이라고 생각한다. 거의 데이터 분석의 꽃 이라고도 생각한다.

 

시각화 하나로도 얻을 수 있는 인사이트는 굉장히 많다고 생각한다. 강의에서도 시각화의 중요성을 강조해주셨다.

 

우선 사진에 보이는 것은 해당 변수에 대한 분포와 해당 값 안에서의 각각 온도별 사용량을 보여준 것이다.

 

온도가 떨어질 수록 사용자가 적어지는 것은 당연하기 때문이다.

(공용 자전거 수요량)

 

 

 

 

 

※ 본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성었습니다. 

 

※ 관련 링크 : https://bit.ly/37BpXiC

728x90
반응형