데이터를 기반으로

패스트캠퍼스 챌린지 27일차 본문

스터디/패스트캠퍼스

패스트캠퍼스 챌린지 27일차

이노후 2022. 2. 19. 13:34
728x90
반응형

오늘은 약속이 있어 저녁에 강의가 힘들 것 같아 약속장소에 조금 일찍 나와 테블릿으로 수강을 하고 블로그 글을 작성한다.

 

테블릿은 강의화면이고 하단의 책은 요즘 내가 따로 보고 있는 분석책인데 비슷한 이론이 나오는 것을 확인해 같이 보고 있었다.

 

오늘은 여태 말한 전처리와 피처엔지니어링 후 결과가 어떻게 달라지는 지 비교해보는 강의로 시작되었다. 우선 회귀 결과인 R-Square부터 확인을 하며 시작되었다. 전처리를 한 경우 / 피처 엔지니어링을 한 경우 / 다중공선성을 제거한 경우 등 다양한 경우의 수로 모델의 결과를 비교해보았다. 

 

비교 기준 수치는 어제와 동일한 MAE, MSE, MAPE 이었다. 전처리를 하고 피처엔지니어링을 하고 다중공선성을 제거한 마지막 모델이 가장 좋은 수치를 보여주었다. 이렇듯 데이터 모델링에서는 앞단의 이러한 과정이 하나의 필수라고 생각하며 모든 분석가들은 각기 다른 방법으로 사전작업을 진행하는 것으로 알고 있다. 하여, 해당 수치들이 개별 분석가들의 결과일 수도 있다.

 

테블릿 화면은 강의화면이다.

 

그래서 강사님은 이러한 현상을 ppt 그림 한장으로 예시를 들면서 설명을 해주셨다. 다양한 분석가들이 요즘 유행인 모델 또는 성능이 엄청 좋은 모델 등 그러한 한 가지 모델에 국한되어 분석을 하는 사람도 많다고 한다. 그런 분석을 진행하게 되면 다양한 관점의 해석도 불가능하고 국한된 분석만 가능할 것이다. 

 

하여, 강사님은 분석가는 다양한 전처리와 다양한 모델을 대입해보며 연구를 하고 해당 데이터에 가장 잘 맞는 모델과 전처리를 진행해야한다고 했다.

 

오늘은 외부라 한 화면에 담기지 않아 여러 사진을 첨부한다. 해당 화면은 원격으로 자취방에 있는 pc에 접속해 실습자료를 실행해보는 중이다.

 

그렇게 해당 강의는 끝나고 다음 강의에서는 정상성에 대해 더욱 깊이 다가가는 시간이었다.

 

정상성에는 약정상성과 강정상성이 있다고 한다. 

 

우선 시계열이 정상성이다 라는 말은 시간의 흐름에 따라 통계적 특성이 변하지 않음을 의미한다.

이 말이 뭐냐면 시간이 흐를 수록 평균이 커진다거나 분산이 커진다거나 자기상관이 있어 보인다거나 하는 이러한 통계적 특성들이 변하지 않는 것을 말한다.

 

약정상과 강정상은 다음 강의에 이어서 보도록 할 예정이다.

 

 

 

 

 

 

 

※ 본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성었습니다. 

 

※ 관련 링크 : https://bit.ly/37BpXiC

 

728x90
반응형