데이터를 기반으로

패스트캠퍼스 챌린지 14일차 본문

스터디/패스트캠퍼스

패스트캠퍼스 챌린지 14일차

이노후 2022. 2. 6. 17:45
728x90
반응형

오늘의 강의는 어제에 이어(모델링 평가지표에 대한 강의) 이론 강의가 진행되었다.

 

각 모델별 여러가지 지표가 존재하며 해당 모델을 평가하기 위해선 다양한 관점으로 모델을 바라봐야한다.

 

오늘 강의에서는 모델링을 하면 한번 정도 들었을 법한 Overfitting과 Underfitting에 관련된 이야기로 시작되었다. 한국어로는 과대적합, 과소적합이라고 부른다.

 

해당 모델이 잘 예측할 수 있도록 학습데이터를 기반으로 모델을 학습시켜 예측치를 뽑아내는 과정에서 학습데이터에 너무 편향되게 학습을 하여 새로운 데이터가 유입되었을 때 학습데이터에 편향된 예측치를 도출해낼 때 이러한 모델을 과대적합된 모델이라고 말할 수 있다.

 

단어만 보면 반대개념인 과소적합도 추측이 가능하다. 바로 학습데이터를 기반으로 모델이 학습이 너무 광범위하게 

학습되어 학습데이터 조차 예측이 힘든 케이스를 의미합니다.

왼쪽 화면은 강의자료 오른쪽 화면은 강의화면이다.

 

이러한 과적합에는 Bias와 Variance를 기반으로 조금씩 다른 형태를 보인다.

 

왼쪽 화면은 강의자료 오른쪽 화면은 강의화면이다.

 

가장 기본적으로 모델의 예측치의 대한 분포에서 Bias와 Variance 가 존재한다.

 

강의에서 그림으로 예시를 들어주었다. High, Low Bias 일 경우와 High, Low Variance 일 경우 각각의 산점도를 기준으로 분포의 형태를 보여주었다.

 

보통 분포에서 Bias가 존재한다고 하면 편향되어 있다라고 이야기한다. 실무에서도 Bias에 관한 이야기는 통계적인 업무가 아니어도 아주 가끔 사용되는 것을 보았다.

 

 

 

※ 본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성었습니다. 

 

※ 관련 링크 : https://bit.ly/37BpXiC

728x90
반응형