데이터를 기반으로

패스트캠퍼스 챌린지 36일차 본문

스터디/패스트캠퍼스

패스트캠퍼스 챌린지 36일차

이노후 2022. 2. 28. 23:45
728x90
반응형

오늘의 강의는 어제에 이어 Bagging과 Boosting에 대한 알고리즘의 설명으로 강의가 시작되었다.

 

왼쪽 화면은 강의 자료 화면이고 오른쪽은 강의 화면이다.

 

오른쪽 강의 화면을 보면 해당 부분은 랜덤 포레스트에 대한 설명을 진행하고 있는 화면이다. 랜덤포레스트란 여러개의 의사 결정 나무 모델들을 기반으로 각각의 예측 확률의 평균으로 종합하여 모델을 운영하는 알고리즘이다.

 

어디서 많이 봤던 메커니즘이다. 과거 강의에서 CLT라고 중심극한정리라는 방법과 비슷한 메커니즘이다.

 

Bagging 알고리즘은 CLT 개념을 반영한 알고리즘이라고 보면 된다. 

 

이러한 CLT의 개념이 적용된 부분이라 앞단에 앙상블 메소드라고 Variance and Bias 에 관한 그림이 나왔던 부분에서 Bagging은 높은 Variance에서 낮은 곳으로 이동하는 효과를 가질 수 있는 것이다.

 

왼쪽 화면은 강의 자료 화면이고 오른쪽은 강의 화면이다.

 

Boosting에는 크게 4가지 알고리즘이 존재한다.

Adaptive Boosting(AdaBoost) / Gradient Boosting Machine(GBM) / XGBoost(eXtreme Gradient Boosting) / LightGBM

 

Adaptive Boosting(AdaBoost) 알고리즘은 과소적합된 데이터에 가중치를 높여 다음 학습에 더 잘 적합되게 반복하는 알고리즘이다. 약한 학습기에서 강한 학습기가 되어가는 과정 중 하나이다.

 

Gradient Boosting Machine(GBM) 알고리즘은 예측치와 실제 데이터와의 오차를 구하고 해당 모델을 학습 단계마다 오차들을 반영하여 가중치를 업데이트하여 잔차를 모델에 학습시키는 방법이다.

 

이와 유사한 부분은 이전 강의에서 잔차를 분석해서 알고리즘의 성능을 높이는 즉, 잔차 진단과 유사한 메커니즘이라고 볼 수 있다.

 

 

 

 

 

 

※ 본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성었습니다. 

 

※ 관련 링크 : https://bit.ly/37BpXiC

728x90
반응형