데이터를 기반으로

XGBOOST와 사이킷런을 활용한 그레디언트 부스팅 본문

도서 리뷰/빅데이터&IT

XGBOOST와 사이킷런을 활용한 그레디언트 부스팅

이노후 2022. 10. 30. 17:10
728x90
반응형

도서명 : XGBOOST와 사이킷런을 활용한 그레디언트 부스팅

출판사 : 한빛미디어

 

지은이 : 코리 웨이드 지음

 

독서 기간 : 2022-10-15 ~ 2022-10-30

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

 

내가 머신러닝을 본격적으로 접하기 시작할 때가 XGboost가 그렇게 성능이 좋다더라~ 라는 말을 들으면서 본격적으로 도대체 그게 뭐길래? 라는 물음을 시작으로 접하게 되었다.

 

해당 책에는 과연 어떤 특별한 점이 있을까? 라는 궁금증으로 책을 펴보았다.

 

먼저, 목록 부터 확인해보자.

 

 

CHAPTER0. 코딩 환경 설정

PART 1. 배깅과 부스팅

  • CHAPTER1. 머신러닝개요
  • CHAPTER2. 결정트리
  • CHAPTER3. 배깅과 랜덤 포레스트
  • CHAPTER4. 그레이디언트 부스팅에서 XGBoost까지

PART 2. XGBoost

  • CHAPTER5. XGBoost 소개
  • CHAPTER6. XGBoost 하이퍼파라미터
  • CHAPTER7. XGBoost로 외계 행성 찾기

PART 3. 고급 XGBoost

  • CHAPTER8. XGBoost 기본 학습기
  • CHAPTER9. 캐글 마스터에게 배우기
  • CHAPTER10. XGBoost 모델 배포

APPENDIX. 다른 그레이디언트 부스팅 라이브러리

 

우선 CHAPTER0 는 어느 코딩 책에 나오는 것처럼 아나콘다와 파이썬 설치에 대한 설명으로 시작되었다.

 

PART1에서는 배깅과 부스팅이 무엇인지 설명을 하는 글로 시작을 열었다.

 

머신러닝에 대한 기초적인 설명을 시작으로 챕터 1은 끝났다.

 

챕터 2 부터는 결정트리, 배깅, 랜덤포레스트 그리고 그레이디언트 부스팅에 대한 각각 알고리즘을 적용하는 코드부터 해당 알고리즘의 기본 개념을 설명해주었다.

 

추가적으로 각 모델들의 작동 원리와 하이퍼파라미터들이 무엇인지 설명해주며, 하이퍼파라미터 튜닝 방법까지 상세하게 설명해주는 챕터였다.

 

PART2 부터는 본격적으로 XGBoost에 대한 설명을 진행해 주었습니다.

 

XGBOOST가 어떻게 만들어진 것인지 그리고 어떤 원리로 작동되는지 원초적인 개념 부터 시작되었습니다. 해당 책이 가장 좋았던 점은 각각 모든 예시마다 코드들이 상세하게 적혀있다.

 

이후 위 챕터 1과 동일하게 XGBoost의 하이퍼파라미터가 무엇인지, 그리고 해당 파라미터 튜닝을 하는 방법에 대해서 코드와함께 상세하게 설명해주었다.

 

이 해당 도서의 특이한 점은 고급 XGBoost인 파트3 부터였다.

 

다른 알고리즘 소개서에는 본적이 없는 방법론들이 보여졌다. 먼저, gblinear였다.

 

보통 XGBoost가 앙상블 모델을 만드는 머신러닝 모델입니다. 그리고 보통 gbtree로 알려진 기본값 중 하나인 XGBoost인데 이러한 트리는 비선형 데이터에 적합한 알고리즘이나 해당 과정에서는 비선형 데이터에 활용할 수 있는 gblinear를 소개해주는 부분이 인상적이었다.

 

그리고 파트2에서도 보이지만, 외계 행성 찾기 데이터와 파트3의 캐글에서 여러 데이터로 접목시켜서 확인할 수 있는 코드들이 많아 좋은 도서라 생각되었다.

 

 

728x90
반응형