데이터를 기반으로

AWS 기반 데이터 과학 본문

도서 리뷰/빅데이터&IT

AWS 기반 데이터 과학

이노후 2023. 5. 27. 22:41
728x90
반응형

도서명 : AWS 기반 데이터 과학

출판사 : 한빛미디어

 

지은이 : 크리스 프레글리, 안티 바르트 지음

 

독서 기간 : 2023-05-10 ~ 2022-05-27

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

 

 

요즘 현업에서 AWS Lambda를 작업하며 데이터 엔지니어의 업무를 진행하고 있다. 때마침, 한빛미디어 리뷰 이벤트에 해당 책이 후보에 올라와 있었고 나는 당연히 이 책을 고를 수 밖에 없었다.

 

물론 Lambda 뿐만 아니라 다른 다양한 내용을 포함하고 있겠지만, 당장 내가 사용하는 lambda에 대한 해답을 얻고자 선택한 것도 있었다.

 

먼저 소개에 앞서, 목차부터 소개하고자 한다.

 

목차

CHAPTER 1 AWS 기반 데이터 과학 소개
CHAPTER 2 데이터 과학의 모범 사례
CHAPTER 3 AutoML
CHAPTER 4 클라우드로 데이터 수집하기
CHAPTER 5 데이터셋 탐색하기
CHAPTER 6 모델 훈련을 위한 데이터셋 준비
CHAPTER 7 나의 첫 모델 훈련시키기
CHAPTER 8 대규모 모델 훈련과 최적화 전략
CHAPTER 9 프로덕션에 모델 배포하기
CHAPTER 10 파이프라인과 MLOps
CHAPTER 11 스트리밍 데이터 분석과 머신러닝
CHAPTER 12 AWS 보안
 
크게 위와 같이 12가지 큰 목차로 책의 내용을 풀어가고 있다.
 
큰 챕터들에서는 보이지 않지만, 소제목들에서는 AWS Lambda와 SageMaker 그리고 Glue 등에 대해서 설명들이 주로 이루어졌다.
 
전체적인 파이프라인은 크게 3단계로 나뉘는 것으로 제안하고 있고 아래와 같이 나와있다.
 
1. 데이터 준비
- 데이터 수집
- 데이터 분석
- 데이터 변환
- 데이터 검증
- 훈련데이터 생성

2. 모델 훈련 및 튜닝
- 모델 훈련
- 모델 튜닝

3. 배포와 모니터링
- 배포
- 서빙
- 모니터링
- 로깅


해당 워크플로우를 구현할 수 있도록 여러가지 예시들을 보여주는데, 그 중 airflow도 포함되어 있었다.
(최근 공부중이라 반가운 부분이었다.)
 
그리고, 처음 사용하는 유저들을 위해 미리 앞서 말해주는 부분이 바로 '비용'에 관련된 부분이었다.
 
클라우드 컴퓨팅 및 클라우드 서버를 사용하면 대부분 유료 서비스인 것을 알 수 있다.
(물론, Colab은 아직까지 무료로 제공 되는 부분이 있기는 하지만..)
 
이러한 유료 서비스에서 어떻게 하면 과금이 되는지에 대한 구조에 대해서 설명을 해주었으며, 비용을 절감할 수 있는 효율적인 처리에 대해 간략적인 가이드가 제공되고 있다.
 
모델 파이프라인 관련해서 가장 유용하게 사용되는 AutoML 은 SageMaker에서 사용할 수 있다고 한다.
 
데이터 적재 관련해서는 데이터 레이크를 손쉽게 구축할 수 있는 레이크 포메이션을 소개하고 있으며, 글루를 이용하여 데이터 카탈로그 작업도 가능한 것을 확인할 수 있었다.
 
이와 같이 책 앞에서는 각각 파이프라인 별로 어떠한 기능들을 이용하여 구현할 수 있는지 설명을 해주었다.
 
해당 도서에서 가장 좋았던 점을 느낀것은 바로 모범 사례 파트였다.
 
 
- 아마존 세이지 메이커와 텐서플로를 이용한 추천 시스템 생성하기
- 아마존 세이지 메이커와 아파치 스파크로 추천 시스템 생성하기
 
등 다양한 사례들이 존재했고, 사례 소개 뿐만 아니라 참고할 수 있는 코드까지 같이 내용에 포함되어 너무 좋은 가이드가 될 수 있을 것이라 생각되었다.
 
 
그 이후로는 세이지 메이커로 AutoML 사용하는 법과 아테나를 통한 데이터 적재 등 다양한 코드 기반으로 한 가이드들을 보여주었다.
 
해당 도서는 코드를 기반으로 여러가지 사례들을 안내해주고 가이드로 참고할 수 있는 부분이 많아 초보자 및 실무자들에게 굉장히 좋은 이정표로 쓰일 것으로 기대가 되었다.

 

728x90
반응형