일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- DAGs
- 파이썬
- 머신러닝
- 독서리뷰
- 활성화함수
- 패스트캠퍼스
- API
- airflow
- 데이터
- 빅데이터
- 직장인인강
- 방콕여행
- Python
- 데이터분석
- 패캠챌린지
- 태국여행
- 딥러닝
- It
- 리뷰
- 챗지피티
- 직장인자기계발
- 클라우드
- 파이썬을활용한시계열데이터분석A-Z올인원패키지
- 분석
- 상관분석
- nlp
- Ai
- ChatGPT
- 패스트캠퍼스후기
- 자동매매프로그램
Archives
- Today
- Total
데이터를 기반으로
AWS 기반 데이터 과학 본문
728x90
반응형
도서명 : AWS 기반 데이터 과학
출판사 : 한빛미디어
지은이 : 크리스 프레글리, 안티 바르트 지음
독서 기간 : 2023-05-10 ~ 2022-05-27
"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."
요즘 현업에서 AWS Lambda를 작업하며 데이터 엔지니어의 업무를 진행하고 있다. 때마침, 한빛미디어 리뷰 이벤트에 해당 책이 후보에 올라와 있었고 나는 당연히 이 책을 고를 수 밖에 없었다.
물론 Lambda 뿐만 아니라 다른 다양한 내용을 포함하고 있겠지만, 당장 내가 사용하는 lambda에 대한 해답을 얻고자 선택한 것도 있었다.
먼저 소개에 앞서, 목차부터 소개하고자 한다.
목차
CHAPTER 1 AWS 기반 데이터 과학 소개
CHAPTER 2 데이터 과학의 모범 사례
CHAPTER 3 AutoML
CHAPTER 4 클라우드로 데이터 수집하기
CHAPTER 5 데이터셋 탐색하기
CHAPTER 6 모델 훈련을 위한 데이터셋 준비
CHAPTER 7 나의 첫 모델 훈련시키기
CHAPTER 8 대규모 모델 훈련과 최적화 전략
CHAPTER 9 프로덕션에 모델 배포하기
CHAPTER 10 파이프라인과 MLOps
CHAPTER 11 스트리밍 데이터 분석과 머신러닝
CHAPTER 12 AWS 보안
CHAPTER 2 데이터 과학의 모범 사례
CHAPTER 3 AutoML
CHAPTER 4 클라우드로 데이터 수집하기
CHAPTER 5 데이터셋 탐색하기
CHAPTER 6 모델 훈련을 위한 데이터셋 준비
CHAPTER 7 나의 첫 모델 훈련시키기
CHAPTER 8 대규모 모델 훈련과 최적화 전략
CHAPTER 9 프로덕션에 모델 배포하기
CHAPTER 10 파이프라인과 MLOps
CHAPTER 11 스트리밍 데이터 분석과 머신러닝
CHAPTER 12 AWS 보안
크게 위와 같이 12가지 큰 목차로 책의 내용을 풀어가고 있다.
큰 챕터들에서는 보이지 않지만, 소제목들에서는 AWS Lambda와 SageMaker 그리고 Glue 등에 대해서 설명들이 주로 이루어졌다.
전체적인 파이프라인은 크게 3단계로 나뉘는 것으로 제안하고 있고 아래와 같이 나와있다.
1. 데이터 준비
- 데이터 수집
- 데이터 분석
- 데이터 변환
- 데이터 검증
- 훈련데이터 생성
2. 모델 훈련 및 튜닝
- 모델 훈련
- 모델 튜닝
3. 배포와 모니터링
- 배포
- 서빙
- 모니터링
- 로깅
- 데이터 변환
- 데이터 검증
- 훈련데이터 생성
2. 모델 훈련 및 튜닝
- 모델 훈련
- 모델 튜닝
3. 배포와 모니터링
- 배포
- 서빙
- 모니터링
- 로깅
해당 워크플로우를 구현할 수 있도록 여러가지 예시들을 보여주는데, 그 중 airflow도 포함되어 있었다.
(최근 공부중이라 반가운 부분이었다.)
그리고, 처음 사용하는 유저들을 위해 미리 앞서 말해주는 부분이 바로 '비용'에 관련된 부분이었다.
클라우드 컴퓨팅 및 클라우드 서버를 사용하면 대부분 유료 서비스인 것을 알 수 있다.
(물론, Colab은 아직까지 무료로 제공 되는 부분이 있기는 하지만..)
이러한 유료 서비스에서 어떻게 하면 과금이 되는지에 대한 구조에 대해서 설명을 해주었으며, 비용을 절감할 수 있는 효율적인 처리에 대해 간략적인 가이드가 제공되고 있다.
모델 파이프라인 관련해서 가장 유용하게 사용되는 AutoML 은 SageMaker에서 사용할 수 있다고 한다.
데이터 적재 관련해서는 데이터 레이크를 손쉽게 구축할 수 있는 레이크 포메이션을 소개하고 있으며, 글루를 이용하여 데이터 카탈로그 작업도 가능한 것을 확인할 수 있었다.
이와 같이 책 앞에서는 각각 파이프라인 별로 어떠한 기능들을 이용하여 구현할 수 있는지 설명을 해주었다.
해당 도서에서 가장 좋았던 점을 느낀것은 바로 모범 사례 파트였다.
- 아마존 세이지 메이커와 텐서플로를 이용한 추천 시스템 생성하기
- 아마존 세이지 메이커와 아파치 스파크로 추천 시스템 생성하기
등 다양한 사례들이 존재했고, 사례 소개 뿐만 아니라 참고할 수 있는 코드까지 같이 내용에 포함되어 너무 좋은 가이드가 될 수 있을 것이라 생각되었다.
그 이후로는 세이지 메이커로 AutoML 사용하는 법과 아테나를 통한 데이터 적재 등 다양한 코드 기반으로 한 가이드들을 보여주었다.
해당 도서는 코드를 기반으로 여러가지 사례들을 안내해주고 가이드로 참고할 수 있는 부분이 많아 초보자 및 실무자들에게 굉장히 좋은 이정표로 쓰일 것으로 기대가 되었다.
728x90
반응형
'도서 리뷰 > 빅데이터&IT' 카테고리의 다른 글
개발자의 하루를 바꾸는 코파일럿 & 챗GPT (0) | 2023.09.22 |
---|---|
팀 개발을 위한 Git, GitHub 시작하기(개정판) (0) | 2023.06.25 |
혼자 공부하는 머신러닝+딥러닝 (0) | 2023.04.22 |
트랜스포머를 활용한 자연어 처리 (0) | 2023.03.22 |
혼자 공부하는 컴퓨터구조 + 운영체제 (0) | 2022.12.30 |