일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 |
- 패스트캠퍼스
- 태국여행
- 분석
- 자동매매프로그램
- 방콕여행
- 파이썬을활용한시계열데이터분석A-Z올인원패키지
- 상관분석
- 통계분석
- 패스트캠퍼스후기
- 리뷰
- DAGs
- 패캠챌린지
- Python
- 머신러닝
- 데이터 분석
- 파이썬
- 딥러닝
- 에어플로
- airflow
- EDA
- correlation
- 직장인인강
- 직장인자기계발
- 데이터분석
- Ai
- 빅데이터
- API
- 독서리뷰
- 데이터
- 활성화함수
- Today
- Total
데이터를 기반으로
머신러닝 리스크 관리 with 파이썬 본문
도서명 : 머신러닝 리스크 관리 with 파이썬
출판사 : 한빛미디어
지은이 : 패트릭 홀,제임스 커티스,파룰 판데이 지음
독서 기간 : 2024-06-15 ~ 2024-06-21
"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."
작년 부터 다짐한 것은 '분석가'가 아닌 '엔지니어'의 길로 조금은 틀어봐야겠다 라는 생각으로 공부를 하고 있는 중이다.
그러던 중 회사 업무가 ML 업무가 주어진 적도 있었고, 현재는 MLops 파이프라인 구축을 진행할 예정이다. 이러한 상황에서 해당 도서는 생각보다 많은 도움이 되었다.
단순히 모델러들의 입장에서도 더 좋은 더 robust한 모델을 만들기 위해 도움이 되겠지만, MLops 구축하는 분들에게도 도움이 될만한 책이라고 보여진다.
우선, 목차 부터 확인해보자.
[1부_ 인공지능 위험관리의 이론과 실제 적용 사례]
1장 현대의 머신러닝 위험관리
2장 해석 및 설명 가능한 머신러닝
3장 안전성과 성능을 높이는 머신러닝 시스템 디버깅
4장 머신러닝 편향관리
5장 머신러닝 보안
[2부_ 인공지능 위험관리 실행하기]
6장 설명 가능한 부스팅 머신과 XGBoost 설명
7장 파이토치 이미지 분류기
8장 XGBoost 모델 선택 및 디버깅
9장 파이토치 이미지 분류기 디버깅
10장 XGBoost를 사용한 편향 테스트 및 개선
11장 레드 팀 XGBoost
[3부_ 결론]
12장 고위험 머신러닝에서 성공하는 방법
세부 목차는 생략했다. 목차만 보아도 알겠지만 일반적인 머신러닝 도서들과는 확실히 다르게 '리스크' 관점에서 서술된게 보인다.
책을 처음 접했을 때 가장 먼저 들었던 생각은 확실히 현업에서 근무를 오래하신 분이 저술한 책이구나 였다.
많은 공학도들이 간과하는 법적인 부분 부터 첫 글이 시작되었다. 해당 부분을 보면서 필자의 법적 이슈로 인한 고충이 느껴지는 부분이 많았다.
추가로 ML 리스크 관리에서 개략적으로 체크해야할 리스트를 안내해주는 부분이 있다.
1. 기본 정보
- 개발자 및 이해 관계자 이름
- 현재 날짜 및 개정표
- 모델 시스템 요약 비즈니스 또는 가치 정당화 Įvalue justification
- 사용 목적 및 대상 사용자 잠재적 피해 및 윤리적 고려 사항
2. 개발 데이터 정보
- 개발 데이터 출처
- 데이터 사전
- 프라이버시 영향 평가
- 가정 및 제한 사항
- 데이터 전처리 에 사용할 소프트웨어 구현
3. 모델 정보
- 동료 검토 참조 가 포함 된 학습 알고리즘 설명
- 모델 사양
- 성능 품질
- 가정 및 제한 사항
4. 테스트 정보
- 품질 테스트 및 수정
- 판별 테스트 및 수정
- 보안 테스트 및 수정
- 가정 및 제한 사항 테스트 에 사용할 소프트웨어 구현
5. 배포 정보
- 모니터링 계획 및 메커니즘 상위 및 하위 종속성
- 이의 제기 및 재정 의 계획 및 메커니즘
- 감사 계획 및 메커니즘
- 변경 관리 계획
- 사고 대응 계획
해당 부분을 기반으로 체크하며 리스크 관리를 추가적으로 할 수 있을 것 같았다.
추가로 단순히 MLops에 치우친 내용만 존재하는 것은 아니었다.
잔차에 관한 내용을 다루는 부분이 있는데 해당 부분에서 '잔차 국소 기여도' 에 대한 설명이 나온다.
해당 파트에서 유익했던 부분은 변수에 대한 의존도를 보는 부분이었는데 보통 모델링 후 변수 중요도에 대한 나래비를 세워 어떠한 변수가 해당 모델에서 중요한지 보는데 반대로 표본으로 추정한 예측값과 실제값의 차이인 잔차의 중요도를 같이 보는 부분이었다.
결론적으로는 1개의 변수에 너무 의존적이면 모델에 대한 신뢰도가 떨어질 수 있다는 의견이었다.
하여, 단일 변수에 의존적인 모델이 아닌 고루 의존적인 모델을 개발하는 방법도 고려하면 좋을 것 같다는 의견이었다.
모델링 측면으로도 좋은 의견이 있어 해당 도서는 엔지니어 뿐만 아니라 분석가에게도 너무 좋은 도서인 것 같았다.
'도서 리뷰 > 빅데이터&IT' 카테고리의 다른 글
혼자 공부하는 네트워크 (0) | 2024.05.14 |
---|---|
개발자를 위한 최소한의 실무 지식, 현장에서 바로 써먹는 40가지 핵심 기술 (2) | 2024.02.24 |
데이터 메시(Data Mesh) (1) | 2024.01.08 |
데이터 드리븐 리포트 (0) | 2023.11.24 |
개발자의 하루를 바꾸는 코파일럿 & 챗GPT (0) | 2023.09.22 |