데이터를 기반으로

머신러닝 리스크 관리 with 파이썬 본문

도서 리뷰/빅데이터&IT

머신러닝 리스크 관리 with 파이썬

이노후 2024. 6. 21. 16:10
728x90
반응형

도서명 :  머신러닝 리스크 관리 with 파이썬

출판사 : 한빛미디어

 

지은이 : 패트릭 홀,제임스 커티스,파룰 판데이 지음

 

독서 기간 : 2024-06-15 ~ 2024-06-21

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

 

 

작년 부터 다짐한 것은 '분석가'가 아닌 '엔지니어'의 길로 조금은 틀어봐야겠다 라는 생각으로 공부를 하고 있는 중이다.

 

그러던 중 회사 업무가 ML 업무가 주어진 적도 있었고, 현재는 MLops 파이프라인 구축을 진행할 예정이다. 이러한 상황에서 해당 도서는 생각보다 많은 도움이 되었다.

 

단순히 모델러들의 입장에서도 더 좋은 더 robust한 모델을 만들기 위해 도움이 되겠지만, MLops 구축하는 분들에게도 도움이 될만한 책이라고 보여진다.

 

우선, 목차 부터 확인해보자.

 

[1부_ 인공지능 위험관리의 이론과 실제 적용 사례]
   1장 현대의 머신러닝 위험관리
  2장 해석 및 설명 가능한 머신러닝
  3장 안전성과 성능을 높이는 머신러닝 시스템 디버깅
  4장 머신러닝 편향관리
  5장 머신러닝 보안

[2부_ 인공지능 위험관리 실행하기]
  6장 설명 가능한 부스팅 머신과 XGBoost 설명
  7장 파이토치 이미지 분류기
  8장 XGBoost 모델 선택 및 디버깅
  9장 파이토치 이미지 분류기 디버깅
  10장 XGBoost를 사용한 편향 테스트 및 개선
  11장 레드 팀 XGBoost

[3부_ 결론]
  12장 고위험 머신러닝에서 성공하는 방법

 

세부 목차는 생략했다. 목차만 보아도 알겠지만 일반적인 머신러닝 도서들과는 확실히 다르게 '리스크' 관점에서 서술된게 보인다. 

 

책을 처음 접했을 때 가장 먼저 들었던 생각은 확실히 현업에서 근무를 오래하신 분이 저술한 책이구나 였다.

 

많은 공학도들이 간과하는 법적인 부분 부터 첫 글이 시작되었다. 해당 부분을 보면서 필자의 법적 이슈로 인한 고충이 느껴지는 부분이 많았다.

 

추가로 ML 리스크 관리에서 개략적으로 체크해야할 리스트를 안내해주는 부분이 있다.

 

1. 기본 정보 
- 개발자 및 이해 관계자 이름
- 현재 날짜 및 개정표
- 모델 시스템 요약 비즈니스 또는 가치 정당화 Įvalue justification
- 사용 목적 및 대상 사용자 잠재적 피해 및 윤리적 고려 사항 
2. 개발 데이터 정보
- 개발 데이터 출처
- 데이터 사전
- 프라이버시 영향 평가
- 가정 및 제한 사항
- 데이터 전처리 에 사용할 소프트웨어 구현
3. 모델 정보 
- 동료 검토 참조 가 포함 된 학습 알고리즘 설명
- 모델 사양
- 성능 품질
- 가정 및 제한 사항
4. 테스트 정보
- 품질 테스트 및 수정
- 판별 테스트 및 수정
- 보안 테스트 및 수정
- 가정 및 제한 사항 테스트 에 사용할 소프트웨어 구현
5. 배포 정보 
- 모니터링 계획 및 메커니즘 상위 및 하위 종속성
- 이의 제기 및 재정 의 계획 및 메커니즘
- 감사 계획 및 메커니즘
- 변경 관리 계획
- 사고 대응 계획

 

해당 부분을 기반으로 체크하며 리스크 관리를 추가적으로 할 수 있을 것 같았다.

 

추가로 단순히 MLops에 치우친 내용만 존재하는 것은 아니었다.

 

잔차에 관한 내용을 다루는 부분이 있는데 해당 부분에서 '잔차 국소 기여도' 에 대한 설명이 나온다.

 

해당 파트에서 유익했던 부분은 변수에 대한 의존도를 보는 부분이었는데 보통 모델링 후 변수 중요도에 대한 나래비를 세워 어떠한 변수가 해당 모델에서 중요한지 보는데 반대로 표본으로 추정한 예측값과 실제값의 차이인 잔차의 중요도를 같이 보는 부분이었다.

 

결론적으로는 1개의 변수에 너무 의존적이면 모델에 대한 신뢰도가 떨어질 수 있다는 의견이었다.

 

하여, 단일 변수에 의존적인 모델이 아닌 고루 의존적인 모델을 개발하는 방법도 고려하면 좋을 것 같다는 의견이었다.

 

모델링 측면으로도 좋은 의견이 있어 해당 도서는 엔지니어 뿐만 아니라 분석가에게도 너무 좋은 도서인 것 같았다.

728x90
반응형