데이터를 기반으로

파이썬 라이브러리를 활용한 텍스트 분석 본문

도서 리뷰/빅데이터&IT

파이썬 라이브러리를 활용한 텍스트 분석

이노후 2022. 11. 23. 00:50
728x90
반응형

도서명 : 파이썬 라이브러리를 활용한 텍스트 분석

출판사 : 한빛미디어

 

지은이 : 크리스티안 윙클러

 

독서 기간 : 2022-11-15 ~ 2022-11-26

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

 

책 표지 화면

 

최근들어 실무에서 자연어 처리에 대한 업무 비중이 늘어나 해당 책을 선택하여 독서를 시작하였다.

 

Chapter 1. 텍스트 데이터에서 찾는 통찰

Chapter 2. API로 추출하는 텍스트 속 통찰

Chapter 3. 웹사이트 스크래핑 및 데이터 추출

Chapter 4. 통계 및 머신러닝을 위한 텍스트 데이터 준비

Chapter 5. 특성 엔지니어링 및 구문 유사성

Chapter 6. 텍스트 분류 알고리즘

Chapter 7. 텍스트 분류기

Chapter 8. 비지도 학습: 토픽 모델링 및 클러스터링

Chapter 9. 텍스트 요약

Chapter 10. 단어 임베딩으로 의미 관계 탐색

Chapter 11. 텍스트 데이터를 이용한 감성 분석

Chapter 12. 지식 그래프 구축

Chapter 13. 프로덕션에서 텍스트 분석

 

목차만 봐도 알 수 있듯이 타 텍스트 관련 서적에 비해서 데이터 로드 부터 전처리까지 모두 다 텍스테 데이터에 한해서만 진행되어 있다.

 

챕터 1, 2 를 보면 알 수 있지만 텍스트 사이의 통찰이라는 부분은 텍스트 데이터의 본질을 파악하기 위한 부분이라고 이해하면 빠르다. 

 

하지만, 단순하게 텍스트 데이터는 어떻게 정제하며 형태소 분석을 해서 빈도수가 얼마이고 이러한 진부한 과정이 아닌 단어 빈도만으로도 TF-IDF를 이용한 빈도 분석을 진행하는 것을 볼 수 있었다.

 

나아가 N-Gram 분석과 시계열 데이터와 함께 바라보는 방법도 소개되었다.

 

챕터 2, 3은 데이터 수집에 대한 부분이 공통적으로 들어가있다. 

 

챕터 제목에서도 보이지만 챕터 2는 API를 통해 텍스트 데이터들을 추출한다. 단순 공공 데이터 포털과 같은 API를 제공해주는 곳에서 텍스트 데이터를 가져올 수도 있지만, 트위터와 같은 텍스트 기반의 방대한 데이터가 적재되어 있는 기업이 제공하는 API를 통해 데이터 수집하는 것을 볼 수 있다.

 

그리고 챕터 3는 챕터 2와 달리 웹스크래핑으로 데이터 수집에 대한 이야기를 풀어나갔다. API 처럼 표준화된 방법으로 데이터를 가져올 수 있는 것은 축복과도 같은 일이다. 하지만, 이렇게 API를 통한 방법이 아닌 웹 스크래핑이란 방법으로 데이터를 수집하는 방법을 알려주는 파트이다.

 

기존에 내가 알고 있던 selenium 방식은 설명되어 있지않고, 대부분이 request 방식으로 HTML을 추출하여 파싱하는 방법으로 설명이 되어 있다.

 

챕터 4 부터는 본격적인 분석이 진행되는 파트이다. 

해당 파트가 텍스트 데이터 전처리의 모든 과정을 간략히 각각 하나씩 보여주는 아주 좋은 파트라고 생각된다. 정규표현식으로 클렌징을 하고 불용어제거, 각 품사별 추출 등 거기다 추가로 맞춤법 검사까지 해당 파트의 프로세스는 일반 실무에서도 활용되는 방법들이고 순서인 것 같다.

 

챕터 5는 4와 비슷한 행태로 진행되었고, 챕터 6부터 본격적인 모델링이 시작되었다.

 

챕터 6에서는 텍스트 분류 알고리즘을 구축하는 내용을 담고있다. 샘플 분류 모델은 SVC와 Linear SVC를 기반으로 구축을 진행한다. pipline 함수를 사용해 최적의 하이퍼파라미터와 모델을 찾아내는 과정까지 포함되어있다.

 

챕터 7은 텍스트 분류기에 중점적으로 이야기를 진행한다.

 

이후 챕터들도 하나씩 살펴보면 일반적인 분류만 진행하는 것이 아닌 감성분석과 비지도 학습 방법론 등 다양한 분석 방법과 목표들이 있는 도서였다.

728x90
반응형