데이터를 기반으로

SQL로 시작하는 데이터 분석 본문

도서 리뷰/빅데이터&IT

SQL로 시작하는 데이터 분석

이노후 2022. 8. 21. 21:43
728x90
반응형

도서명 : SQL로 시작하는 데이터 분석

출판사 : 한빛미디어

 

지은이 : 캐시 타니무라 지음

 

독서 기간 : 2022-08-12 ~ 2022-08-21

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

 

 

데이터 분석을 진행하면서 생각보다 중요하다고 느끼는 게 SQL이었다.

 

신입으로 데이터 분석 업무를 진행하게 된다면 가장 먼저 하게 되는 것이 무엇일까? 바로 데이터 추출 및 파악이다.

 

우리 회사의 데이터는 어떻게 적재되고 있으며, 어떤 성질과 특성이 있는지 파악을 하는 것이 가장 선행으로 이루어져야 한다. 그래야 이후 분석에도 명확한 인사이트를 도출할 수 있다.

 

데이터를 1차적으로 파악하지 못 하고 분석을 진행한다면, 해당 분석 상대적으로 효과적이지 않을 수 있다.

 

이러한 이유로 데이터 분석에서 DB 및 SQL은 굉장히 중요하다고 생각하는 포인트 중 하나이고 이러한 분야를 좀 더 기본을 다지며 새로 리마인드 한다는 생각으로 해당 책을 선정하게 되었다.

 

목차는 크게 9가지로 구성 되어 있다.

 

CHAPTER1. SQL을 활용한분석

CHAPTER2. 데이터 준비

CHAPTER3. 시계열 분석

CHAPTER4. 코호트 분석

CHAPTER5. 텍스트 분석

CHAPTER6. 이상 탐지

CHAPTER7. 실험 분석

CHAPTER8. 복잡한 데이터 셋 생성

CHAPTER9. 결론

 

본인이 중점적으로 본 챕터는 3~5, 7~9 이다. 물론 다른 챕터들도 중요하지만, 해당 챕터가 필자에게 현재 가장 필요한 부분이라 생각되어 더 꼼꼼하게 확인했다.

 

간단하게 위 언급한 챕터들을 중점적으로 후기를 작성하겠다.

 

CHAPTER3. 시계열 분석

시계열 분석 챕터에서는 데이터 타입이 DATETIME or TIMESTAMP 인 것들을 위주로 핸들링하는 방식에 대한 설명이 주를 이루었다. 실무에서도 굉장히 많이 쓰이는 함수들도 존재하며, 피해갈 수 없는 시계열 분석의 초석을 다지기 위한 안내들이 많은 챕터였다.

 

CHAPTER4. 코호트 분석

코호트 분석 챕터에서는 코호트 분석이 무엇인지 개념부터 설명을 해주었다. 필자는 코호트 분석이라는 타이틀을 달고 분석을 직접적으로 진행해본 적은 없었으나, 책을 읽으며 여태까지 내가 했던 업무들 중 많은 부분은 코호트 분석이었구나...라고 깨닫게 해주는 부분도 많았다. 코호트 분석에서는 리텐션을 중점적으로 데이터를 관찰하고 분석하는 부분들이 많았다.

 

CHAPTER5. 텍스트 분석

텍스트 분석 챕터를 들어서면서 필자는 조금 의심스러웠다. 어떻게 SQL로 텍스트 분석이 가능하지? 라는 의심을 가지며 책을 읽어나갔다. 물론, NLP의 다양한 기법들이 소개되는 부분은 아니었지만 생각보다 꼭 필요한 부분들의 소개가 많았다. 다들 아시겠지만, SQL 은 데이터 추출 과정에서 굉장히 많이 쓰이는 부분이다. 그렇다 보니 텍스트 분석에서의 전처리 과정은 거의 대부분 SQL로 가능하지만, 대부분의 신입(?)분들은 Python이나 R 코드 상에서 처리하고자 한다.  SQL을 잘하는 것의 가장 큰 장점은 데이터 추출 및 전처리 과정이 굉장히 빠르게 진행할 수 있다는 점이다. 이러한 장점을 명확히 보여주는 챕터였다고 생각된다.

 

CHAPTER6. 이상 탐지

이상 탐지 챕터에서는 주로 아웃라이어나 데이터의 이상치들을 위주로 설명해주었다. 아예 특정 범위를 벗어나는 값과 데이터 타입에 맞지 않는 데이터가 존재하거나, null 등 다양한 케이스의 이상치를 설명해주었다. 추가로 루트, 제곱 등 리스케일링을 하는 방식에 대한 설명도 존재했다.

 

CHAPTER7. 실험 분석

실험 분석의 카이제곱 및 t 검정이 있길래 설마 SQL에도 해당 검정들을 진행하는 함수가 있을까? 라는 마음에 설레는 마음으로 챕터를 읽기 시작했다. 당연히 본인이 Function을 따로 설정하면 가능하지만 기본적으로 제공하는 함수가 존재하지는 않아 조금은 실망하긴 했다. 하지만, 당연히 이러한 기능들이 대부분 존재한다면 왜 파이썬과 다른 분석 언어 및 툴 들이 존재하겠는가..라는 생각이 들며 수긍하였다. 그렇게 기본적인 이론을 알고 있다면 두 집단의 평균과 분산 등을 구하며 직접 검증을 진행할 수 있고 이러한 일련의 과정을 설명해주는 챕터였다.

 

현재 이직한 회사에서는 POSTGRESQL을 사용하며 해당 책 또한 동일한 DB로 예제가 구성되어 있어 굉장히 이해가 빠르게 되었다.

 

모든 데이터 분석을 준비하는 취준생 또는 신입 분들에게 꼭 전하고 싶은 말이 있다.

 

'SQL을 등한시 하지 말아라.'

 

이런 말을 전하고 싶다. SQL은 데이터 분석가에게 있어서 기초이자 꼭 필요한 언어이며 SQL을 잘한다면 그 이상의 가치를 가질 수 있다고 말하고 싶다.

728x90
반응형