데이터를 기반으로

(1.1절) 빅데이터의 정착 본문

스터디/(빅지기)도서정리

(1.1절) 빅데이터의 정착

이노후 2023. 11. 2. 15:59
728x90
반응형

빅데이터 기술에서 가장 먼저 예로 들 수 있는 것이 'Hadoop'과 'NoSQL'이다.

 

웹 서버 등에서 생성된 데이터는 처음에는 RDB와 NoSQL 등의 텍스트 데이터에 저장된다. 그 후 모든 데이터가 Hadoop으로 모이고 거기서 대규모 데이터 처리가 실행된다.

 

기존 RDB에 대용량 데이터들을 처리하는데 한계가 생겼으며 이를 해결하기 위해 'Hadoop'과 'NoSQL'이 각각 다른 형태로 나온 것이다.

 

[ Hadoop ]

Hadoop은 다수의 컴퓨터에서 대량의 데이터 처리하기 위한 시스템이다.

전세계의 웹페이지를 모아서 검색 엔진을 만들고자할 때, 방대한 데이터를 저장해둘 스토리지와 순차적으로 데이터 처리를 할 수 있는 구조가 필요하다. 그러기 위해서는 수 백, 수천 대의 컴퓨터가 이용되어야 하며 그것을 관리하는 프레임워크가 Hadoop이다.

 

Hadoop(이하 하둡)은 원래 구글에서 개발된 분산 처리 프레임워크인 'Mapreduce'를 참고하여 제작되었다.

초기 하둡에서 Mapreduce(이하 맵리듀스)를 동작시키려면 데이터 처리의 내용을 기술하기 위해 자바 언어로 프로그래밍해야했다.

(그렇기에 누구나 간단하게 사용하기 힘들었다고 한다)

 

이를 위해 SQL 같은 쿼리 언어를 하둡에서 실행하기 위한 소프트웨어로 'Hive(이하 하이브)'가 개발되었다.

 

[ NoSQL ]

NoSQL은 전통적인 RDB의 제약을 제거하는 것을 목표로 한 DB의 총칭이다.

NoSQL DB에는 다양한 종류가 있다.

  • KVS(Key-Value Store) : 다수의 키와 값을 관련지어 저장
  • Documnet Store : Json과 같은 복잡한 데이터 구조를 저장
  • Wide-Column Store : 여러 키를 사용하여 높은 확장성을 제공

각 제품 마다 추구하는 목표가 다르지만 RDB보다 고속의 읽기, 쓰기가 가능하고 분산 처리에 뛰어나다는 특징을 갖추고 있다.

 

모여진 데이터를 나중에 집계하는 것이 목적인 Hadoop과 다르게 NoSQL은 어플리케이션에서 온라인으로 접속하는 DB이다.

 

분산 시스템의 비즈니스 이용 개척(데이터 웨어하우스와의 공존)

데이터 분석을 기반으로 하는 '엔터프라이즈 데이터 웨어하우스(EDW) or 데이터 웨어하우스(DW)' 를 도입했다.

 

분산 시스템 발전에 따라 점점 DW를 사용할 때 Hadoop을 사용하는 경우가 증가하며 Hive의 사용량 또한 증가했다. 이러한 하둡 생태계가 형성 된 것이다.

 

그리고 전통적인 방식으로도 DW에서 대량의 데이터를 어느 정도 처리할 수 있었다. 기존에는 하드웨어와 소프트웨어가 통합된 장비로 운영을 하였기에 나중에 데이터가 쌓여 확장을 하고자할 때 하드웨어의 교체가 불가피하기에 비용 발생이 컸다.

 

이러한 DW가 나오는 시점에서 경영자들의 요구사항이 반영된 데이터 시각화를 위한 데이터 디스커버리가 인기를 끌게 되었다.

셀프서비스용 BI 도구 라고 불리었다.

 

여러 기술 발전에 힘입어 2013년 이후에는 '효율'과 '편리성'을 실현하기 위해 계속해서 개발되었다.

'Apache Spark'라는 새로운 분산 시스템용 프레임 워크가 보급되면서 맵리듀스를 보다 효율적으로 데이터 처리를 할 수 있게 되었다.

728x90
반응형