하둡 애플리케이션 아키텍처

:
하둡 에코시스템을 활용한 빅데이터 처리


저자
마크 그로버, 테드 멀래스커, 조나단 사이드먼, 그웬 사피라
역자
정동식, 홍다경, 우지현
출판사
비제이퍼블릭

출간일 2016년 5월 30일 (월)
정가
33,000원
페이지
524
판형
173*230
ISBN
979-11-86697-17-7 (93000)
원서정보
Hadoop Application Architectures


책 소개

아파치 하둡으로 총괄적인 데이터 관리 솔루션을 구축해보자

이 책을 통하여 아파치 하둡으로 총괄적인 데이터 관리 솔루션을 구축하는 일에 대한 전문가의 조언을 얻을 수 있다. 많은 소스를 활용하여 하둡 에코시스템의 다양한 요소들을 사용하는 방법을 설명하고, 그 요소들을 독자가 처한 개별 상황에서 완성형의 애플리케이션으로 조화롭게 통합해내기 위해 고려해야 할 아키텍처 요구 사항을 살펴보는 방법으로 이론과 실무를 동시에 다루고 있다.

하둡 애플리케이션에서 가장 일반적으로 사용되는 아키텍처의 상세한 예제가 풍부하게 제시되어 있다. 하둡 애플리케이션을 설계하거나 하둡을 기존 데이터 인프라스트럭처에 통합할 계획이 있다면, 아래 내용들로 구성된 이 책의 기술적 안내를 따라가는 것이 훌륭한 선택이 될 것이다.


- 하둡을 사용한 데이터 저장과 모델링에서 고려해야 할 사항
- 데이터를 시스템의 내/외부로 이동할 때 참고할 만한 최적 사례
- 맵리듀스, 스파크, 하이브를 포함한 데이터 프로세싱 프레임워크
- 중복 레코드 제거, 윈도잉 분석 사용 등 일반적인 하둡 프로세싱 패턴
- 하둡의 대용량 그래프 프로세싱을 위한 지라프, 그래프X, 그 외 다양한 툴
- 아파치 우지 같은 워크플로 오케스트레이션과 스케줄링 툴 활용법
- 아파치 스톰, 아파치 스파크 스트리밍, 아파치 플룸을 활용한 근접 실시간 스트림 프로세싱
- 클릭스트림 분석, 부정거래 탐지, 데이터 웨어하우스의 아키텍처 예제


독자대상
초중급


저자 소개

마크 그로버

아파치 빅탑(Apache Bigtop)의 커미터이자 아파치 센트리(인큐베이팅 중)의 커미터이자 PMC 멤버이다. 또한 아파치 하둡, 아파치 하이브, 아파치 스쿱, 아파치 플룸 프로젝트의 기여자이며 아파치 하이브를 다룬 『프로그래밍 하이브(Programming Hive)』(O'Reilly)의 한 섹션을 저술하였다.


테드 멀래스커

하둡과 하둡 에코시스템을 이용하여 고객의 성공적인 수행을 도와주는 클라우데라의 수석 솔루션 아키텍트이다. 이전에는 미국 증권업계 자율규제기구(FINRA)의 선임 아키텍트로서 웹 애플리케이션과 서비스 지향적 아키텍처에서부터 빅데이터 애플리케이션까지 다수의 솔루션을 만들어냈다. 또한 그는 아파치 플룸, 아파치 애브로, 얀, 아파치 피그의 코드 기여자이다.

요나단 사이드먼
클라우데라의 솔루션 아키텍트로 파트너의 솔루션과 클라우데라의 솔루션 스택을 통합하는 일을 하고 있다. 이전에는 오비츠 월드와이드(Orbitz Worldwide) 소속 빅데이터 팀의 기술 리더로서 인터넷에서 트래픽이 가장 높은 한 사이트의 하둡 클러스터 관리를 담당하였다. 또한 그는 시카고 하둡 사용자 그룹과 시카고 빅데이터의 공동 설립자이자 『하둡 인 프랙티스(Hadoop in Practice)』의 기술 편집자이며, 하둡과 빅데이터에 관한 다수의 비즈니스 컨퍼런스에서 발표하였다.

그웬 사피라
클라우데라의 솔루션 아키텍트이다. 그녀는 확장성 있는 데이터 아키텍처 설계 영역에서 고객과 함께한 15년의 경험을 가지고 있다. 이전에는 피시언(Pythian)의 수석 컨설턴트, 오라클 ACE 디렉터, NoCoUG의 임원이었다. 그녀는 다수 비즈니스 컨퍼런스에서 발표하였으며 인기 있는 블로그를 운영하고 있다.


역자 소개

정동식
경북대학교 경영학과를 졸업하였으며, 현재 LG CNS 빅데이터사업담당에서 일하고 있다. 금융, 물류, 제조 등 다양한 분야에서 빅데이터, 데이터웨어하우스, 비즈니스인텔리전스, CRM, SCM 등 데이터 관련 다수의 프로젝트를 수행하였다. 역서로 『랄프 킴벌의 데이터 웨어하우스 툴킷』, 『머신 러닝 인 파이썬』등이 있다.

홍다경
고려대학교 통계학과를 졸업하였으며, 현재 LG CNS 빅데이터사업담당에서 근무하고 있다.

우지현
연세대학교 경영학과를 졸업하였으며, 현재 LG CNS 빅데이터사업담당에서 근무하고 있다.



목차

1부. 하둡 애플리케이션의 아키텍처 고려사항

1장. 하둡 데이터 모델링
- 데이터 스토리지 옵션
- HDFS 스키마 디자인
- HBase 스키마 디자인
- 메타데이터 관리
- 결론

2장. 데이터 이동
- 데이터 수집 고려사항

- 데이터 수집 옵션
- 데이터 추출
- 결론

3장. 하둡 데이터 프로세싱
- 맵리듀스
- 스파크
- 추상화
- 크런치
- 캐스케이딩
- 하이브
- 임팔라
- 결론

4장. 하둡의 일반적인 프로세싱 패턴들

- 패턴: 기본 키를 활용한 중복 레코드의 삭제
- 패턴: 윈도잉 분석
- 패턴: 시계열 갱신
- 결론

5장. 하둡 그래프 프로세싱
- 그래프란 무엇인가?
- 그래프 프로세싱이란 무엇인가?
- 분산 시스템에서 그래프를 어떻게 처리 하는가?
- 지라프
- 그래프X
- 어떤 툴을 사용해야 하는가?
- 결론

6장. 오케스트레이션
- 왜 워크플로 오케스트레이션이 필요한가
- 스크립팅의 한계
- 엔터프라이즈 작업 스케줄러와 하둡
- 하둡 에코시스템의 오케스트레이션 프레임워크
- 우지 용어
- 우지 개요
- 우지 워크플로
- 워크플로 패턴
- 워크플로 파라미터 처리
- 클래스 경로 정의
- 패턴 스케줄링
- 워크플로의 실행
- 결론

7장. 하둡을 활용한 근접 실시간 프로세싱

- 스트림 프로세싱
- 아파치 스톰
- 트라이던트
- 스파크 스트리밍
- 플룸 인터셉터
- 어떤 툴을 사용할 것인가?
- 결론

2부. 사례 연구

8장. 클릭스트림 분석
- 적용 사례 정의
- 클립스트림 분석에 하둡 사용하기
- 설계 개요
- 스토리지
- 수집
- 처리
- 분석
- 오케스트레이션
- 결론

9장. 부정거래 탐지

- 끊임없는 개선
- 대응 하기
- 부정거래 탐지 시스템의 아키텍처 요구사항
- 적용 사례 소개
- 상위 수준 설계
- 클라이언트 아키텍처
- 프로파일 저장과 추출
- 수집
- 근접 실시간과 탐색적 분석
- 근접 실시간 프로세싱
- 탐색적 분석
- 다른 아키텍처는 어떠한가?
- 결론

10장. 데이터 웨어하우스
- 데이터 웨어하우스 구축에 하둡 사용
- 적용 사례 정의
- OLTP 스키마
- 데이터 웨어하우스: 소개와 용어
- 하둡으로 데이터 웨어하우스 구축
- 상위 수준 설계
- 결론


출판사 리뷰

'빅데이터'는 정보 기술에 관련된 수많은 기사와 저널, 세미나에서 가장 많이 다뤄지고 있는 단어이며 최근에는 방송의 홍보 수단으로 이용될 만큼 일반인에게도 친숙한 단어다. 이와 관련하여 '하둡'은 기술 측면에서 빅데이터를 언급할 때 반드시 등장하는 중요한 키워드가 되고 있다.

이 책은 하둡에 대한 소개와 하둡을 이용해 할 수 있는 일, 또 그 일을 하기 위해 어떤 식으로 개별 옵션을 구성하고 계획해야 하는지 등을 안내하고 있다.

이 책은 다음과 내용을 제공한다


- 하둡 생태계를 구성하는 수많은 옵션들을 이용하여 비즈니스상의 문제 해결을 위한 아키텍처를
  어떻게 구성할 
것인가?
- 아키텍처 구성 관점에서 하둡 모델링, 데이터 수집 등 업무 영역을 지원하는 개별 옵션들의 구조
  및 배경 지식

- 만들어 낸 아키텍처의 장단점, 실제 적용 사례까지의 폭넓은 구성

빅데이터에 대한 관심이 나날이 높아지고 있는 가운데, 이를 위한 기술과 방법론이 망라된 이 책이 빅데이터 전문가로 향하는 좋은 밑거름이 될 수 있다.

누구를 위한 책인가

하둡에 관심이 있는 초급 프로그래머와 하둡을 이용해 실제 비즈니스 문제를 해결하려는 현업 부서 IT 담당자에게는 충실한 참고 도서 역할을, 유사 업무 진행 담당자에게는 쓸모 있는 사례 연구서의 역할을 할 수 있을 것이라 기대 된다.


신고
Trackback 0 | Comment 0

퍼블릭's Blog is powered by Daum & tistory

 

티스토리 툴바