스파크를 활용한 빅데이터 분석
: 대용량 빅데이터 분석을 위한 스파크 실무 가이드
저자 모하마드 굴러
역자 최기선
출판사 비제이퍼블릭
출간일 2016년 7월 4일
정가 28,000원
페이지 388
판형 188*245
ISBN 979-11-86697-19-1 (93000)
원서정보 Big Data Analystics with Spark
책 소개
빅데이터 분석을 위한 스파크의 기초 안내서
이 책은 충실한 스파크 입문서로, 가장 인기 있는 함수적 프로그래밍 언어인 스칼라에 대한 내용까지 담고 있다. 스칼라를 통해 함수적 프로그래밍의 기본을 배우고 이를 스파크 애플리케이션 개발에 사용할 수 있을 것이다.
이 책에서 다루는 내용
- 대용량 데이터를 처리하고 분석하기 위해 스칼라로 스파크 애플리케이션을 개발하는 방법
- SQL과 HiveQL 기반의 스파크 SQL로 상호 대화형 대용량 데이터 분석 방법
- 스파크 스트리밍을 이용한 고속 데이터 스트림 처리 방법
- Mllib와 스파크 ML을 이용한 머신 러닝 애플리케이션 개발 방법
- GraphX를 이용한 그래프 지향 데이터 분석과 그래프 알고리즘 구현 방법
- 스탠드얼론 클러스터 매니저와 얀(YARN), 메소스(Mesos)를 이용한 스파크 디플로이 방법
- 스파크 애플리케이션 모니터링 방법
독자대상
초중급
저자 소개
모하마드 굴러(Mohammed Guller)
고급 및 예측 분석 소프트웨어 제품을 개발하는 글래스빔(Glassbeam)의 수석 아키텍트다. 빅데이터와 Spark 전문가로 빅데이터 관련 콘퍼런스에 주요 연사로 자주 초청되며, 빅데이터 분석과 머신 러닝과 관련된 신제품 개발에 주력하고 있다.
그는 지난 20여 년 동안 혁신적인 기술 제품 다수를 성공적으로 개발했다. 글래스빔에 합류하기 전에는 5년간의 IBM 근무 후 TrustRecs.com을 설립 및 운영했으며, IBM에 합류하기 전에는 다수의 하이테크 스타트업 회사에서 일하며 신제품을 개발을 주도했다.
캘리포니아의 버클리 대학에서 경영학과 컴퓨터 응용프로그램 석사학위를 받았다.
역자 소개
최기선
인문학을 전공한 IT 전문가로 15년 이상 데이터를 다루는 일을 하고 있다. 급변하는 기술 속에서 변하지 않는 가치를 찾는 것, 그리고 인문학적인 IT에 대한 것이 최근의 관심사다.
LG CNS 빅데이터 조직에 근무하고 있으며, 서울 과학기술대학교 IT정책 전문 대학원에 재학 중이다. 정보관리 기술사로 활동하고 있다.
목차
1장. 빅데이터 생태계의 기술들
- 하둡
- 데이터 직렬화
- 칼럼 기반 스토리지
- 메시징 시스템
- No SQL
- 분산 SQL 쿼리 엔진
- 요약 및 정리
2장. 스칼라 프로그래밍
- 함수형 프로그래밍
- 스칼라 기본
- 스탠드얼론 스칼라 애플리케이션
- 요약 및 정리
3장. 스파크 코어
- 개요
- 고차원 아키텍처
- 애플리케이션 실행
- 데이터 소스
- API
- SparkContext
- 레이지 오퍼레이션
- 캐시
- 스파크 잡들
- 공유 변수
- 요약 및 정리
4장. 스파크 쉘을 이용한 대화형 데이터 분석
- 시작하기
- REPL 명령어
- 스칼라 쉘로 스파크 쉘 사용하기
- 숫자값 분석
- 로그 분석
- 요약 및 정리
5장. 스파크 애플리케이션 개발
- Hello World
- 애플리케이션 컴파일 및 실행
- 애플리케이션 모니터링
- 애플리케이션 디버깅
- 요약 및 정리
6장. 스파크 스트리밍
- 스파크 스트리밍 소개
- API
- 스파크 스트리밍 애플리케이션
- 요약 및 정리
7장. 스파크 SQL
- 스파크 SQL 소개
- 성능
- 애플리케이션
- API
- 내장 함수
- UDF와 UDAF
- 대화형 분석 예제
- 스파크 SQL JDBC 서버를 이용한 대화형 분석
- 요약 및 정리
8장. 스파크 머신 러닝
- 머신 러닝 소개
- 스파크 머신 러닝 라이브러리
- MLlib 개요
- MLlib API
- MLlib 애플리케이션 예제
- 스파크 ML
- 스파크 ML 애플리케이션 예제
- 요약 및 정리
9장. 스파크 그래프 프로세싱
- 그래프 소개
- GraphX 소개
- GraphX API
- 요약 및 정리
10장. 클러스터 매니저
- 스탠드얼론 클러스터 매니저
- 아파치 메소스
- 얀
- 요약 및 정리
11장. 모니터링
- 스탠드얼론 클러스터 모니터링
- 스파크 애플리케이션 모니터링
- 요약 및 정리
출판사 리뷰
이 책은 스파크와 함께 사용할 수 있는 HDFS, 에이브로(Avro), 파퀘이(Parquet), 카프카(Kafka), 카산드라(Cassandra), Hbase, 메소스 등의 다른 빅데이터 기술에 대해서, 그리고 머신 러닝과 그래프 분석에 대한 개념에 대해서도 소개하고 있다. 이처럼 스파크를 사용하기 위해 알아야 하는 기술들을 총망라하고 있기 때문에, 빅데이터 분석에 대한 내용을 충분히 학습할 수 있다. 특히 프로그래밍 언어에 대한 기본적인 지식을 가지고 있으면 금상첨화라고 할 수 있다.
추천사
"이 책의 저자인 모하마드 굴러는 20년 이상 관련 경력을 가진 전문가로, 그의 linkedin을 방문해 보면 그가 과거 거쳐왔던 IBM과 Elron Software의 수많은 동료와 리더가 남긴 추천사를 읽어 보실 수 있으며 이후 그의 경력이 말해주듯이 빅데이터 분야에 대한 열정을 바탕으로 스타트업 (Glassbeam)에서의 도전을 즐기는 분입니다. 그리고 번역을 하신 최기선님 역시 빅데이터 분야에 종사 하고 있으며 기술에 대한 이해를 바탕으로 독자에게 저자의 생각과 노하우를 훌륭하게 전달할 수 있는 역량을 갖추신 분입니다. (중략) 본서의 베타 리더로 참여하게 되어 기존의 하둡을 뛰어넘는 인메모리 기반의 스파크의 성능과 스파크 SQL의 편의성에 대한 충분한 매력을 느낄 수 있었습니다. 여러분도 이 책을 통하여 스파크의 매력을 충분히 느끼고 실무에서 활용 가능한 역량을 연마하시기 바랍니다." – 베타리더 추천사 중에서.
러닝 프로세싱 (0) | 2016.07.11 |
---|---|
뷰티풀 자바스크립트 (1) | 2016.06.03 |
하둡 애플리케이션 아키텍처 (0) | 2016.05.24 |
댓글 영역