스파크
: 빅데이터 관리자를 위한 클러스터 테크닉
저자 일리야 가넬린, 에마 오리안, 카이 사사키, 브레넌 요크
역자 정동식
출판사 비제이퍼블릭
출간일 2016년 9월 29일
정가 20,000원
페이지 256
판형 173*230
원서정보 SPARK: Big Data Cluster Computing in Production
책 소개
시스템 관리자를 위한 통합 운영 지침서
이 책은 스파크 자체에 대한 상세한 설명뿐만 아니라, 운영 환경에 스파크 클러스터를 적용할 때 필요한 자원 관리자의 역할과 그에 관한 설정, 스파크 애플리케이션의 성능 향상을 위한 스파크 내부와 외부의 다양한 튜닝 옵션과 기법들, 운영 환경에서 필수인 보안 설정 방법과 그에 대한 한계점, 폴트 톨러런스 구성과 운영 단계 이관 전의 테스트 수행 방법론, 그리고 스파크를 기반으로 발전하고 있는 수 많은 다양한 옵션들도 다루고 있습니다. 즉, 기존의 기술 서적에서 다루지 못했던 운영 이관 상황을 전제로 하여 클러스터와 애플리케이션에 해야 할 작업뿐만 아니라, 테스트와 장애 대응 등에 관한 부분도 구체적으로 서술 하고 있기 때문에 시스템 관리자를 위한 최적의 지침서라 할 수 있습니다.
이 책에서 다루는 내용
- 운영 데이터 위에서 실행할 스파크 애플리케이션의 정확한 튜닝
- 자원 관리하기, 스토리지 구성하기, 모니터링 숙달하기
- 실제 적용 단계에서의 잠재적인 문제에 관한 리뷰와 스파크가 어떤 영역에 가장 적합한가 확인하기
- 클러스터 사이즈를 계산하고, 하드웨어 요구 사항을 정확하게 정의하기
- 메모리 관리, 파티셔닝, 셔플링 등을 사용하여 성능 향상하기
- 운영 환경에서 스파크 스트리밍 문제 회피하기
- 얀, 메소스, 타키온 등과 스파크 통합하기
독자대상
중고급
저자 소개
일리야 가넬린(Ilya Ganelin)
원래 로봇 공학자였지만 데이터 전문가로 분야를 옮겼다. 미시건 대학에서 몇 년 동안 자동 탐사 로봇을 개발하였고, 또 몇 년간은 보잉에서 휴대폰과 라디오에 임베드된 DSP 소프트웨어를 개발하였으며, 캐피탈 원 데이터 이노베이션 랩에서 빅 데이터 세계에 발을 들였다. 차세대 분산 컴퓨팅 플랫폼을 개발하기 위해 필요한 것을 배운다는 목표를 가지고 있는 일리야는 아파치 스파크의 핵심 컴포넌트 기여자이자 아파치 에이펙스의 커미터다. 일리야는 제빵에 관심이 많으며, 요리사이자 스키어, 레이싱카 드라이버다.
에마
오리안(Ema Orhian)
확장 알고리즘에 깊이 빠져 있는 열정적인 빅 데이터 엔지니어다. 그녀는 빅 데이터 커뮤니티에서 컨퍼런스를 조직하고 발표하는 일과 오픈 소스 프로젝트에 기여하는 일 등에서 왕성한 활동을 하고 있다. 그녀는 jaws‐spark‐sql‐rest의 핵심 커미터이며, 스파크 SQL 기반의 데이터 웨어하우스 탐색가다. 에마는 빅데이터 분석을 의료 산업 분야에 도입하기 위해 노력해 왔으며, 거대한 데이터세트 기반의 통계적 지표 계산을 위한 전 과정을 개발해 왔다.
카이 사사키(Kai Sasaki)
분산 컴퓨팅과 머신 러닝에 빠져 있는 일본인 소프트웨어 엔지니어다. 하둡이나 스파크로 경력을 시작한 것은 아니지만, 이들 서비스를 지원하는 미들웨어나 기반 기술, 그리고 인터넷에 대한 관심으로 이 분야에 들어서게 되었다. 스파크 기여자로서 주로 MLlib과 ML 라이브러리를 개발하였다. 최근에는 딥 러닝과 빅데이터를 결합함으로써 가능한 커다란 가능성을 모색하고 있다. 그는 스파크가 빅 데이터 시대의 인공 지능 영역에서도 중요한 역할을 수행할 것이라고 믿고 있다.
브레넌 요크(Brennon York)
에어쇼의 파일럿을 부업 삼아 하고 있는 컴퓨터 사이언티스트다. 정말로 좋아하는 분야는 분산 컴퓨팅, 확장 가능한 아키텍처, 프로그래밍 언어다. 2014년부터 아파치 스파크의 핵심 기여자이며, 더 강력한 커뮤니티를 만드는 목표와 그래프X와 핵심 개발 환경을 개발함으로써 협업을 촉진하려는 목표를 가지고 있다. 기여 활동을 시작할 때부터 스파크를 접하고, 그때부터 이 프레임워크를 이용하여 애플리케이션을 운영 환경으로 이관해 왔다.
역자 소개
정동식
경북대학교 경영학과를 졸업하였으며, 현재 LG CNS 빅데이터사업담당에서 일하고 있다. 금융, 물류, 제조 등 다양한 분야에서 빅데이터, 데이터웨어하우스, 비즈니스인텔리전스, CRM, SCM 등 데이터 관련 다수의 프로젝트를 수행하였다. 역서로 <하둡 애플리케이션 아키텍처>, <랄프 킴벌의 데이터 웨어하우스 툴킷 >, <머신 러닝 인 파이썬>등이 있다.
목차
1장. 스파크 작업 마무리하기
- 필요한 컴포넌트 설치
- 스파크로 이어지는 분산 컴퓨팅의 역사
- 스토리지로 다양한 포멧 활용하기
- 모니터링과 계측 이해하기
2장. 클러스터 관리
- 배경
- 스파크 컴포넌트
- 스파크 스탠드얼론
- 얀
- 메소스
- 비교
3장. 성능 튜닝
- 스파크 실행 모델
- 파티셔닝
- 데이터 셔플
- 시리얼라이제이션
- 스파크 캐시
- 메모리 관리
- 공유 변수
- 데이터 로컬리티
4장. 보안
- 아키텍처
- ACL
- 네트워크 보안
- 암호화
- 이벤트 로깅
- 커베로스
- 아파치 센트리
5장. 폴트 톨러런스 또는 작업 실행
- 스파크 작업의 라이프사이클
- 작업 스케줄링
- 폴트 톨러런스
6장. 스파크의 확장
- 데이터 웨어하우징
- 머신 러닝
- 외부 프레임워크
- 향후 과제
- 기업 적용 사례
출판사 리뷰
스파크의 인기가 날로 높아지고 있다는 것은, 곧 스파크의 기능성과 쓰임새가 넓어지고 있다는 것을 의미합니다. 하둡과 맵리듀스보다 빠르며, 자바, 스칼라, 파이썬, R과 호환되는 이 오픈 소스 클러스터링 프레임워크는 이제, 반드시 알아야 할 필수적인 기술이 되고 있습니다. 『스파크 – 빅데이터 관리자를 위한 클러스터 테크닉』은 스파크의 기초적인 내용에서 그치지 않고, 스파크를 실무 운영 환경에 적용할 수 있는 실제적인 방법까지 알려줍니다. 전문가들의 조언, 실제 적용 사례, 솔직한 논의를 통해 이 책은, 어려운 문제를 통과하고 테스트를 거쳐 스파크 애플리케이션을 운영하는데 큰 도움을 줄 수 있을 것입니다.
누구를 위한 책인가
이 책은 개발자들 중에서도 스파크 애플리케이션 프로젝트를 이끌어야 하는 사람이거나 운영 환경의 워크플로에 이미 개발된 스파크 애플리케이션을 통합할 준비를 해야 하는 시스템 관리자(또는 데브옵스)를 위한 다양한 방법론과 구성 요소 등을 제시하고 있습니다.
HTML5 캔버스 (2) | 2016.10.26 |
---|---|
플라스크 웹 개발 (0) | 2016.08.23 |
누구나 쉽게 배우는 클로저 (0) | 2016.08.23 |
댓글 영역