Microsoft Azure Machine Learning, 2판


: 애저 머신 러닝을 이용한 예측 분석


저자 로저 바르가, 발렌타인 폰타마, 위횽 톡
역자 박용희
감수 성지용
출판사 비제이퍼블릭


출간일 2016년 5월 26일 (목)
정가 26,000원
페이지 372
판형 173*230
ISBN 979-11-86697-16-0 (93000)
원서정보  Predictive Analytics with Microsoft Azure Machine Learning 2nd edition 

    

책 소개


바로 구축하고 배포 가능한 솔루션


이 책은 예측 모델의 구축과 배포에 초점을 맞춰서 데이터 과학과 머신 러닝을 소개하고 실용적인 예제를 제공한다. 또 2015년 초반에 공개된 마이크로 소프트 애저 머신 러닝 서비스의 완벽한 개요와 함께 추천 및 성향 모델과 이탈 및 예측 관리 모델 구축을 위한 실용적인 가이드를 제공한다.

또한, 즉시 새로운 서비스를 사용할 수 있도록 업무 중심적인 설명과 구체적이면서 완벽한 예제들을 사용해 독자들의 이해를 돕고 있다. 이 책은 이 새로운 머신 러닝 서비스로 데이터 입력부터 시작해서 머신 러닝을 적용하고, 모델을 평가하며, 웹 서비스로 배포하는 모든 관점과 과정을 두루 설명하고 있다. 이를 통해 마이크로소프트의 애저 머신 러닝으로 복잡한 예측 모델을 얼마나 빨리 구축하고 배포하는지 살펴보면서 방법을 이해하기 쉽게 설명한다.


2판에서는 어떤 부분이 바뀌었을까? 새롭게 추가된 여섯 개의 장을 통해 다음 주제에 관한 실용적이고 자세한 내용을 살펴볼 수 있다:


 - 코타나 분석 스위트
 - 파이썬 통합
 - 데이터 준비와 피처 선택
 - Power BI로 데이터 시각화
 - 추천 엔진
 - 애저 마켓플레이스에 본인들의 모델 판매하기


이 책에서 다루는 주요 내용은 다음과 같다:


 - 데이터 과학과 모범 사례들의 구조화된 소개
 - 새로운 애저 머신 러닝 서비스의 소개와 예측 모델의 효율적 구축 및 배포 방법 설명
 - 성향 모델링, 이탈 분석, 제품 추천과 Power BI를 이용한 시각화 같은 일반적인 예측 분석
   문제의 
해결을 위한 실용적인 기술들
 - 본인이 직접 제작한 예측 모델들을 애저 마켓플레이스에 판매하는 실용적인 방법


독자대상
중고급



저자 소개


로저 바르가
아마존 웹 서비스에서 개발 관리와 디렉터 업무를 수행하고 있다. 아마존 입사 전에는 마이크로소프트의 Cloud & Enterprise 부서 내 Cloud Machine Learning 그룹의 그룹 프로그램 매니저를 맡았다. 그의 팀은 애저 머신 러닝 서비스의 개발을 담당했다. 1997년에 마이크로소프트 리서치의 데이터베이스 그룹 연구원으로 입사하여 데이터베이스, 워크플로우와 스트림 프로세싱 시스템 등의 시스템 연구와 제품 개발을 지휘했다. PoC(proof of concept) 프로토타입을 통해서 기본적인 연구부터 제품 그룹(개발 팀)의 인큐베이션까지 아이디어 개발에 참여했다. 마이크로소프트 입사 전에는 Pacific Northwest National Laboratory에서 연구 과학자로 있었고, 그 기간 동안에 머신 러닝 기반의 솔루션을 개발하고 배포하였다. 워싱턴 대학의 교수이기도 하며, 대학에서 데이터 과학과 머신 러닝 프로그램 관련 강의를 하고 있다.


발렌타인 폰타마
마이크로소프트 Cloud & Enterprise Analytics and Insights 팀의 데이터 과학 매니저로 데이터 과학과 현업 경력은 18년 이상 됐다. Artificial Neural Networks 분야 박사 학위를 받은 후 환경 과학과 신용 산업에 데이터 마이닝 기술을 접목하였다. 마이크로소프트 입사 전에는 영국의 Equifax사에서 New Technology Consultant 업무를 수행하는 역할을 맡았다. 그 기간 동안 위험 평가와 소비자 신용 산업에 데이터 마이닝 기술 적용 방법을 개척하였다. 현재는 애저 머신 러닝, HDInsight(마이크로소프트의 하둡 서비스), Parallel Data Warehouse(마이크로소프트의 첫 데이터 웨어하우스 제품)와 Fast Track Data Warehouse의 거번의 릴리스 관련 제품 관리를 이끌고 있다. Wharton Business School에서 전략 관리와 마케팅 M.B.A.와 수학과 전자공학 학사(우등 졸업), 컴퓨팅 석사와 Neural Networks관련 박사 학위를 가지고 있다. 현재 워싱턴 대학에서 강의하고 있다.


위횽 톡
현재 마이크로소프트 Cloud and Enterprise group의 IMML(Information Management and Machine Learning) 팀에서 Senior 프로그램 매니저를 맡고 있다. 산업과 학계에서 수십 년의 데이터베이스 시스템 경험을 가지고 있으며 박사 학위 이수 전에는 싱가포르의 거대 통신 회사에서 시스템 분석가 업무를 맡기도 했다. BI와 데이터 마이닝에 특화된 SQL서버 MVP이기도 하다. 동남 아시아 지역의 업체 IT 관리자들이 원본 자료에서 새로운 통찰력을 얻을 수 있도록 하는 데이터 마이닝 부트 캠프를 널리 알리고 있다. 마이크로소프트에 입사하면서 SQL 서버 팀에서 SSIS 서버의 가닥을 잡고 SQL 서버 2012와 함께 개념을 제품화하는 업무를 담당하였다. 싱가포르 국립대에서 컴퓨터 과학 학사(우등 졸업), 컴퓨팅 석사와 컴퓨터 과학 박사 학위를 받았다.



역자 소개


박용희
현재 마이크로소프트 애저 기술 지원 팀의 엔지니어로 일하고 있으며 데이터 분석 및 IoT 관련 PoC 경험을 가지고 있다. 90년대 중반 워드프로세서 개발자로 출발해서 인터넷 관련 서비스 개발자를 거쳐, 2005년에 마이크로소프트 기술 지원 팀의 엔지니어로 근무를 시작해 주요 인터넷 관련 제품의 Escalation Engineer 역할을 맡았다. 2012년부터 애저 기술 지원을 시작했고, 2014년부터 코세라(Coursera) 등을 통해서 머신 러닝 관련 기술을 습득하였다. 주요 관심사는 IoT, 로보틱스, 센서 퓨젼 등이다. 컴퓨터 과학 학사, 컴파일러 및 인공 지능 석사 학위를 가지고 있



감수자 소개


성지용
국내에 Azure가 도입됐던 초창기부터 Azure와 관련된 업무를 담당하고 있다. 지난 10여 년 동안 Microsoft Premier Field 엔지니어로 Windows Platform, SQL Server, Microsoft Azure를 지원하다 얼마 전 Microsoft의 기술 에반젤리스트로 역할을 변경하였다. 『실전 SQL Server MVP 53』, 『실전 SQL Server MVP 61, Vol 2』, 『개발자를 위한 파워셸』 외에 다수의 서적을 집필 및 번역하였다. Taeyo.net의 공동 운영자이면서 mssql.org의 운영자로 활동하고 있다.



목차


1부. 데이터 과학과 마이크로소프트 애저 머신 러닝 소개


1장. 데이터 과학 소개
- 데이터 과학이란란 무엇인가?
- 분석 범위
- 왜 주목을 받았고 계속 주목받고 있는가?
- 데이터 과학의 공통 기술
- 데이터 과학은 어디까지 발전했나?
- 요약
- 참고 자료


2장. 마이크로소프트 애저 머신 러닝 소개
- 안녕, 머신 러닝 스튜디오!
- 실험의 구성 요소들
- 갤러리 소개
- 간단한 5단계 학습 실험 제작
- 모델을 실제 환경에 배포하기
- 요약   


3장. 데이터 준비
- 데이터 청소와 처리
- 피처 선택
- 피처 엔지니어링
- 요약


4장. R과의 통합
- R 간보기
- 처음 R 스크립트를 만들고 배포하기
- 데이터 전처리에 R 이용하기
- 스크립트 묶음 사용(ZIP)
- R을 이용해 의사 결정 트리를 만들고 배포하기
- 요약


5장. 파이썬과의 통합
- 개요
- 파이썬 처음 맛보기
- Azure ML 실험에서 파이썬 사용
- 파이썬을 이용한 데이터 전처리
- 요약


2부. 통계와 머신 러닝 알고리즘들


6장. 통계와 머신 러닝 알고리즘들의 소개
- 회귀 분석 알고리즘
- 분류 알고리즘
- 클러스터링 알고리즘
- 요약


3부. 실 예제들


7장. 고객 성향 분석 모델 구축
- 사업 관련 문제
- 데이터 확보와 준비
- 모델 학습시키기
- 모델의 테스트와 검증
- 모델 성능
- 평가 지표 우선순위 결정
- 요약


8장. Power BI로 모델 시각화
- 개요
- Power BI 소개
- Power BI로 시각화하는 세 가지 방법
- 애저 머신 러닝에서 예측 실행한 결과를 엑셀에서 시각화하기
- 엑셀에서 예측과 시각화 실행하기
- 애저 머신 러닝에서 예측된 결과를 powerbi.com에서 시각화하기
- 요약


9장. 이탈 탐지 모델 구축
- 이탈 탐지에 대한 간단한 소개
- 고객 이탈 예측 모델의 구축과 배포
- 요약


10장. 고객 분할
- 고객 분할 모델들의 간단한 소개
- 첫 번째 K-평균 클러스터링 모델 구축과 배포
- 도매 고객의 분할
- 요약


11장. 예측 관리 모델의 구축
- 개요
- 예측 관리 시나리오들
- 업무 관련 문제
- 데이터 수집과 준비
- 모델 학습시키기
- 모델 테스트와 확인
- 모델 성능
- 모델 성능 향상 기술
- 모델 배포
- 요약


12장. 추천 시스템
- 개요
- 추천 시스템의 접근 방식과 시나리오
- 사업 관련 문제
- 데이터 수집과 준비
- 모델 학습시키기
- 모델 테스트와 확인
- 요약


13장. 애저 마켓플레이스의 모델을 사용하고 출판하기
- 머신 러닝 API란 무엇인가?
- 애저 마켓플레이스 API 사용 방법
- 애저 마켓플레이스에 자신의 모델 게시하기
- 제작된 머신 러닝 모델을 웹 서비스로 게시하기
- API 키와 OData 엔드포인트 주요 정보 입수
- 모델을 애저 마켓플레이스에 API로 게시하기
- 요약


14장. 코타나 분석 시스템
- 코타나 분석 스위트는 무엇인가?
- 코타나 분석 스위트의 기능들
- 예제 시나리오
- 요약


출판사 리뷰


이 책은 데이터 과학에 대한 소개와 함께 현재 코타나 해석 수트(이후 CAS)의 일부인 MS 애저 머신 러닝에 관해 깊이 있는 정보를 제공한다. CAS는 기업체들이 데이터를 지능적으로 작업을 변환할 수 있도록 하는 완전히 관리되는 빅데이터 및 선진적 분석 수트다. 데이터 과학에 대한 구조적인 접근 방법과 구매 경향 분석, 고객 이탈 분석, 예측 관리와 제품 추천과 같은 실제 업무에서 발생하는 문제를 해결하기 위한 실무적인 가이드를 제공한다. 마이크로소프트 애저 머신 러닝 서비스의 간결성은 더 많은 관객과 같은 영역의 기존 제품을 데이터 과학과 머신 러닝에 적용되도록 해준다. 애저 머신 러닝을 이용해서 복잡한 예측 모델을 머신 러닝 웹 서비스로 빠르게 구축하고 배포하는 것을 볼 수 있다.


이 책은 다음과 내용을 제공한다


- 데이터 과학에 대한 깊은 기초 지식과 함께 구조적인 접근법과 성공 사례 등을 통해서 실제 
  문제를 해결하는 방법

- 머신 러닝 웹 서비스와 같은 예측 모델을 효율적으로 구축, 배포하기 위해 마이크로소프트  
  애저 머신 러닝을 사용하는 방법

- 구매 예측 모델링, 이탈 예측 및 제품 추천과 같은 대표적인 예측 분석 문제들을 어떻게 해결
  하는지에 대한 실제적 예제들


책의 마지막 페이지를 읽을 때쯤이면 기본적인 데이터 과학의 필수적인 기술과 데이터 마이닝 프로세스와 새로운 마이크로소프트 애저 머신 러닝 등을 이해할 수 있게 될 것이다.


누구를 위한 책인가   


지금 막 데이터 과학자의 길을 걷기 시작한 사람, BI 전문가와 개발자를 위한 책이다. 책을 읽고 이해하기 위해서 통계 및 데이터 분석에 대한 기초적인 기술이 있으면 도움이 될 것이다. 하지만 책에서 본 내용에서 무언가를 얻기 위해 데이터 과학자이어야 하거나 데이터 마이닝에 대한 심도 있는 능력이 필요하지는 않다.



신고
Trackback 0 | Comment 0

퍼블릭's Blog is powered by Daum & tistory