머신 러닝 인 파이썬
: 파이썬을 활용한, 예측분석을 위한 기계 학습
저자 마이클 보울즈
역자 정동식
출판사 비제이퍼블릭
출간일 2015년 11월 20일 (금)
정가 27,000원
페이지 372
판형 188*245
ISBN 979-11-86697-06-1 (93000)
원서정보 MACHINE LEARNING IN PYTHON
책 소개
파이썬을 이용하여 데이터를 분석하고 결과를 예측하는 간단하고 효과적인 방법
머신 러닝은 예측에 중점을 둔다. 과거의 연관관계를 기반으로 ‘알고 있는 것’을 이용해 ‘알고 싶은 것’을 예측한다. 머신 러닝은 사실 아주 최근까지도 수학과 통계적 콘셉트에 대한 깊은 이해는 물론, R 또는 다른 특별한 프로그래밍 언어를 능숙하게 다룰 수 있는 사람들만 이해할 수 있는 꽤 까다로운 기술이었다. 하지만 이 책은 효과적으로 결과를 예측할 수 있는 두 종류의 알고리즘 군에 집중하고, 사용하기 쉬운 파이썬 프로그래밍 언어를 이용함으로써 많은 이들이 머신 러닝을 더욱 쉽게 이해하고, 폭넓게 적용할 수 있도록 만들어졌다.
저자 마이클 보울즈는 수년간 쌓아온 머신 러닝 전문가로서의 지식을 모두 끌어내 독자 스스로가 설계, 구축, 이행이라는 머신 러닝 솔루션 전 과정을 수행할 수 있도록 도와준다. 복잡한 계산 없이 단순한 용어로 알고리즘을 설명하고, 지금 당장 시작할 수 있도록 샘플 코드도 제공했다. 독자들은 이 책을 통해 구축 과정에 숨어 있는 메커니즘을 깊이 파고들게 될 것이며, 주어진 문제가 단순하든 복잡하든 문제 해결을 위한 최적의 알고리즘을 선택하고 적용하는 법을 배우게 될 것이다. 상세한 예제들은 구체적이고 수정 가능한 소스 코드로 머신 러닝의 절차를 설명해줄 것이다. 또 선형 회귀와 앙상블 기법에 대한 설명은 머신 러닝이 작동하는 가장 기초적인 프로세스를 이해하도록 도와줄 것이다.
『머신 러닝 인 파이썬』은 수학이나 통계학을 전공하지 않은 사람도 머신 러닝을 쉽게 이해할 수 있도록 다음과 같은 내용을 담고 있다.
- 주어진 업무에 사용할 적합한 알고리즘 선택하기
- 메커니즘을 배우고 데이터 준비하기
- 파이썬 머신 러닝 패키지의 핵심 마스터하기
- 실질적으로 적용할 수 있는 예측 모델 생성하기
- 연습한 모델을 다양한 목적으로 적용해보기
- 더 나은 품질 관리와 응용을 위해 모델 성능 측정하기
- 주어진 샘플 코드를 이용하여 스스로 모델을 설계하고 생성하기
독자대상
초중급
저자 소개
마이클 보울즈
마이클 보울즈는 기계 공학의 학사와 석사, 박사와 MBA를 취득했다. 학계, 산업 기술, 비즈니스 영역에서 일해왔으며, 현재 성공을 위해 머신 러닝이 필수 조건인 여러 스타트업 회사와 함께 일하고 있다. 여기서 그는 팀 관리자, 컨설턴트, 고문 등 다양한 역할을 수행하고 있다. 또한 캘리포니아 마운틴 뷰에 있는 공동 작업 공간이자 스타트업 인큐베이터인 해커 도조(Hacker Dojo)에서 머신 러닝 과정을 가르치고 있다.
역자 소개
정동식
경북대학교 경영학과를 졸업했으며, 현재 LG CNS에서 근무하고 있다. 금융, 물류, 제조 등 다양한 분야에서 빅 데이터, 데이터웨어하우스, 비즈니스 인텔리전스, CRM, SCM 등 다수의 데이터 관련 프로젝트를 수행했다. 역서로 『랄프 킴벌의 데이터웨어하우스 툴킷』이 있다.
목차
1장. 예측할 때 사용하는 두 가지 핵심 알고리즘
- 왜 이 두 가지 알고리즘이 유용한가?
- 피널라이즈드 회귀 기법은 무엇인가?
- 앙상블 기법은 무엇인가?
- 어떤 알고리즘을 사용할 것인지 결정하는 방법
- 예측 모델 생성을 위한 단계별 절차
- 각 장의 내용과 연관관계
- 요약
2장. 데이터 이해로 문제 이해하기
- 새로운 문제의 구조 확인
- 속성과 레이블의 차이 때문에 모델이 선택된다
- 바위와 기뢰 데이터 세트의 특성 시각화
- 요인 변수로 수치 값 예측: 전복의 나이는 몇 살인가?
- 수치 속성을 사용한 수치 예측-와인 테이스트 계산하기
- 다중 분류 문제: 유리의 종류는 무엇인가?
- 요약
3장. 예측 모델 생성: 성능, 복잡성, 빅 데이터의 균형
- 기초 문제: 함수 근사 이해하기
- 알고리즘 선택 및 성능에 영향을 미치는 요인-복잡성과 데이터
- 예측 모델의 성능 측정
- 모델과 데이터의 조화
- 요약
4장. 피널라이즈드 선형 회귀
- 왜 피널라이즈드 선형 회귀 기법이 유용한가
- 피널라이즈드 선형 회귀: 최적 성능을 위한 선형 회귀 조절
- 피널라이즈드 선형 회귀 문제 풀기
- 수치 입력으로 선형 회귀 확장
- 요약
5장. 피널라이즈드 선형 기법을 이용한 예측 모델 생성
- 피널라이즈드 선형 회귀 파이썬 패키지
- 다변수 회귀: 와인 테이스트 예측
- 다중 분류: 범죄 현장의 유리 샘플 분류
- 요약
6장. 앙상블 기법
- 이진 의사결정 트리
- 부트스트랩 애그리게이션: 배깅
- 그래디언트 부스팅
- 랜덤 포레스트
- 요약
7장. 파이썬으로 앙상블 예측 모델 생성
- 파이썬 앙상블 패키지를 이용한 회귀 문제 풀기
- 와인 테이스트 예측을 위한 배깅 코딩
- 파이썬 앙상블 모델에서 비수치형 속성 사용하기
- 파이썬 앙상블 메서드로 이항 분류 문제 풀기
- 파이썬 앙상블 기법으로 다중 분류 문제 풀기
- 알고리즘 비교
- 요약
출판사 리뷰
데이터에서 실행 가능한 정보를 추출하는 것으로 인하여 현대 비즈니스의 기본 구조가 프로그래머에게도 직접적인 영향을 미치는 방향으로 변화하고 있다. 그중 한 방향은 새로운 프로그래밍 기술에 관한 요구다. 시장 분석가들은 고급 통계와 머신 러닝 기술을 보유한 인력 요구가 2018년이면 140,000에서 190,000 정도가 될 것이라고 예측한다. 이는 요구 기술을 보유하고 있는 사람에게는 높은 급여와 더불어 흥미로운 프로젝트에 관하여 폭넓은 선택이 가능하다는 의미다. 프로그래머에게 영향을 미치는 또 다른 발전 방향은 통계나 머신 러닝에 사용할 수 있는 핵심 도구가 이미 개발 진행 중이라는 것이다.
프로그래머는 여러 가지 방식으로 머신 러닝에 관한 일반 지식을 습득할 수 있다: 온라인 강의나 잘 쓰여진 책 등. 이들 중 많은 곳에서 머신 러닝 알고리즘과 알고리즘 사용법 예시에 대하여 아주 훌륭한 설문조사(survey)를 제공하지만, 사용할 수 있는 너무나도 많은 알고리즘을 대상으로 하기 때문에 설문조사를 토대로 알고리즘의 사용법을 상세하기 설명하기는 어렵다.
이 책에서 사용한 방법은 다양하고 넓은 범위의 문제에서 최적 성능을 제공한다고 증명된 두 개의 알고리즘 군(family of algorithms)으로 설명 대상 알고리즘을 제한했다. 최적 성능이라는 주장의 근거로 이 두 알고리즘이 머신 러닝에서 가장 많이 쓰이고 있으며, 머신 러닝 툴에서 새롭게 개발한 패키지에 이미 포함되어 있고, 비교 연구에서 알 수 있는 두 알고리즘의 성능을 예로 들고 있다. 두 개의 알고리즘 군으로 관심을 제한하여 운영 원칙에 관한 훌륭한 설명을 제공하고 있으며, 서로 다른 구조의 문제에 어떻게 이 알고리즘을 적용하는지 상세하게 설명한 다수의 예제를 전체적으로 살펴볼 수 있다.
이 책은 파이썬에 초점을 맞추는데, 그 이유는 파이썬이 기능과 머신 러닝 알고리즘을 포함한 특화된 패키지가 잘 조화되어 있기 때문이다. 파이썬은 아주 간단하고 읽기 쉬운 소스 코드를 만들기 때문에 자주 사용하는 프로그래밍 언어다. 이 때문에 아주 많은 선도적인 기업에서 프로토타이핑이나 개발에 파이썬을 적용하고 있다. 파이썬 개발자는 동료 개발자들, 개발 툴, 확장판 등 거대한 커뮤니티의 지원을 받을 수 있다.
이 책의 구성
이 책은 새로운 예측 문제를 해결하려고 할 때 사용하는 기본적인 절차를 따르고 있다. 이 절차는 먼저 데이터에 대한 이해와 관련된 개발로 시작해서, 문제를 공식화하는 방법을 결정한 후 알고리즘을 적용해보고, 그 성능을 측정하는 것이다. 이 절차 중 각 단계에 사용한 기법과 그 단계가 필요한 이유에 대해 간략히 설명할 것이다.
프로 자바스크립트 테크닉 (0) | 2015.12.10 |
---|---|
리눅스 작동법: 슈퍼 사용자라면 반드시 알아야 할 (2) | 2015.10.16 |
누구나 쉽게 배우는 코딩 (4) | 2015.09.22 |
댓글 영역