상세 컨텐츠

본문 제목

파이썬으로 캐글 뽀개기

전체 출간 도서

by 비제이퍼블릭 2021. 8. 23. 15:36

본문

파이썬으로 캐글 뽀개기

부제 파이썬으로 시작해서 포트폴리오로 취업까지

저자 Evan, 조대연, 김보경, 정필원, 최준영

 

출간/배본가능일 2021년 8월 27일 

정가 31,000 

페이지 572

판형 크라운판 (173 * 230)

 

ISBN 979-11-6592-079-1 (93000)

 

책 소개 

데이터 분석가를 시작하려는 비전공자를 위한

완벽한 기초 가이드

 

Learning by Doing! 직접 부딪치며 배우자는 것이 이 책의 철학입니다. 비전공자분들이 다양한 입문서를 읽는 것 못지않게 중요한 것은 일단 도전하는 것입니다. 본 책은 간단한 이론과 원리를 배운 후 빠르게 캐글에 도전하는 기본적인 지침서를 제공합니다. 그리고 좌충우돌하면서 겪게 될 다양한 스토리를 소개하고, 캐글에 도전하는 것만큼 중요한 포트폴리오가 보관될 Github 사용법과 Github Blog를 만드는 방법도 포함하고 있습니다. 이 책은 데이터 분석가를 시작하려는 모든 분에게 완벽한 가이드를 제공할 것입니다.

 

이 책의 특징

- 다양한 캐글 대회 참여 방법 소개

- NumPy, Pandas, Matplotlib, Seaborn, Scikit-Learn 등 데이터 과학의 필수 라이브러리 소개

- XGBoost, LightGBM, CatBoost 등 최신 알고리즘 소개

 

이 책이 필요한 독자

- 데이터 분석에 관심이 많고 데이터 분석가로 취업 및 전직을 하고 싶은 모든 비전공자

- 캐글을 포함한 각종 경진 대회에 직접 참여하고 싶은 분들

- 업무 협업을 위한 기초적인 Git, Linux, Github 블로그 활용법이 궁금한 분들

 

소스코드 다운로드

https://github.com/bjpublic/pythonkaggle

 

저자 소개 

Evan

학점은행제 경영 학사를 졸업하였고, 미국 나사렛대학교 필리핀 분교에서 신학과 철학 석사를 졸업하였습니다. 회사에 무의미하게 매일 출근하는 것이 싫어 현재는 프리랜서로 활동하며 주로 대기업 및 취업 준비생을 위한 R, Python, SQL 강의 및 저술 활동에 매진하고 있습니다.

 

조대연

서울대학교 사회과학대학에서 경제 학사로 졸업한 후 국방관리연구소에서 연구원으로 근무하며 처음 컴퓨터를 접하고 이에 매료되어 미국 피츠버그대학 경영대학원의 Ph.D. 과정에 진학하여 머신러닝, 신경망 이론 등 컴퓨터과학 전공자들이 듣는 과목들을 수강하고 이를 활용하여 졸업 논문을 마무리하였습니다.

최근에는 빅데이터를 형성하도록 데이터를 생산하는 사물인터넷과 사물 인공 지능에도 관심을 갖고 연구하고 있습니다.

 

김보경

NLP 기반 프로젝트를 진행해 고용노동부와 아시아경제가 주관한 빅 데이터 분석 기반 서비스 기획 모델링 경진 대회에서 장려상을 받았습니다. 이 책에서는 시각화 파트 집필에 참여했습니다.

 

정필원

2018년 상하이 텐센트 창업단지에서 글로벌 스타트업 프로그램을 이수하고, 2020년에는 하이비전 데이터 엔지니어링 인턴으로 근무하기도 하였습니다. 데이터 분석을 통한 경영 전략을 더 연구하기 위해 현재 대학원을 준비하고 있습니다.

 

최준영

한국정보과학회의 학술 대회인 2020한국컴퓨터종합학술대회(KCC2020)에서 학부생/주니어논문경진대회의 학부생 논문 부문에 참가하여 장려상을 수상하기도 했습니다.

 

목차

Part 1 Intro

1 구글 코랩 & 캐글

1.1 구글 코랩(Colaboratory)에 관해

1.2 캐글(Kaggle)에 관해

 

2 파이썬 기초 문법

2.1 변수(Scalar)

2.2 변수(Non-Scalar)

2.3 리스트(List)

2.4 튜플(Tuple)

2.5 딕셔너리(Dictionary)

2.6 집합(Set) 자료형

2.7 파이썬의 조건문

2.8 파이썬의 반복문

2.9 정리

 

3 Numpy

3.1 NumPy 기본 문법

3.2 NumPy 배열 생성 및 둘러보기

3.3 NumPy 인덱싱과 슬라이싱

3.4 NumPy 정렬

3.5 정리

 

4 Pandas 라이브러리

4.1 Pandas 설치

4.2 구글 드라이브와 연동

4.3 데이터 둘러보기

4.4 데이터 다뤄 보기

4.5 데이터 인덱싱

4.6 기본 데이터 전처리

4.7 정리

 

5 파이썬 시각화

5.1 Matplotlib 라이브러리

5.2 Seaborn 라이브러리

5.3 Intermediate Level 도전

5.4 정리

 

6 머신러닝의 역사

 

7 캐글에서 사용되는 다양한 머신러닝 알고리즘

7.1 지도 학습과 비지도 학습

7.2 회귀 모형

7.3 의사 결정 나무

7.4 앙상블 학습

7.5 배깅(Bagging)

7.6 랜덤 포레스트(Random Forest)

7.7 부스팅 기법(Boosting Methods)

7.8 스태킹 또는 블렌딩 기법(Stacking or Blending Methods)

7.9 사이킷런(Scikit-Learn)

7.10 정리

 

Part 2 Kaggle Basic

1 캐글 노트북(Kaggle Notebook)에 관한 흥미로운 토론

 

2 주택 가격 예측 문제

2.1 Kaggle API 다운로드

2.2 Kaggle API 업로드

2.3 Kaggle 데이터 다운로드 및 불러오기

2.4 데이터 둘러보기

2.5 머신러닝 Workflow

2.6 Feature Engineering

2.7 머신러닝 모형 학습 및 평가

 

3 진짜 재난 뉴스 판별기 만들기

3.1 텍스트 분석 수행 과정

3.2 Kaggle 데이터 불러오기

3.3 탐색적 자료 분석

3.4 Feature Engineering

3.5 머신러닝 모형 학습 및 평가

3.6 정리

 

Part 3 Kaggle Intermediate

1 Boosting 알고리즘의 발전

1.1 XGBoost

1.2 LightGBM

1.3 CatBoost

 

2 New York City Taxi Fare Prediction

2.1 Kaggle 데이터 다운로드

2.2 데이터 시각화

2.3 Feature Engineering

2.4 Modelling

 

3 San Francisco Crime Classfication

3.1 데이터 불러오기

3.2 평가 지표 확인

3.3 탐색적 자료 분석

3.4 Feature Engineering

3.5 Modelling

3.6 정리

3.7 데이터 과학의 프로세스 리뷰

 

Part 4 Beyond Kaggle

1 자격증은 정말로 중요한가?

 

2 면접은 어떻게 구성이 되는가?

 

3 Github와 기술 블로그의 장점

3.1 기록의 관점에서

3.2 정보 공유의 관점에서

3.3 커리어 관리의 관점에서

 

4 Github & Git

4.1 Github

4.2 Google Colab Github의 연동

4.3 Git 연동

4.4 Git & 리눅스 명령어

4.5 Github 블로그

4.6 Github 포트폴리오

 

출판사 리뷰

이 책의 주목적은 코딩을 처음 접하는 사람이 데이터 분석 및 머신러닝을 수행하는 데 필요한 기본 문법을 익혀서 캐글 대회에 참여할 수 있는 역량을 키워 주는 동시에, 취업 포트폴리오를 만드는 일련의 과정을 포함합니다. 입문자분들을 대상으로 한 책이다 보니, 통계 및 머신러닝의 어려운 알고리즘 수식은 최대한 배제하고 설명하고 있습니다.

입문자가 어려움 없이 개념에 대한 이해를 하도록 최대한 노력하였는데, 이 책은 각 분야에 대하여 상세하게 설명한 책이라기보다는 데이터 분석가 및 머신러닝 개발자로 성장하는 데 필요한 부분들을 설명해 놓은 일종의 가이드북입니다. 저자의 철학대로 손으로 몸으로 체득해보시기 바랍니다.

관련글 더보기

댓글 영역