데이터 사이언티스트 실전 노트
데이터 사이언티스트 실전 노트
부제 데이터 핵심부터 포트폴리오까지, 한 권으로 돌파하기
저자 이지영
출판사 비제이퍼블릭
출간/배본가능일 2022년 06월 29일
정가 30,000원
페이지 472쪽
판형 크라운판 (173 * 230)
ISBN 979-11-6592-152-1(93000)
책 소개
이 시대의 가장 섹시한 직업, 데이터 사이언티스트?!
소문만 무성한 데이터 사이언티스트의 모든 것을 알려드립니다!
1. 데이터 사이언티스트의 실제 업무를 알려드리고, 데이터 사이언티스트가 되기 위한 필수 역량을 체크리스트로 알려줍니다.
막연하게 데이터 사이언티스트를 꿈꾸는 것은 이제 그만! 데이터 사이언티스트의 업무가 무엇인지 정확히 이해하고 그 업무를 해결하기 위한 필수 역량이 적힌 체크리스트를 확인해 보세요! 체크리스트를 기반으로 계획을 세워 공부하다 보면, 어느새 여러분은 데이터 사이언티스트에 한 발짝 가까워질 거예요!
2. 현업에서 일어나는 실제 상황 속, 데이터 사이언티스트의 해결 방법을 알려줍니다.
현업에서 데이터 사이언티스트가 마주하는 상황 속, 해결 방법을 알려드립니다. ‘내가 이런 상황에 있다면 나는 어떻게 해야 할까? 어떻게 하는 것이 옳을까?’ 스스로 가치 판단면서 상황을 해결해가는, 진짜 데이터 사이언티스트가 될 수 있어요!
3. 매력적인 포트폴리오 작성법을 알려줍니다.
취업/이직 시장에서는 매력적인 포트폴리오를 작성하는 것이 가장 중요합니다. 데이터 사이언티스트의 업무도 잘 모르는데, 매력적인 포트폴리오 작성하기란 너무 쉽지 않죠?
매력적인 포트폴리오로 취업하고, 이직 시장에서 경쟁력을 갖추는 비법을 싹 다 공개할 테니, 이제 매력적인 데이터 사이언티스트로 거듭나세요!
4. 데이터 분석을 위한 기초 파이썬과 기본 통계 지식은 덤!
데이터 분석, 더 이상 맨땅에 헤딩하지 마세요! 데이터 분석을 위해 꼭 필요한 기초 파이썬과 기본 통계 지식을 덤으로 배워갈 수 있습니다. 배워야 할 것은 빠르게 습득하여, 유능한 ‘데이터 사이언티스트’로 성장하세요!
저자 소개
이지영
이화여자대학교 언론정보학과를 졸업하고 외국계 홍보 회사에서 근무했다. 데이 터를 다루고 싶어 캐나다 토론토 대학교(University of Toronto)에서 다시 응용통계학을 공부한 후, 요크 대학교(York University)에서 응용통계학 석사 과정을 무사히 마쳤다. 현재는 토론토에 거주하며 데이터 과학자로 일하고 있다. 유튜브 채 널 <Data Scientist 이지영>에서 토종 문과 출신에서 이과로 전향한 경험을 바탕으로 어떻게 통계 공부를 하면 좋은지, 데이터 사이언티스트의 현업에 대한 내용을 공유하고 있다.
목차
저자 소개
서문
베타 리더 추천사
이 책의 구성
1장 데이터 사이언티스트 이해하기
1.1 데이터 직무 알아보기
1.1.1 데이터 직무 세 가지: 데이터 분석가, 데이터 엔지니어, 데이터 사이언티스트
1.1.2 데이터 직무별 갖춰야 할 필수 능력
1.2 데이터 사이언티스트를 왜 하필 데이터 사이언티스트라고 할까
1.2.1 회사가 데이터 사이언티스트에게 바라는 점
1.2.2 진짜 데이터 사이언티스트가 갖춰야 할 역량
1.3 데이터 사이언티스트를 희망한다면 이것부터 살펴라
1.3.1 관련 전공자와 석·박사를 우대하는 현실
1.3.2 체크리스트로 보는 나는 무엇을 키워야 할까
2장 데이터 사이언티스트에서 “데이터”
2.1 데이터 유형
2.1.1 정형 데이터(Structured Data)
2.1.2 비정형 데이터(Unstructured Data)
2.1.3 반정형 데이터(Semi-structured Data)
2.1.4 내게 필요한 데이터 유형은 무엇일까?
2.2 데이터에서 확인해야 할 사항
2.2.1 4가지 상황에서 살펴본 데이터 크기(Size)
2.2.2 데이터의 값에 따른 종류
2.2.3 결측치(Missing Value)
2.2.4 중복 데이터
2.2.5 식별키(Prime Key, Primary Key)
2.2.6 상황으로 살펴보는 스키마 생성 예시
2.3 데이터 합치기
2.3.1 데이터프레임 결합: pd.merge()
2.3.2 데이터프레임 결합: df_left.join(df_right, ...)
2.3.3 여러 데이터프레임 연결: pd.concat()
2.3.4 데이터프레임, 배열, 리스트, 딕셔너리 연결: .append()
2.3.5 상황으로 살펴보는 데이터 합치기 활용
3장 데이터 사이언티스트에서 “사이언티스트”
3.1 데이터 사이언티스트는 무엇을 하는 사람인가
3.1.1 질문을 통해 문제점 찾기
3.1.2 수학과 통계 얼마나 잘해야 할까
3.2 기본 통계로 질문자 되기
3.2.1 평균인 μ와 , 무엇이 다를까?
3.2.2 수학과 통계는 무엇이 다를까?
3.2.3 확률, 가능도, 최대 가능도 추정, 통계 차이는?
3.2.4 통계 vs. 머신러닝 그리고 모수 vs. 비모수 차이는 무엇일까?
3.2.5 정규분포를 포함한 분포는 결국 OO이다
3.2.6 분포는 무엇으로 결정될까?
3.2.7 중심경향값을 계산하는 대표적인 세 가지는 무엇일까?
3.2.8 중심경향을 제외한 분포 파악에 필요한 통계치는 무엇일까?
3.2.9 적률로 이해하는 분포 특징 4가지
3.2.10 피처 스케일링할 것인가, 말 것인가? 지도학습 사용 목적으로 판단하기
3.2.11 피처 스케일링 방법 중 선택 기준이 있을까?
3.2.12 꼭 분포를 바꿔야 할까? 로그 변환, 파워 변환에서 손실과 이익을 따져 보기
3.2.13 중심극한정리에서 시작하는 추리통계
3.2.14 [가설검정 (1) - 가설 설정] 귀무가설을 𝒙̅ =0이라고 하면 안 되는 이유
3.2.15 [가설검정 (2) - 유의수준] 가설을 선택하는 기준 & 선택에 따른 오류
3.2.16 [가설검정 (3) - 검정 통계량] 통계방법 선택하는 방법
3.2.17 [가설검정 (4) - α vs. p-value, 임계치 vs. 검정 통계량] 가설검정 결론 내리기
3.2.18 두 개 이상의 변수 관계를 이해할 때 알아야 할 개념: 공분산, 상관계수, 선형성, 공선성, 다중공선성
3.2.19 차원의 저주란 무엇일까?
3.2.20 저주를 풀어줄 PCA란?
3.2.21 필요한 변수만 선택해야 할 때 어떤 방법이 좋을까?
3.3 100개 지식을 아는 사람 vs. 110개 지식을 아는 사람, 누가 진정한 데이터 사이언티스트일까?
4장 데이터 사이언티스트가 하는 일
4.1 직장인으로서 데이터 사이언티스트
4.1.1 피할 수 없는 ‘업무 정의의 모호성’
4.1.2 업무를 제대로 이해하는 방법
4.1.3 업무의 방향성을 지켜 줄 두 가지의 방법
4.1.4 당신을 돋보이게 할 상황에 따른 커뮤니케이션 방법
4.2 꼭 알아야 할 키워드
4.2.1 모델의 수익화(Web API)
4.2.2 불확실성(Uncertainty) 다루기
4.2.3 모델 해석 능력(Interpretability)
4.2.4 업무 효율성 - 자동화 머신러닝, 파이프라인
5장 포트폴리오로 시작하기
5.1 왜 포트폴리오일까?
5.2 당신을 함정에 빠뜨릴 포트폴리오
5.2.1 누구나 다 아는 데이터
5.2.2 복사 & 붙여넣기 식의 포트폴리오
5.2.3 양 vs. 질: 양을 선택한 포트폴리오
5.3 포트폴리오 예시
5.3.1 주제 찾기 & 문제점 제시
5.3.2 데이터
5.3.3 해결 과정
5.3.4 결과
5.3.5 플랫폼 선택, 문서화
5.3.6 재검토
5.3.7 마치며
에필로그
찾아보기
출판사 리뷰
데이터 사이언티스트가 되기 위해서라면 가장 먼저 풀어야 할,
데이터 사이언티스트의 오해와 진실
데이터 사이언티스트에 대한 소문은 익히 들어왔습니다.
하지만 소문만 무성할 뿐, 진짜 데이터 사이언티스트의 업무는 무엇인지,
데이터 사이언티스트가 되기 위해서는 무엇을 해야 하는지 정확히 알지 못하는 경우가 많습니다.
하지만 데이터 사이언티스트가 되기 위해선 가장 먼저 그를 둘러싼 오해와 진실부터 풀어야 합니다.
그래서 “데이터 사이언티스트의 실전 노트”를 준비했습니다.
데이터 사이언티스트로 현업에서 일하고 있는 선배의 이야기를 하나하나 친절하게 담았습니다.
전혀 늦지 않았습니다. 이 도서와 함께 지금 당장 이 시대의 가장 섹시한 직업, 데이터 사이언티스트가 되어보세요!