부제 R 패키지로 더 쉽게 데이터 수집 ∙ 분석하는 완벽 솔루션
저자 송효진
출간/배본가능일 2020년 7월 31일
정가 26,000원
페이지 380
판형 크라운판 (173 * 230)
ISBN 979-11-6592-006-7 (93000)
근본적인 문제 해결을 위해
강력한 솔루션을 제공하는 R 레시피
이 책은 R의 역사를 장대하게 설명하지 않는다. R 사용자를 위한 아이템, 사용 팁을 더 많이 전달하고자 했다.
외국어를 알면 지식을 습득할 수 있는 범위의 폭이 커지듯, R뿐만 아니라 Python, SQL, C, Scala 등 타 언어를 알게 되면 구현할 수 있는 가능성의 범위가 대폭 확장된다. 단편적인 지식을 전달하기보다는 지식의 범위를 넓힐 수 있는 구체적인 사례들을 본 도서에 레시피로 버무려서 독자에게 보여주기 위해 노력하였다.
R을 이해하고 원리를 탐구할 수 있게 책을 구성했다. R을 단순히 분석 분야로만 쓰는 것이 아니라 더 넓은 곳, 다른 도메인과 함께 조화시킬 수 있는 자유를 독자들이 경험할 수 있을 것이다.
이 책의 특징
‣ 요리책의 레시피처럼 실용적이지만 길지 않은 코드들로 정리했다.
‣ tidyverse의 문법을 이용한 코드의 활용 용도를 확인할 수 있다.
‣ 자주 물어보는 질문들의 답변을 정리해서 독자들의 R 사용 접근성을 높일 수 있다.
이 책이 필요한 독자
독자대상
초중급
소스코드 다운로드
https://github.com/bjpublic/R_recipe
송효진
현재 게임 데이터와 관련된 분석 업무를 하고 있다. 게임과 음악을 매우 좋아한다. 책도 좋아하지만 기술적인 책에 관심이 편향되어 있어서 앞으로는 다양한 분야의 독서에 도전해볼 생각이다. 통계 R 프로그래밍 네이버 카페(https://cafe.naver.com/lovetokens)를 운영 중이다. 아주 가끔은 대외적인 활동과 함께 R에 대해 사용자와 이야기를 주고받으며 또 다른 무형의 방법을 동원하여 지원한다.
Chapter 1. 작업 환경구성에 대한 예제
1.1 RStudio 에서 알아두면 좋은 옵션 및 요령
1.1.1 Addins
1.1.2 터미널과의 만남
1.1.3 환경설정
1.2 작업디렉토리를 이용한 분석공간 구성
1.3 Package의 관리
1.3.1 패키지 설치 경로
1.3.2 CRAN에 등록되어 있는 package
1.3.3 Github 등에 공유되어 있는 package
1.3.4 다수의 패키지를 로드하기
1.3.5 패키지의 설치 과정 중 접하게 되는 에러
1.4 Start up 옵션 설정하기
1.5 동작환경 정보 공유하기
1.6 Git을 이용한 소스형상관리 준비
Chapter 2. 데이터 가공 예제
2.1 데이터를 읽는 방법
2.1.1 텍스트 형태의 파일을 읽어들이기
2.1.2 외부파일 읽어들이기
2.1.3 DB에 있는 데이터 읽기
2.2 데이터 전처리 요령
2.2.1 내용을 집약하기
2.2.2 새로운 열 만들기
2.2.3 선택하여 일부만 추출하기
2.2.4 그룹별 적용하기
2.2.5 복수개의 테이블 결합하기
2.3 시계열 데이터 가공을 위한 요령(lubridate 패키지와 함께)
2.3.1 Date 클래스 객체 만들기
2.3.2 Dates + Times 클래스 객체 만들기
2.3.3 부분정보 추출
2.3.4 부분정보 수정
2.3.5 날짜 시각에 대한 산술연산
2.3.6 lubridate와 dplyr 간의 조합
2.3.7 간편 기능 함수들
2.4 전처리 과정에서 일어날 수 있는 여러가지 일
2.4.1 데이터형 변환
2.4.2 Bigint 타입의 데이터 처리 interger64
2.4.3 데이터프레임을 피벗(pivot)하기
2.4.4 가능한 모든 요인 조합 데이터프레임 만들기
Chapter 3. 통계&수치 연산 예제
3.1 샘플링(Sampling)
3.2 상관관계
3.2.1 공분산
3.2.2 상관계수
3.3 그룹 간 차이비교
3.4 복잡한 수치연산 함수화 및 활용
Chapter 4. 데이터를 통해 정제된 산출물 보여주기
4.1 분석과정 중 분석가 입장에서 필요한 시각화와, 제3자를 위한 시각화의 구분
4.2 이변량 변수 데이터의 현황 파악하기
4.2.1 geom_point()
4.2.2 geom_bar()
4.2.3 geom_text()
4.2.4 geom_line(), geom_step()
4.2.5 geom_rug()
4.2.6 geom_boxplot()
4.2.7 geom_histogram()
4.2.8 geom_bin2d(), geom_hex()
4.2.9 geom_blank()
4.3 여러 개의 시각화 배치하기
4.3.1 그룹별로 겹쳐 그리기
4.3.2 facet_grid(), facet_wrap()
4.3.3 patchwork 패키지의 활용
4.4 그래프의 세부조정과 부연설명 추가하기
4.4.1 ggtitle()
4.4.2 labs()
4.4.3 테마 세트 이용하기
4.4.4 축 범위 조정
4.4.5 x축과 y축 바꾸기
4.5 살아있는 데이터 변화에 대응하기 위한 수정가능한 산출물
4.5.1 DT 패키지
4.5.2 plotly 패키지
4.5.3 googlesheets4 패키지
4.6 R Markdown을 이용한 데이터 분석 문서 만들기
Chapter 5. 분석과정 중에서 무한히 일어나는 난관들의 대처법
5.1 데이터 동일성∙정합성 관리
5.1.1 동일성 판단
5.1.2 Snapshot
5.2 결측값 관리
5.2.1 결측값 찾기
5.2.2 결측값 보간
5.3 분석이미지 백업을 통한 재현가능성 확보
5.4 코드 벤치마킹
5.4.1 rbenchmark 패키지
5.4.2 RStudio의 Profile 기능
Chapter 6. 또 다른 차원의 R 활용예제
6.1 ETL(Extract, Transform, Load)
6.2 Shiny Application 배포
6.3 Jekyll과 Github Pages를 이용한 블로그 만들기
6.3.1 Jekyll의 설치
6.3.2 Jekyll을 이용한 기본 블로그 페이지 만들기
6.3.3 Jekyll 동작원리
6.3.4 Github Pages에 블로그 호스팅하기
6.4 bookdown 패키지를 이용한 전자책 만들기
6.5 RStudio Cloud 서비스를 이용한 활용예제
부록
실무에서 각 상황별로 맞춤화된 솔루션이나 경험담, 지금까지 자주 접한 질문들을 모아보는 방식으로 책을 구성하려 했다. 이론적인 내용은 깊게 다루지 않고 대신 그만큼의 많은 요리법(recipes)을 준비하려 노력했다. 목차를 보고 입맛에 맞는 것을 선택하여 ‘이런저런 요리법이 있구나’라는 정보를 빠르게 전달해주며 실무에서 데이터를 다룰 때 일어날 만한 케이스들을 제한된 분량 내에 최대한 책에 담기 위해 기본적인 R 설치 방법은 과감히 제외하여 기존 R 언어의 도서와도 차별점을 두고자 했다. 또한 다른 책에서 보기 힘든 tidyverse 문법들을 이용한 예제들을 적극적으로 소개하고 넣음으로써, 코드를 간결하게 사용하여 이해를 높이고 있다. 그동안 실무에서 데이터 분석에 어려움을 겪고 있는 독자라면 이 책을 통해 능력을 개선할 수 있을 것이다.
알면 더 쉬운 도커 쿠버네티스 (0) | 2020.08.07 |
---|---|
SNS 앱 예제로 배우는 프로그레시브 웹 앱 (0) | 2020.07.24 |
IntelliJ IDEA 프로젝트에 활용하기 (0) | 2020.06.26 |
댓글 영역