소셜 웹 마이닝, 2판
: 소셜미디어 데이터 마이닝 및 분석
저자 매튜 러셀
역자 김상정
출간일 2015년 2월 25일 (수)
정가 30,000원
페이지 496
판형 173 x 230
ISBN 978-89-94774-89-3 (93000)
원서정보 Mining the Social Web, 2nd Edition
책 소개
소셜 네트워크 데이터 마이닝
ㅡ 케빈 마키스, 『Twitter API: Up and Running』의 저자
ㅡ 제이슨 이, Digital Reasoning사의 데이터 과학자
소셜 웹 데이터를 분석하여 누가 누구와 친분관계에 있고, 무엇에 대해 대화하고, 어디에 사는지 어떻게 찾아낼 수 있을까? 이 개정판은 더 폭넓은 내용으로 수정하였으며, 페이스북, 링크드인, 구글플러스, 깃허브(GitHub), 이메일, 웹 사이트, 블로그와 같은 모든 소셜 웹으로부터 데이터를 수집, 분석, 요약하는 방법을 제시한다.
이 책에서 다루는 내용
- IPython notebook, 자연언어처리 툴킷(Natural Language Toolkit, NLTK), NetworkX와 기타 과학적 연산 툴을 활용하여 유명한 소셜 웹 사이트를 분석한다.
- 클러스터링과 TF-IDF와 같은 진보한 텍스트 분석 기술을 적용하여 언어 데이터로부터 의미를 추출한다.
- 사람들 사이의 친밀도를 찾아내고, 프로그래밍과 코딩 프로젝트를 통해 깃허브로부터 흥미로운 그래프를 자동 처리한다.
- 특별히 유연한 HTML5, 자바스트립트 툴킷인 D3.js를 이용하여 대화형으로 시각화한다.
- O’Reilly의 유명한 “problem/solution/discussion” 쿡북 포맷에서 제공하는 20여개 이상의 트위터 레시피를 활용한다.
독자대상 초중급
예제 코드 저장소 https://bit.ly/MiningTheSocialWeb2E
저자 소개
매튜 러셀 Matthew A. Russell
Digital Reasoning Systems의 CTO(Chief Technology Officer)이자 Zaffra의 대표이며, 데이터 마이닝, 오픈 소스, 지능을 확대하는 기술 개발에 열정적인 컴퓨터 과학자다.
역자 소개
김상정 CISSP(정보시스템보안전문가)
한국과학기술원(KAIST)에서 전기 및 전자공학을 전공하고 한국정보보호진흥원(KISA) 침해사고대응팀(CERTCC-KR)에서 침해사고대응, 해킹기법분석, 네트워크/시스템 보안취약점 분석 전문가로 활동했다.
목차
1부. 소셜 웹 가이드
1장. 트위터 마이닝: 유행하는 토픽 탐색, 사람들이 무엇에 대하여 이야기하고 있는가?
1.1 개요
1.2 왜 트위터가 모든 범위에 적용되는가?
1.3트위터 API 탐구
1.4 140글자 분석
1.5 정리
1.6 권장 연습문제
1.7 온라인 자료
2장. 페이스북 마이닝: 팬 페이지, 친구 관계
2.1 개요
2.2 페이스북 소셜 그래프 API 탐험
2.3 소셜 그래프 연결 분석
2.4 정리
2.5 권장 연습문제
2.6 온라인 자료
3장. 링크드인 마이닝: 직책 다면화, 동료들 클러스터링
3.1 개요
3.2 링크드인 API 탐구
3.3 데이터 클러스터링에 대한 집중 훈련
3.4 정리
3.5 권장 연습문제
3.6 온라인 자료
4장. 구글플러스 마이닝: 문서 유사도 계산, 연어 추출
4.1 개요
4.2 구글플러스 API 탐구
4.3 TF-IDF에 대한 효과적인 소개
4.4 TF-IDF로 언어 데이터 쿼리하기
4.5 정리
4.6 권장 연습문제
4.7 온라인 자료
5장. 웹 페이지 마이닝: 자연언어처리, 블로그 요약
5.1 개요
5.2 웹 텍스트 수집, 분석 그리고 순례
5.3 구문 디코딩으로 의미 찾기
5.4 실체정보 중심 분석: 패러다임의 변화
5.5 인간 언어 데이터 처리를 위한 분석의 질
5.6 정리
5.7 권장 연습문제
5.8 온라인 자료
6장. 메일박스 마이닝: 누가 누구에게 무엇에 대해, 얼마나 자주 이야기하는지 분석하기
6.1 개요
6.2 메일 말뭉치를 입수하고 처리하기
6.3 Enron Corpus 분석
6.4 타임시리즈 트렌드 발견과 시각화
6.5 자신의 메일 데이터 분석하기
6.6 정리
6.7 권장 연습문제
6.8 온라인 자료
7장. 깃허브 마이닝: 소프트웨어 협업 관습 살펴보기, 관심 그래프 그리기
7.1 개요
7.2 깃허브의 API 탐구
7.3 속성 그래프로 데이터 모델링하기
7.4 깃허브 관심 그래프 분석하기
7.5 정리
7.6 권장 연습문제
7.7 온라인 자료
8장. 의미론적 마크업 웹 마이닝: 마이크로포맷 추출, RDF 기반 추론
8.1 개요
8.2 마이크로포맷: 구현하기 쉬운 메타데이터
8.3 의미론적 마크업에서 의미론적 웹까지: 짧은 막간
8.4 의미론적 웹: 진화의 혁명
8.5 정리
8.6 권장 연습문제
8.7 온라인 자료
2부. 트위터 쿡북
9장. 트위터 쿡북
9.1 개발 목적으로 트위터 API 접근
9.2 제품을 위한 OAuth 인증 절차
9.3 유행하는 주제 찾기
9.4 트윗 찾기
9.5 편리한 함수 콜 생성
9.6 텍스트 파일로 JSON 데이터 저장 및 복원
9.7 MongoDB로 데이터 저장 및 복원
9.8 스트리밍 API로 트위터 파이어호스 샘플링
9.9 타임 시리즈 데이터 수집
9.10 트윗 실체정보 추출
9.11 가장 유명한 트윗 검색
9.12 가장 유명한 트윗 실체정보 검색
9.13 빈도 분석 도표 작성
9.14 리트윗한 사용자 검색
9.15 리트윗 속성 추출
9.16 탄탄한 트위터 요청 만들기
9.17 사용자 프로필 정보 분석
9.18 임의의 텍스트에서 트윗 실체정보 추출
9.19 사용자의 모든 친구와 팔로워 수집
9.20 사용자의 친구와 팔로워 분석
9.21 사용자의 트윗 수집
9.22 친밀도 그래프 분석
9.23 트윗 콘텐츠 분석
9.24 링크 타깃 요약
9.25 사용자가 가장 좋아하는 트윗 분석
9.26 정리
9.27 권장 연습문제
9.28 온라인 자료
3부. 부록
부록 A. 이 책의 가상머신 경험에 대한 정보
부록 B. OAuth 입문서
부록 C. 파이썬과 IPython Notebook의 팁과 트릭
출판사 리뷰
이 책의 가장 기본적인 전제는 여러분이 유명한 소셜 웹으로부터 데이터를 수집, 분석하는 것을 배우고, 예제 코드를 실행할 때 기술적이라서 귀찮은 것을 피하고 재미를 느끼고 싶어한다는 것이다. 단지 무엇이 가능한지 배우기 위한 목적으로 읽더라도 많은 연습 예제를 따라 할 수 있고, 개발환경을 셋업하기 위한 몇 가지 단계만 거치면 ‘데이터 분석가’가 될 수 있다.
각각의 장은 예측 가능한 템플릿을 따르면서 데이터를 수집하기 위해 API를 사용하는 방법을 가르쳐주고 데이터 분석을 위한 기술을 소개한다. 앞부분의 장들은 기본 개념을 소개하는 데 더 많이 할애하였고, 뒷부분의 장들은 소셜 웹을 마이닝하기 위한 툴과 기술들에 대해 폭넓게 소개하였다.
일반적으로 각각의 장은 데이터를 분석하고, 다음의 대표적인 질문에 답을 하기 위한 데이터 마이닝 분석, 시각화 기술과 마찬가지로 소셜 웹 조각을 엮어준다.
- 누가 누구를 알고 있고, 어떤 사람이 그들의 소셜 네트워크에 존재하는가?
- 얼마나 자주 서로 대화하는가?
- 어떤 소셜 네트워크가 특정한 틈새시장에 가장 가치가 있는가?
- 지역적 위치가 온라인 소셜 네트워크에 어떻게 영향을 주는가?
- 소셜 네트워크에서 누가 가장 영향력이 있고 유명한가?
- 사람들이 무엇에 대해 이야기하고, 그것이 가치 있는가?
- 디지털 세상에서 사용하고 있는 언어를 기반으로 사람들이 무엇에 흥미를 갖는가?
이 책을 통해 여러분은 데이터 과학자, 분석가, 미래학자, 호기심 많은 독자로서 삶의 다른 면에 이를 수 있다.
2판에서 개선된 점
『소셜 웹 마이닝』의 2판에서는 각각의 장을 광범위하게 업데이트했으며, 전략적으로 새로운 내용을 추가하였다. 툴, 기술, 그리고 소셜 웹 사이트의 데이터를 수집하고 분석하는 것에 기반한 아이디어를 구현하기 위해 실용적인 조언을 함으로써 더 많은 커뮤니티에게 흥미를 북돋워주려고 노력했다. 이를 통해 여러분은 소셜 웹 사이트의 데이터로 무엇이 가능한지 더 많은 것을 알게 될 것이고, 소셜 웹 데이터를 업무에 활용할 수 있을 것이다.
또한 다양한 방법으로 단순화했다. 2판과 1판의 가장 두드러진 차이는 기술 도구들이 단순해졌다는 것이다. 상당한 노력이 필요한 소프트웨어 설치와 설정의 복잡성을 없애기 위해 가상머신을 제공하고, 이질적인 기술 의존성을 가능한 적게 다루려고 최선을 다했다. ‘단순화’라는 주제를 기반으로 진행하는 것과 이 책의 이질적인 기술을 소개하는 데 더 적은 시간을 쓰는 것은, 분석을 위한 기초 연습에 더 많은 시간을 활용할 수 있도록 하기 위해서다.
구조적인 재배치 측면에서 깃허브(GitHub)에 대한 장이 추가되었다. 깃허브는 다양한 이유로 인해 흥미롭다. 그 장을 읽어보면 깃허브는 단순히 “소셜 코딩”을 의미하는 것이 아니라, 국제적인 제한을 뛰어넘은 소셜 웹 사이트이며 코딩을 초월한 일반적인 목적의 협력 허브로 급속하게 바뀌어가고 있다는 것을 알 수 있을 것이다.
깃허브에 관한 새로운 장 이외에 트위터에 대한 두 개의 “고급” 장을 재작성하였고, 더 쉽게 적용할 수 있는 트위터 레시피 모음으로 확장하여 9장에서 다루었다. 이 책의 첫 장은 소셜 웹 API와 데이터 마이닝에 대한 개념을 서서히 알 수 있게 하고, 마지막 장은 방대한 가능성들을 성취하기 위해 여러 방법으로 적용하고 수많은 다양한 구성요소로 이루어져 있다.
객체지향 자바스크립트의 원리 (0) | 2015.03.02 |
---|---|
인프라 디자인 패턴: 안정적인 시스템 가동을 위한 127가지 설계 방식 (0) | 2015.01.21 |
프로 AngularJS (0) | 2015.01.08 |
댓글 영역