소셜 웹 마이닝
:페이스북, 트위터, 링크드인 등의 소셜 미디어 데이터 분석하기
저자: 매튜 러셀
역자: 김상정
출간일: 2012년 10월 25일(목)
정가: 24,000원
페이지: 336p
판형: 175 x 230
ISBN: 978-89-94774-22-0 (93560)
원서정보: Mining the Social Web
*관련분류
[정오표 다운로드]
소셜 웹 마이닝 정오표(2012년 10월 31일 최종).docx
책 소개
소셜 네트워크 데이터 마이닝
“《소셜 웹 마이닝》은 자연스럽게 집필된 《Programming Collective Intelligence》의 속편이나 다름없다.”
제프 햄머바허 | 클라우데라의 수석 과학자
“구조화되거나 구조화되지 않은 데이터를 분석하기 위한 많은 툴, 기술, 이론에 대해 풍부하고 유용하고 실질적인 내용을 다루고 있다.”
알렉스 마르텔리 | 구글의 선임 엔지니어, 《Python in a Nutshell》의 저자
이 책은 트위터, 페이스북, 링크드인, 블로그 등 소셜 네트워크 서비스에서 쏟아져 나오는 빅데이터를 분석하기 위한 기초를 제공한다. 다양한 분석툴과 진보된 데이터 마이닝 기술을 사용하여 여러분이 직접 데이터를 분석할 능력을 가질 수 있게 도와주고, 새로운 아이디어를 활용하여 더 나은 분석을 할 동기를 부여한다. 빅데이터 시대에 데이터 분석 전문가를 목표로 하는 이에게 훌륭한 지침서가 되며, API 개발자에게 좋은 참고서적이 될 것이다.
비즈니스 측면에서는 소셜 네트워크 서비스를 파악하고 어떤 데이터를 추출, 분석하여 마케팅이나 제품 개발에 활용할 수 있는가에 대한 아이디어를 줄 수 있다.
여러분이 데이터 분석 전문가가 아니더라도 수없이 쏟아지는 데이터의 홍수 속에서 헤매지 않고 원하는 데이터를 손쉽게 찾고 활용할 길을 이 책에서 발견할 수 있을 것이다.
역자의 글 중에서
페이스북, 트위터, 링크드인은 많은 양의 가치 있는 소셜 데이터를 쏟아내고 있다. 그러나 누가 이러한 데이터를 만들었고, 무엇을 얘기하고 있으며, 어디에 그 데이터들이 있는지 어떻게 알 수 있을까?
간결하고 실용적인 이 책을 통해 여러분은 이러한 질문에 대한 해답을 얻을 수 있다. 이 책은 쏟아지는 소셜 데이터 홍수에서 유용한 정보를 찾을 수 있도록 소셜 데이터를 분석하고 시각화할 수 있는 방법을 가르쳐준다.
각각의 장에서는 블로그와 이메일을 포함하여 다양한 소셜 네트워크 데이터를 마이닝하는 기술을 소개한다. 이 책을 읽기 위해서는 약간의 프로그래밍 경험과 기본적인 파이썬 툴을 배울 의지만 있으면 될 뿐이다.
이 책의 추천사
“엄청난 속도로 데이터가 생산되는 요즈음의 필독서. API 개발자, 소셜미디어 중독자, 데이터 분석가 등을 위한 매우 훌륭한 지침서. 지은이 덕분에 소셜 데이터 마이닝을 위한 엄청난 기회를 얻었다.”
닉 듀코프, Infochimps, Inc. CEO
“새롭게 생성되는 온라인 데이터 소스 분석에 중요한 가이드 제공. 소셜 정보를 다루는 사람을 위한 훌륭한 지침서. 소셜 정보에 접근하는 방법과 원시 데이터에서 놀라운 정보를 추출하는 방법을 알 수 있다.”
피트 워든, OpenHeatMap.com 설립자
“소셜 네트워크 데이터 분석 업무의 참고서. 예제가 풍부하며, 데이터 마이닝 프로젝트 업무에 강력 추천. 초보자나 전문가에게 모두 유용한 책”
자프라, Abe Music 대표
“지은이가 노고를 아끼지 않고 진정으로 원해서 만든 책. 텍스트와 그래프 라이브러리를 현재의 소셜 미디어 프로그램 애플리케이션과 솜씨 있게 엮었으며, 구체적이고 간결한 예제는 개발자에게 통찰력 제공. 소셜 네트워크를 이해하기 위한 초보자와 최신 소셜미디어 API를 원하는 고급 개발자에게 훌륭한 지침서”
크리스 오게리, 네브래스카 대학교 선임연구원
“소셜 네트워크 데이터 마이닝을 원하는 사람들에게 경이로운 책. 첫 번째 장부터 한 걸음씩 나아갈 수 있게 철저하게 연구했으며 풍부한 예제 제공. 즐겁게 읽히고, 읽기 시작하면 손에서 떼기 어려워. 소셜 네트워크 데이터 마이닝, 분석, 시각화에 관심 있는 독자에게 강력 추천”
제프리 험프리스, 컴퓨터 공학박사
“앞으로 소프트웨어만큼 인간의 의사소통을 자동으로 이해하는 방법에 영향을 주는 것은 거의 없지 싶다. 이는 수많은 논문에서 다룬 폭넓고 깊은 주제다. 지은이는 소셜 네트워크에서 사람 사이의 의사소통에 관한 지식을 제공하는 다양하고 깊이 있는 기술과 주제를 소개했다. 이 책은 유능한 프로그래머가 가치 있는 새로운 툴을 사용하게 이끄는 매우 뛰어난 전문가의 작품이다. 여러분도 앞으로 10년간 활용될 소프트웨어를 사용하게 된다.”
팀 에스테스, Digital Reasoning의 설립자 겸 CEO
“트위터 API를 가장 잘 활용하게 해주는 책.”
라피 크리코리안, Twitter 플랫폼 서비스 그룹
“소셜 네트워크 데이터 출처, 분석 기술, 데이터 관리 툴, 소셜 네트워크 데이터 시각화 등 흥미 있는 것을 다양하게 다루었다. 예제는 바로 활용할 수 있고, 좀 더 깊은 연구에 기반을 제공한다. 시기적절하고, 빈틈없고, 진정 도움이 되는 힌트와 충고를 제공한다. 이 책은 나를 소셜 네트워크 데이터 분석의 세계에 열정적으로 빠져들게 했다.”
로저 마굴라스, 오라일리 미디어의 마켓 리서치 책임자
이 책의 특징
n 소셜 네트워크 서비스에 대한 정확한 개요를 파악한다.
n 트위터, 페이스북, 링크드인의 소셜 네트워크 API로부터 데이터를 수집하기 위해 GitHub에 있는 조작할 수 있는 스크립트를 사용한다.
n 수집한 데이터를 처리하기 위해 사용이 편리한 파이썬 툴을 이용하는 법을 배운다.
n XHTML 친화적인 네트워크와 마이크로 포맷으로 연결된 소셜 네트워크에 대해 분석한다.
n TF-IDF, 코사인 유사도(cosine similarity), 연어 분석(collocation analysis), 문서 요약(document summarization), 그리고 결속집단 탐지(clique detection)와 같은 진보된 데이터 마이닝 기술을 적용한다.
n HTML5, 자바스프립트 툴킷 기반의 웹 기술과 상호작용을 하는 시각적인 결과물을 만든다.
저자소개
매튜 러셀
Digital Reasoning Systems의 엔지니어링 담당 부사장이자 Zaffra의 사장인 매튜 러셀은 데이터 마이닝, 오픈 소스, 웹 응용프로그램 분야에 대한 열정적인 컴퓨터 과학자다. 저서로는 《Dojo: The Definitive Guide》(O’Reilly)가 있다.
역자소개
김상정 CISSP(정보시스템보안전문가)
한국과학기술원(KAIST)에서 전기및전자공학 전공하고 한국정보보호진흥원(KISA) 침해사고대응팀(CERTCC-KR)에서 침해사고대응, 해킹기법분석, 네트워크/시스템 보안취약점 분석 전문가로 활동했다.
목차
1장. 트위터 해킹 입문
파이썬 개발 도구 설치
트위터 데이터 수집과 처리
맺음말
2장. 의미론적 마크업 언어 마이크로포맷
XFN과 친구들
XFN을 이용한 소셜 인맥 분석
지리적 좌표
레시피 분석
레스토랑 리뷰 수집
요약
3장. 메일박스 분석
유닉스 메일박스‘mbox’분석
‘CouchDB’를 이용한 mbox 분석
SIMILE 타임라인으로 메일‘이벤트’시각화
자신의 메일 데이터 분석
맺음말
4장. 트위터의 친구, 팔로워 분석
리소스 기반, OAuth 표준인증 기반 API
간결한 데이터 수집 도구
친구관계 그래프 그리기
요약
5장. 트위터 콘텐트 분석
펜과 칼 그리고 트위트와 기관총
트위트 내용 분석
잠재적인 소셜 네트워크 비교
수많은 트위트 시각화
맺음말
6장. 비즈니스 소셜네트워크 링크드인
클러스터링을 위한 동기부여
직위에 따른 인맥 정보 클러스터링
확장 프로필 정보 수집
맺음말
7장. 블로그와 자연언어처리
NLP 소개
NLTK를 이용한 전형적 자연언어처리
NLTK를 이용한 블로그 문장 탐지
문서 요약
실체 정보 중심 분석
맺음말
8장. 페이스북
소셜 네트워크 데이터 분석
페이스북 데이터 시각화
맺음말
9장. 의미론적 웹
점진적인 변혁?
사람은 사실만 갖고 살 수 없다
희망
출판사 리뷰
이 책에서 다루는 것
여러분이 기본적인 프로그래밍 기술이 있고 소셜 네트워크 서비스 마이닝과 분석을 함으로써 생길 기회에서 얻을 통찰력에 흥미가 있다면 올바른 장소에 잘 찾아왔다. 앞부분 몇쪽만 읽고 나면 책에서 손을 뗄 수 없을 것이다. 그러나 단도직입적이고 솔직하게 말하면 각 장의 내용이 너무 짧아 불만이 있을 것이다. 불행히도 매일 진화하고 기회로 찬 인터넷 공간을 따라잡으려면 그럴 수밖에 없다. 그렇긴 해도 지은이는‘80-20 법칙’(http://en.wikipedia.org/wiki/Pareto_principle)의 팬이다. 그래서 이 책이 여러분이 사용 가능한 시간의 80%를 활용하여, 탐구하기를 원할 인터넷 공간에 관해 가장 흥미 있는 20%
를 제공하려는 합리적인 시도를 한다고 진심으로 믿는다.
이 책은 짧지만 광범위한 기본을 다룬다. 쉽게 말해 상황과 주제는 더 자세한 논의가 필요할 만큼 충분히 복잡하지만 깊이 있게 썼다기보다는 폭넓고 쉽게 서술했다. 흥미 있는 마이닝과 분석 기술은 깊이 다루었다. 이 책은 소셜 네트워크 데이터를 분석하기 위한 폭넓은 지침을 얻게 처음부터 끝까지 읽거나 특별히 관심 있는 분야를 선택해서 읽어도 된다. 다시 말해 각 장은 적절한 분량의 독립적인 내용이고, 즐겁게 읽게 하려고 특별히 순서를 주의 깊게 구성했다.
페이스북, 트위터, 링크드인 등 소셜 네트워크 서비스는 요즘 몇 년 사이 일시적인 유행에서 전 세계적인 주류로 변화했다. 2010년 1/4분기에는 인기 있는 소셜 네트워크 서비스인 페이스북이 구글의 페이지 방문자 수를 뛰어넘었는데, 이는 사람들이 온라인에서 시간을 보내는 대상이 이동되었음을 명확히 보여준다. 이러한 현상으로 웹이 연구나 정보를 위한 도구에서 현재 사회적 환경이 되었음을 부인할 수 없다. 소셜 네트워크 서비스는 검색엔진이 충족시키지 못했던 매우 근본적인 인간의 욕구를 광범위한 방법으로 만족시킨다. 소셜 네트워크는 온라인 또는 오프라인에서 우리의 삶을 진정 변화시키고, 기술로 하여금 최선의 것(가끔은 최악의 것)을 이끌어내게 하고 있다. 소셜 네트워크의 폭발적인 증가는 실제 현실과 가상공간의 틈을 지속적으로 줄여주는 방법이다. 각 장은 다음과 같은 물음에
답을 주려고 데이터 마이닝, 분석, 시각화 기술과 소셜 네트워크 서비스를 엮어주고 있다.
● 누가 누구를 알고, 어떤 친구를 함께 아는가?
● 사람들이 얼마나 자주 이야기를 주고받는가?
● 사람들 사이의 통신이 얼마나 대칭적인가?
● 소셜 네트워크에서 누가 가장 조용하고, 수다스러운가?
● 누가 가장 영향력 있고, 인기 있는가?
● 사람들이 무엇을 이야기하고, 관심 있는가?
이러한 질문의 대답은 일반적으로 둘 또는 그 이상의 사람을 함께 연결하고, 왜 그러한 연결 관계가 존재하는지 알려주는 문맥을 가리킨다. 이러한 질문에 답을 찾는 일은 단지 더 복잡한 분석 절차의 시작일 뿐이다. 그러나 여러분은 어디에서라도 시작해야 하고, 잘 만들어진 소셜 네트워크 API와 오픈 소스 툴킷을 이용하여 놀라우리만치 쉽게 답을 얻게 된다.
대략적으로 이 책은 소셜 웹을 사람, 행동, 사건, 개념 등의 그래프로 다룬다. 구글과 페이스북 같은 리더는 그래프 기반의 API를 동시에 개발하면서 웹 중심 언어보다는 그래프 중심 언어를 더 많이 사용하기 시작했다. 사실 팀 버너스리(Tim Berners-Lee)는‘웹’과‘그래프’라는 용어가 인터넷에 대한 토폴로지를 정의할 때 자유로이 혼용되기 때문에 World Wide Web(WWW) 대신 Giant Global Graph(GGG) (http://dig.csail.mit.edu/breadcrumbs/node/215) 용어를 사용해야 했다고 제안한다.
팀 버너스리의 원래 비전은 여전히 유효하지만, 웹은 소셜 데이터로 더욱더 풍부해지고 있다. 몇 년 전을 되돌아보면 소셜 웹으로 생성된 2단계, 3단계의 영향이 의미론적 웹을 인식하게 했다. 둘 사이의 틈이 점점 좁혀지고 있다.
이 책에서 다루지 않는 것
자신만의 자연언어처리기 만들기, 시각화 라이브러리의 일반적인 사용을 넘어서는 수준, 최신의 것 만들기는 이 책의 범위를 벗어난다. 이러한 것을 위해 이 책을 구입했다면 실망할 수도 있다. 그러나 텍스트 분석 또는 수백 페이지 안에서 기록 매칭을 하는 것이 현실적이지 않다거나 우리의 목표가 아니라는 것이 어려운 문제를 해결하는 합리적인 방법을 알려줄 수 없음을 의미하지 않는다. 이러한 방법을 소셜 웹에 적용하고 그 과정에서 재미를 느껴라. 또한 이렇게 흥미로운 연구분야에 관한 적극적인 관심이 잠재적으로 여러분이 생각하게 되는 훌륭한 아이디어가 될 수 없음을 의미하지 않는다. 이 책처럼 짧은 책은 여러분의 흥미를 돋우고, 데이터 해킹에 관한 열정으로 더 깊은 연구를 하게 충분한 통찰력
제공 이상을 하지 못한다.
또 다른 중요한 점은 여러분이 인터넷에 접속되었어야 한다. 이 책은 하이퍼링크된 참조사항이 많고, 모든 코드 예제가 직접적으로 GitHub(http://github.com, 소스코드 공유가 목적인 분산형 협업 개발 호스팅 서비스- 옮긴이)에 하이퍼링크 되기 때문에 휴가 때 인터넷이 되지 않는 지역에 들고 가서 읽을 책은 아니다. GitHub은 Git(분산형 소스 관리 시스템- 옮긴이)의 저장소이며, 항상 최신의 예제 코드를 반영한다. 소셜 코딩으로 우리처럼 공통 관심사가 있고, 예제를 개발하고, 흥미로운 문제를 해킹하는 일을 함께 작업하기를 원하는 사람들의 협업을 진작시키기를 기대한다. 여러분이 소스를 확장하고 향상시키기를 기대한다. API docs와 같은 온라인 정보 소스들도 하이퍼링크 되어 있다.
툴과 사전 준비
이 책을 위한 단 하나의 사전 준비는 파이썬을 배우고 소셜 데이터를 분석하려는 욕구를 갖기에 충분한 동기부여이다. 이 책의 기술(技術)과 예제는 데이터 분석, 고성능 컴퓨팅, 분산 시스템, 하드웨어 지식 등에 관한 깊은 배경 지식을 필요로 하지 않는다. 어떤 예제는‘thread pool’(http://en.wikipedia.org/wiki/Thread_pool_pattern) 같이 이전에 사용해 보지 않은 구조를 포함하지만, 우리는 파이썬으로 프로그래밍하므로, 조바심을 내지 마라. 파이썬의 직관적인 문법, 데이터 처리를 위한 놀라운 패키지 모음, ‘JSON’(http://www.json.org)이라는 핵심 데이터 구조는 매우 강력하고, 실행하기 쉬운 훌륭한 교재이다. 자연어 처리 같은 꽤 앞선 기술을 처리하는 패키지를 사용하는 다른 경우에서는 응용 프로그램 개발자로서 기술을 사용하는 관점에서 접근한다.
파이썬은 매우 적절한 툴이므로 이 책은 파이썬 선택을 정당화하기 위한 시도나 파이썬 사용에 양해를 구하지 않는다. 프로그래밍을 처음 해보거나 파이썬 문법을 본 적이 없으면 몇 페이지 훑어보는 게 여러분이 확인해야 할 전부이다. 훌륭한 문서들이 온라인에 있고, ‘공식적인 파이썬 지침서’(http://docs.python.org/tutorial/)는 좋은 출발점이다.
이 책은 개인 용도의 스프레드시트부터 산업용‘Graphviz’(http://www.graphviz.org)까지 또는‘Protovis’(http://vis.stanford.edu/protovis) 같은 최첨단 HTML5(http://en.wikipedia.org/wiki/HTML5) 기술까지 다양한 시각화 툴을 통한 유용한 시각화 방법을 소개한다. 각 장마다 새로운 시각화 방법 두 가지를 자연스럽게 이해하기 쉬운 방법으로 소개하려고 적절하게 시도했다. 여러분은 이러한 툴로부터 가벼운 프로토타입을 만드는 아이디어에 익숙해질 필요가 있다. 즉 이 책에서 대부분의 시각화는 특별한 예제 또는 API를 최소한도로 사용하는 뛰어난 예제 또는 프로젝트에 관한 약간의 변형이다. 여러분이 배우려고 한다면 좋은 결과를 얻는다.
이제 시작이야! jQuery 모바일: Up & Running (0) | 2012.10.24 |
---|---|
이제 시작이야! 디지털 포렌식: THE BASICS (0) | 2012.09.11 |
웹 애플리케이션 해킹: 취약점을 이용한 공격과 방어의 기술 (0) | 2012.08.30 |
댓글 영역