네이선 야우

데이터 포인트

데이터 시각화 + 인포그래픽을 깨우치다


저자 네이선 야우

역자 서경진

출판사 비제이퍼블릭

정가 27,500


페이지 345

판형 188 * 235

ISBN 978-89-94774-50-3 (93000)

원서정보 Data Point: Visualization That Means Something

예약판매

[YES24]  [알라딘]  [인터파크]  [도서11번가]

 
책 소개

 

독창적이고 의미 있는 데이터 시각화와 인포그래픽에 대한 고찰

 

조급하게 외양에 치중하기 보다는 데이터 자체에 집중해야 한다.”

 

효과적인 데이터 시각화를 얻기 위해서는 통계 전문가, 디자이너, 스토리텔러 역할을 모두 함께 수행할 수 있어야 한다. 네이선 야우는 그의 전작인 《비주얼라이즈 디스》에서 시각화에 사용되는 소프트웨어와 프로그래밍 테크닉을 소개한 바 있다.

 

반면, 베스트셀러인 이 책 《데이터 포인트: 데이터 시각화 + 인포그래픽을 깨우치다》에서는 일반 대중들이 이해하고 기억하기 쉬우면서도 독창적이고 의미 있는 데이터 시각화를 산출하기 위해 필요한 사고 과정들을 다루고 있다. , 데이터 속의 중요한 의미를 찾아내고 보여주는 방법들을 다룬다.

 

 

이 책에서 다루는 내용

 

- 데이터의 의미와 배워야 할 점을 발견하는 과정

- 데이터를 탐색하고 스토리를 발굴하여 실생활에 연관시키는 방법

- 매체로서 시각화를 이해하고, 데이터의 의미를 제시하고 표현하는 방법

- 창의적이면서 스토리 전달에 효과적인 방법

- 데이터 탐색과 분석 과정을 위한 소프트웨어 도구들의 비교

- 데이터, 스토리와 목표들이 도형, 차트, 지도, 컬러, 예술 그리고 유머로 표현되는 방법

 

 

독자대상


책은 디자인과 데이터 분석 과정에 관심이 있는 사람들을 대상으로 쓰여졌다. 장은 의미 있는 데이터 시각화를 제작하는 과정을 기술하고 있다. 책에서 다루는 의미 있는 시각화 기법은 단순히 클립아트와 함께 크게 출력된 숫자들로 이루어진 결과물 이상을 다루고, 데이터를 이해하는 것에 관한 것이기도 하다. 시각화 결과물을 제작하는 과정은 반복적이고, 주기는 항상 새로운 데이터셋마다 달라진다.

 


이 책의 구성

 

책의 전반부에서는 데이터를 이해하고 데이터 시각화의 의미를 알려주고자 한다. 데이터는 사실 사람, 장소, 사물 같은 내용을 표현하는 것이기 때문에 항상 사실적인 수치에는 중요한 맥락 정보가 연결되어 있다.

 

데이터는 누구에 관한 것인가? 데이터의 출처는 어디인가? 언제 데이터가 수집되었는가? 우리는 컴퓨터로 생성한 결과물들의 인간에 관한 부분에 책임이 있다. 다른 무엇보다 대부분의 데이터는 예측된 값이므로 절대적인 진실이 아니라는 사실이 중요하다. 값에는 실제 세계에서처럼 불확실성과 가변성이 존재한다.

 

책의 중반부에서는 탐색 단계를 다룬다. 데이터를 파헤치는 과정으로 자유롭게 질문하고 질문에 답하기 위해 노력한다. 패턴, 연관성 그리고 특이해 보이는 어떤 것들을 찾게 된다. 값을 잃어버리는 것도 흔한 상황인데, 단계는 다양한 각도에서 데이터를 살펴보기 위해 실험해보고 시도해보고 아마도 예상치 못한 면을 찾아내는 단계가 것이다.

 

아마도 전체 내용 가장 흥미로운 부분이 것이다. 어떤 이유에서인지 탐색 단계는 자주 건너뛰기도 하는데, 경우 데이터에 대한 이해가 부족하여 결국 최종 결과물에 영향을 미치게 된다. 여러분의 데이터를 살펴보고 데이터가 나타내는 바를 알아보는 시간을 가져야 한다. 그러면 데이터 시각화 결과는 눈에 띄게 향상될 것이다.

 

기본적인 이야기를 데이터에서 찾아냈다면 다음 단계는 일반적으로 결과물을 넓은 범위의 청중에게 알리는 것이다. 과정은 마지막 과정으로 디자인 요소를 활용할 시점이 된다. 주제에 관해 이미 익숙하고 중요한 관련 논문을 읽은 소수의 사람들과 같은 소규모 청중을 위한 그래픽은 수치들 이면의 복잡한 맥락에 생소한 일반 청중을 위한 그래픽과는 전혀 다르다.

 

말하자면 책이 기술하고 있는 과정들은 순차적이지 않다. 만약 여러분이 이미 데이터를 다뤄봤다면 기존 데이터를 탐색할 새로운 데이터를 보게 되는 일이 흔하다는 것을 것이다. 같은 차원에서 디자인 과정은 여러분이 전에는 알아보지 못했던 자세한 면을 있게 해주므로 다시 탐색 과정으로 또는 처음으로 돌아가는 경우가 생긴다. 여러분이 데이터에 생소하다면, 여러분의 프로젝트에서 데이터를 활용할 있다는 확신이 생길 때까지 정독하면서 과정을 배워야 한다.

 

데이터와 연결된 이야기 사이를 오가는 과정은 재미있다. <데이터 포인트> 나의 이전 책인 <비주얼라이즈 디스> 보완편이다. <비주얼라이즈 디스> 사용 가능한 도구들에 대한 안내서 역할을 하고 프로그래밍 예제를 제공하고 있다.

 

반면 책은 대규모 데이터 시각화 프로젝트의 과정과 사고방식을 설명하고 있어 특정 소프트웨어와는 별개의 내용이다. 다시 말해 책은 상호 보완적이다. <비주얼라이즈 디스> 자신의 그래픽을 만들 준비가 사람들을 위한 기술 안내서라면 <데이터 포인트> 의미 있고 개선된 시각화 결과물을 만들 있도록 하는 데이터 시각화 과정 설명서라고 있다.

 


저자소개

 

네이선 야우

 

네이선 야우는 미국 UCLA에서 통계학 석사를 마치고 데이터 시각화와 개인 데이터 활용에 관한 연구로 통계학 박사를 취득한 통계 전문가다.

 

2007년부터 홈페이지 FlowingData에 데이터 시각화, 통계 디자인을 주제로 글을 쓰고 그래픽 작업을 해왔다. 그는 데이터 시각화가 데이터를 제시하는 훌륭한 도구이자 수단으로서 훌륭한 매체가 될 수 있을 것이라 믿는다. 그의 또 다른 저서로는 <비주얼라이즈 디스Visualize this>가 있다.

 


역자소개

 

서경진

 

인간과 기계, 인간과 컴퓨터 사이의 상호작용과 인터페이스에 대한 애정과 호기심이 충만한 인터액션 개발자가 되고자 노력하고 있으며, 인터액티브 미디어를 학술적, 상업적, 예술적인 분야에 접목시키고 컴퓨터를 통해 사람들에게 시각적인 즐거움과 영감을 주는 방법에 대해 연구하고 있다.

 

서강대 전자공학과에서 석사까지 마친 뒤 영상대학원에서 컴퓨터비전 분야로 박사학위를 마쳤다. 대학원 생활 중 미디어 아트 분야와 HCI 분야에 대해 눈을 뜨면서 센싱과 인터랙션을 주제로 다양한 분야의 사람들과 작업하는 것을 즐기면서 다수의 미디어 작업을 해왔다. 2013년 현재 ㈜네이버가 설립한 소프트웨어 교육기관 NHN NEXT에서 HCI와 데이터 시각화 과목을 가르치는 일을 하고 있다.

 


목차

 

1. 데이터의 이해

 데이터의 표현

 가변성

 불확실성

 맥락

 정리하기

 

2. 시각화: 매체

 분석과 탐색

 -- 도구들

 인포메이션 그래픽스와 프레젠테이션

 -- 스토리텔링

 엔터테인먼트

 -- 유머

 데이터 아트

 일상

 정리하기

 

3. 데이터의 표현

 시각화 요소

 -- 시각적 단서

 -- 좌표계

 -- 척도

 -- 맥락

 융합하기

 정리하기

 

4. 데이터의 시각적 탐색

 작업 과정

 -- 어떤 데이터를 가지고 있는가?

 -- 데이터에서 무엇을 알고자 하는가?

 -- 어떤 시각화 기법을 사용해야 하는가?

 -- 무엇을 보여주고 있고 그 결과가 이치에 맞는가?

 범주형 데이터의 시각화

 -- 전체를 이루는 부분들

 -- 하위 범주

 -- 찾아봐야 할 것

 시계열 데이터의 시각화

 -- 주기

 -- 찾아봐야 할 것

 공간 데이터의 시각화

 -- 지역

 -- 카토그램

 -- 찾아봐야 할 것

 다중 변인

 -- 몇 개의 변인

 -- 다수의 변인

 -- 다중 뷰 사용하기

 -- 찾아봐야 할 것

 분포

 -- 찾아봐야 할 것

 정리하기

 

5. 명확한 시각화

 시각적 위계 구조

 가독성

 -- 비교 가능하게 만들기

 -- 맥락 나타내기

 -- 여백

 강조하기

 주석

 -- 데이터 설명

 -- 통계 개념 설명

 -- 타이포그래피 실험

 수학 계산

 정리하기

 

6. 청중을 고려한 디자인

 잘못된 통념

 -- 참신한 그래픽 형식

 -- 모든 것을 시각화하기

 -- 보기 좋게 만들기

 -- 규칙

 청중에게 데이터 제시하기

 -- 본인 혼자인 경우

 -- 구체적인 청중

 -- 광범위한 청중

 고려해야 할 점

 -- 데이터 배경지식

 -- 개념들의 안내

 -- 데이터 내러티브

 -- 관련성

 융합하기

 정리하기

 

7. 필요한 도구들

 시각화 도구

 -- 마이크로소프트 엑셀

 -- 구글 스프레드시트

 -- 타블로 소프트웨어

 -- 매니아이즈

 -- 데이터에 특성화된 도구

 프로그래밍

 -- R

 -- JavaScript, HTML, SVG, CSS

 -- 프로세싱

 -- 플래시 와 액션스크립트

 -- 파이썬

 -- PHP

 일러스트레이션

 통계

 정리하기

 


출판사 리뷰

 

도구 이상의 의미를 갖는 데이터 시각화

 

책에서 데이터 시각화는 도구라기보다 매체로 다루어진다. 시각화를 엄격하게 규정된 도구로 접근하면 거의 모든 그래픽에 막대 그래프 형식이 적절하다는 생각에 빠지기 쉽다. 막대 그래프는 수많은 차트에 활용되지만 적합한 맥락하에 활용되어야 한다. 분석 단계에서 여러분은 쉽게 읽히고 빠르고 정확하게 만들 있는 그래프가 필요할 것이다.

 

그러나 다른 각도에서 보면 이러한 의견이 매우 설익은 의견일 있다. 만약 시각화의 목표가 감성과 호기심을 불러일으키는 것이라면 어떨까? 시각화는 실세계를 추상화한 데이터를 표현하는 수단이다. 같은 방식으로 글은 다른 종류의 이야기를 전달하도록 다른 방식으로 쓰일 있다. 신문 기사는 소설과 동일한 기준에 의해 판단되지 않는다. 같은 맥락에서 데이터 아트에서 쓰이는 시각화 기법은 상업적 목적을 갖는 대시보드와는 다른 기준으로 평가를 받아야 한다.

 

그렇긴 하지만 시각화 타입에 상관없이 따라야 하는 규칙이 있다. 규칙은 디자인이나 통계학적 기준의 영향을 받지 않고 대신 인간 지각에 의해 좌우된다. 주로 독자들이 부호화된 데이터를 해석할 때의 정확도와 관련된 것이다. 시각적 단서로 종횡비가 쓰일 때의 적절한 면적 크기와 같은 가지 규칙이 있고 나머지는 모두 제안사항이다.

 

당연히 규칙과 제안은 구분해야 한다. 규칙은 거의 항상 따라야만 하는 사항인 반면, 제안은 기본적으로 의견일 뿐이므로 사람이나 상황에 따라 변할 있는 것이다. 많은 초보자들의 흔한 실수는 조언을 엄격한 규칙으로 받아들이고 데이터가 나타내고 있는 맥락을 잃어버리는 것이다. 예를 들어 에드워드 터프트는 차트의 불필요한 모든 부분을 제거할 것을 제안했다. 그러나 이때 불필요한 부분에 대한 정의는 바뀔 있는 것이다. 어떤 차트에서 제거해야 요소들이 다른 차트에서는 남겨져야 필요가 있기도 하다. 터프트의 제안처럼대부분의 디자인 원칙은 의심하면서 활용해야만 한다.

 

비슷한 예로, 사람들은 통계 전문가 윌리엄 클리블랜드 와 로버트 맥길 의 지각과 정확성에 관한 연구를 자주 인용한다. 그들은 산포도처럼 위치를 척도로 사용하는 경우 사람들이 가장 정확하게 해석할 있고, 다음은 길이, 각도, 기울기 순으로 정확도가 달라진다는 내용을 공개했다.

 

결과는 연구 실험을 기반으로 했는데 다른 연구에 재사용되었다. 이런 과정 때문에 클리블랜드와 맥길의 발견이 마치 규칙인 것처럼 잘못 여겨진다. 그러나 클리블랜드는 좋은 그래프의 특징은 그래프를 빨리 읽을 있을 뿐만 아니라 무엇을 보여주고 있는지가 드러나는 것임을 또한 강조하고 있다. 데이터 시각화 결과물이 전에는 보지 못했던 것을 있게 해주는지 생각해봐야 하는 것이다.

 

가치 있는 시각화를 위한 데이터를 생각해보자. 다행스럽게 여러분이 자유롭게 다루어볼 많은 데이터가 생겼고 출처는 계속 늘고 있다. 지난 년간 매주 데이터의 홍수와 데이터에서 헤매는 것을 경고하는 기사가 있었다. 그러나 현재 데이터의 양은 조절되고 있고 쉽게 정리하고 누적해나갈 있는 방법도 생겼다. 저장 공간은 저렴해지고 있어 실질적으로 저장 용량이 무한대에 가까워지고 있다.

 

이러한 면들은 데이터의 바다를 헤엄칠 아는 사람들에게 긍정적이고 발전 가능성을 의미하는 것이다. 도전거리는 깊게 데이터의 바다로 다이빙하는 법을 배우는 것이다.


 

상세 이미지

 

 

 


Trackbacks 0 | Comments 0

퍼블릭's Blog is powered by Daum & tistory