당신이 몰랐던 통계 오류
: 데이터 과학 및 분석을 위한 통찰
저자 알렉스 라인하르트
역자 배인수
출간일 2015년 8월 26일 (수)
정가 20,000원
페이지 216
판형 173*230
ISBN 979-11-86697-02-3 (93000)
책 소개
올바른 방법으로 데이터를 분석하자!
과학의 발전은 제대로 된 연구에 달려있으며, 제대로 된 연구는 제대로 된 통계학에 기반을 둔다. 하지만, 통계분석은 그것에 대해서 가장 잘 알고 있는 사람들조차도 제대로 수행하기 까다롭다. 많은 과학자들은 상상할 수 없을 정도로 통계분석에서 실수를 범한다. 이 책은 현대 과학에서 발생하고 있는 통계학적 실수들에 대한 강력하면서 필수적인 소개서다. 연구를 진행할 때 통계적 실수를 범하고 싶지 않은 연구자들에게 추천한다. 독자들은 이 책을 읽으면서 최신 연구들에서 벌어지고 있는 통계적 오류들에 당황할 것이다. 이 책에서는 이런 오류들에 대해서 알아보고, 이런 일이 벌어질 수밖에 없게 만드는 과학계의 구조에 대해서 알아볼 것이다. 또한 앞으로 여러분이 제대로 통계를 적용할 수 있도록 하기 위한 모험을 떠나게 될 것이다.
이 책을 통해 다음을 알 수 있다.
- 제대로 된 질문을 하는 방법, 제대로 실험설계를 하는 방법, 적절한 통계분석 방법을 고르는 법, 그리고 그 계획대로 진행하는 방법.
- 유의확률 p값, 통계적 유의성, 신뢰구간, 그리고 회귀분석의 올바른 개념
- 올바른 샘플 수를 결정해서 위양성 결과를 피하는 방법
- 분석 결과를 보고하고, 자료 및 소스 코드와 함께 논문을 발표하는 법
- 따라야 할 절차, 주의해야 할 점, 그리고 이런 작업들을 도와주는 분석 소프트웨어에 관한 지식
이 책의 구성
이 책에서 저자는 여러분들에게 자주 발생하는 오류들의 명칭에 대해서 알려줄 뿐만 아니라, 그것들에 얽힌 재미있는 일화들도 같이 언급한다. 세세한 수학 공식을 들지 않고도 왜 통계학적 오류가 오류인지 설명한다. 그리고 이렇게 언급된 오류들이 얼마나 자주 발생하는 것들인지 보여주는 연구자료를 첨부시켰다. 이는 책을 읽기 어렵게 만드는 요소이지만, 그럴만한 가치가 있다고 생각한다. 기초적인 통계학을 제대로 이해하는 것은 과학계에 종사하는 사람들에게 반드시 필요한 일이다.
통계분석 분야에 종사하는 사람들을 위해, 각 장의 끝부분에 자주 행하는 실수들을 피하기 위해서 사용할 수 있는 통계학적 기술들에 대해서 적어놓았다. 하지만, 이 책은 교과서가 아니기 때문에 이런 기술을 적용하는 부분에 대해서는 자세히 적어놓지 않았다. 다만, 저자는 독자들이 자주 발생하는 통계학 오류들을 이 책을 통해 알게 되어 자신의 상황에 맞는 통계학적 기술을 고를 수 있는 안목을 가질 수 있기를 바란다.
어떤 특정 주제에 대해서 독자들의 호기심을 자극하기 위한 경우에는 관련된 참고문헌을 포함시켰다. 또한 매번 통계학적 오류들이 소개될 때마다 참고자료도 같이 포함시켰다. 이 책은 개념을 이해하는 데 중점을 두고 있기 때문에, 많은 수식을 제외시켰다. 하지만, 만약 이 글을 읽는 독자가 명확하게 그 뜻을 알고 싶어한다면 참조된 원본 논문을 읽어보는 것을 권장한다.
독자대상
초중급
저자 소개
알렉스 라인하르트
통계학 강사이자 카네기멜론 대학의 통계학 박사과정 학생이다. 그는 텍사스 오스틴에서 물리학으로 학사를 받았으며, 통계학과 물리학을 활용해서 방사성 기기를 추적하는 연구를 하고 있다.
역자 소개
배인수
연구를 하기 위해서 세워진 국내 대학원에서 데이터 과학 관련 박사과정을 밟고 있다. 우연한 기회에 번역을 제안받은 책의 소개를 읽으면서, 예전에 어디선가 읽었던 유의확률은 쉽게 조작 가능하다고 하는 기사를 떠올렸다. 이 책, 『당신이 몰랐던 통계 오류』를 통해서 어떤 방법으로 그런 일이 가능하며, 그런 논문을 걸러 읽으려면 어떻게 해야 하는지 알아보고자, 번역을 해보기로 결정했다. 랩 생활에 지쳐 카페인에 찌든 몸으로 밤늦은 시각과 주말에 번역하느라 고생했지만, 의미 있는 도서를 번역한 것에 의의를 두고 있다.
목차
1장. 통계학적 유의성에 대한 개요
- 유의확률의 검정력
- 신뢰구간
2장. 검정력을 가진 통계치와 그렇지 않은 통계치들
- 검정력 곡선
- 검정력이 부족할 경우 발생하는 위기들
- 신뢰구간과 역량강화
- 부풀려지는 실험결과
3장. 현명하게 분석할 데이터 정하기: 가복제
- 가복제란?
- 가복제에 대응하기
- 대규모 생물학
- 동조된 가복제
4장. 유의확률과 기저율 오류
- 기저율 오류
- 만약 처음에 성공하지 못했다면 시도하라, 계속 시도하라
- 뇌 스캔 중 나타나는 오류
- 위음성 비율을 줄이는 방법
5장. 유의성을 제대로 판단하지 못하는 경우
- 유의미하지 않은 차이
- 유의성에 추파를 던지다
6장. 자료의 중복 사용
- 순환 분석
- 평균으로의 회귀
- 정지 법칙
7장. 연속 오차
- 쓸데없이 둘로 나누기
- 통계적 등화관제
- 혼동된 혼동
8장. 모형 남용하기
- 회귀분석으로 수박 고르기
- 상관관계와 인과관계
- 심슨 패러독스
9장. 연구자들의 선택에 달려있다
- 분석의 자유가 존재하지 않는다는 것은 위험한 일이다
- 편향성을 피하는 방법
10장. 모든 사람은 실수를 한다
- 재현되지 않은 유전학 실험
- 재현성이 쉽도록 하자
- 실험, 씻기, 다시 시도하기
11장. 자료 숨기기
- 감추어진 자료
- 세부적인 내용 빼놓기
- 캐비닛 속의 과학
12장. 개선점
- 통계학 교육
- 과학 논문
- 여러분의 역할
- 참고 자료
출판사 리뷰
이 책은 과학이라는 이름 아래에서 자주 행해지는 터무니없는 통계학적 오류들을 소개하기 위해서 쓰여졌다. 많은 과학자들이 제대로 된 통계학 수업을 받지 않았기 때문에(게다가, 저자는 통계학을 이미 알고 있는 사람들로 독자들을 한정 시키고 싶지 않았다고 책 속에서 밝히고 있다) 이 책은 정식으로 통계학 수련을 받지 않은 독자들을 대상으로 쓰여졌다. 몇몇 독자들은 첫 장을 읽지 않고 넘어가도 되지만, 저자가 설명하는 방식에 익숙해지기 위해서는 속독해보는 것을 권한다.
연구자의 논문에 사용된 통계학적 방법은 연구자가 사용한 다른 방법들과 같이 평가될 때서야 비로소 제대로 평가받을 수 있다. 예를 들면, 연구방법 설계, 측정방법, 연구비용제한, 실험의 목표 등을 같이 고려해야 한다. 통계학에 대한 이해란, 연구들의 잠재적인 편향이라든지, 제한 사항이나 강점들을 이해하는 데 사용되어야지 개인적인 믿음에 대해서 반하는 논문이나, p값을 오용한 논문들을 비난하는 데 사용되어서는 안 된다. 그리고 또 한 가지 명심해야 할 점은, 잘못된 통계로 인해서 얻어진 결론은 여전히 옳은 결론일 수 있다는 점이다. 통계학적 그리고 논리적 오류로 인해서 결론이 틀리는 것은 아니다. 다만 그만큼 설득력이 떨어지는 것뿐이다. 간단하게 말해서, 저자는 통계학을 적용하는 데 있어서, 책임감을 가져주길 바란다고 이 책을 통해 이야기하고 있다.
누구나 쉽게 배우는 자바스크립트 (3) | 2015.09.03 |
---|---|
역공학: X86, X64, ARM, 윈도우 커널, 역공학 도구, 그리고 난독화 (0) | 2015.07.22 |
누구나 쉽게 배우는 루비 (0) | 2015.07.02 |
댓글 영역