부제 주요 파이썬 라이브러리를 활용한 개별 기술 학습과 실습까지
저자 오오쓰보 나오키, 나카에 도시히로, 후카사와 유타, 도요카 쇼, 사카모토 뎃페이, 사토 마코토, 이가라시 겐타, 이치하라 다이키, 호리우치 신고
역자 김대희
출판사 비제이퍼블릭
출간/배본가능일 2022년 11월 24일
정가 27,000원
페이지 284쪽
판형 188*245
ISBN 979-11-6592-164-4 (93000)
그 순간, 인공지능은 왜 그렇게 생각했을까?
설명 가능한 AI인 XAI로, AI의 마음속을 들여다본다!
어느덧 우리 주변에서 AI를 쉽게 접할 수 있는 시대가 되었다. 여러 다양한 기업에서도 AI를 통해 전략을 수립하거나 투자를 결정하고, 데이터 관련 법이 제정 및 공표되어 빅데이터를 수집하고 활용하는 근거가 마련되고 있다. 하지만 AI가 갑자기 일반적인 결과에서 벗어나 엉뚱한 결과를 도출한다면 어떻게 될까? 만약 생명과 관련된 AI에 이러한 문제가 발생한다면 큰 사고로도 이어질 수 있다. 하지만 ‘AI의 책임성’, 즉 AI가 도출하는 추론 결과에 명확한 근거를 제시하기 어려운 것이 현실인데, 이때 그 해결책으로써 'eXplainable AI', 즉 XAI가 주목받고 있다.
XAI는 AI에 관한 업무를 수행하거나 관심이 있다면 반드시 알아두어야 할 분야이다. 이 책은 XAI의 배경부터 개별 기술까지 체계적으로 학습하고 몇 가지 주요 라이브러리를 시험 삼아 구동해 보면서 실무 지식을 얻을 수 있는 해설서이다. 특히 각 기술들을 최소한의 수학적 전개를 통해 설명하며, 파이썬으로 구현하기 때문에 XAI를 실무에서 빠르게 적용할 수 있도록 하며, 그 외에 XAI에 대한 주요 이슈 및 앞으로의 전망도 설명한다. XAI가 무엇인지 개념을 잡고 싶거나 각 기술을 직접 소스 코드로 구현해 빠르게 확인해 보고 실무에 적용하려는 분들에게 꼭 필요한 책이 될 것이다.
소스 코드 다운로드 https://github.com/bjpublic/XAI
제Ⅰ부 과제 설정
제1장 AI에게 ‘설명’이 필요한 이유
1.1 AI 보급과 새로운 요구 사항
1.2 AI의 공평성ㆍ책임성ㆍ투명성
1.2.1 AI의 공평성(Fairness) 4
1.2.2 AI의 책임성(Accountability) 5
1.2.3 AI의 투명성(Transparency) 5
1.3 AI의 설명 가능성
1.3.1 설명 가능성이 높은 알고리즘
1.3.2 설명 가능성이 낮은 알고리즘
1.4 AI를 업무에 적용할 때 AI 설명이 필요한 이유
이번 장을 정리하며
제Ⅱ부 기초 지식
제2장 ‘설명 가능한 AI’의 개요
2.1 XAI란 무엇인가?
2.1.1 XAI의 목적
2.1.2 ‘설명 가능한 AI’와 ‘해석 가능한 AI’
Column XAI 관련 용어 의미
2.2 XAI 동향
2.2.1 XAI에 대한 왕성한 연구 활동
2.2.2 XAI 구현
2.3 ‘전역 설명’과 ‘국소 설명'
2.3.1 전역 설명(Global Explanations)
2.3.2 국소 설명(Local Explanations)
2.4 설명 방법의 차이점
2.5 모델 의존성
2.5.1 모델 의존형 XAI
2.5.2 모델 불문형 XAI
이번 장을 정리하며
제3장 XAI 활용 방법
3.1 설명 분류별 활용 방법
3.1.1 국소 설명 활용 방법
3.1.2 전역 설명 활용 방법
3.2 국소 설명 활용 방법
3.2.1 신고 내용의 타당성 검증
3.2.2 의도와 다른 학습 재검토
3.3 전역 설명 활용 방법
3.3.1 AI 모델의 개선 운용
3.3.2 적대적 공격 검증
이번 장을 정리하며
제4장 다양한 XAI 기술
4.1 다양한 설명 방법
4.1.1 XAI 라인업
4.1.2 이 책의 해설 내용
4.2 기술 소개 ① LIME
4.2.1 개념과 동작 원리
4.2.2 데이터 종류별 동작 원리
4.2.3 LIME의 특징과 주의점
4.2.4 LIME 정리
4.3 기술 소개 ② SHAP
4.3.1 섀플리 값이란
4.3.2 SHAP의 개념
4.3.3 SHAP 계산 알고리즘
4.3.4 SHAP 정리
4.4 소개 기술 ③ Permutation Importance
4.4.1 Permutation Importance의 개념
4.4.2 Permutation Importance의 동작 원리
4.4.3 Permutation Importance 정리
4.5 소개 기술 ④ Partial Dependence Plot
4.5.1 PDP / ICE의 개념
4.5.2 PDP / ICE의 특장점과 주의점
4.5.3 PDP / ICE 정리
4.6 소개 기술 ⑤ Tree Surrogate
4.6.1 Tree Surrogate의 개념
4.6.2 의사결정 트리 대리 모델의 특ㆍ장점과 주의점
4.6.3 의사결정 트리 대리 모델 정리
4.7 소개 기술 ⑥ CAM / Grad-CAM
4.7.1 CAM의 개념과 동작 원리
4.7.2 Grad-CAM의 개념과 동작 원리
4.7.3 관련 기술ㆍ파생 기술
4.7.4 CAM / Grad-CAM 대응 모델
4.7.5 CAM과 Grad-CAM 정리
4.8 소개 기술 ⑦ Integrated Gradients
4.8.1 Integrated Gradients의 개념과 동작 원리
4.8.2 Integrated Gradients 대응 모델
4.8.3 Integrated Gradients 정리
4.9 소개 기술 ⑧ Attention
4.9.1 Attention의 개념과 동작 원리
4.9.2 Attention 대응 모델
4.9.3 Attention 정리
이번 장을 정리하며
제5장 XAI 라이브러리 평가•선정
5.1 XAI를 평가하는 기본적인 관점
5.1.1 사용할 XAI를 결정하기 위한 관점
5.1.2 범분야(Cross-Cutting) 평가 관점
5.2 XAI 선정 방법
5.2.1 XAI 선정 절차(Flow)
5.2.2 목적ㆍ최소 조건과 부합하는가?
5.2.3 중요 조건과 부합하는가?
5.2.4 사용자가 만족할 수 있는가?
5.3 일관된 관점
5.3.1 평가 관점 ① ‘충실도’
5.3.2 평가 관점 ② ‘신뢰성’
5.3.3 평가 관점 ③ ‘만족도’
5.3.4 평가 관점 ④ ‘Mental Model’
5.3.5 평가 관점 ⑤ ‘실작업 친화성’
이번 장을 정리하며
제Ⅲ부 실천 매뉴얼
제6장 LIME을 활용한 표 형식 데이터 국소 설명
6.1 검증 목적
6.2 라이브러리 준비
6.3 검증 대상 데이터
6.3.1 데이터 개요
6.3.2 데이터 이해
6.4 모델 학습
6.4.1 전처리
6.4.2 모델 학습
6.5 LIME을 활용한 예측 결과의 설명
6.5.1 LIME 사용 준비
6.5.2 주요 파라미터
6.5.3 LIME 실행
6.5.4 다른 데이터에 대한 설명
Column 이해 가능한 설명인가
6.6 국소 설명의 수준을 조정하는 kernal width
검증 결과 정리
제7장 LIME과 Grad-CAM을 활용한 이미지 데이터의 국소 설명
7.1 검증 목적
7.2 라이브러리 준비
7.3 검증 대상 데이터
7.4 AI 모델 준비와 예측
7.5 LIME을 활용한 설명
7.5.1 LIME을 활용한 AI 모델 설명
7.5.2 LIME 설명 가시화와 해석
7.5.3 LIME을 활용한 설명 정리
7.6 Grad-CAM을 활용한 설명
7.6.1 Grad-CAM을 활용한 AI 모델 설명
7.6.2 Grad-CAM 설명 가시화와 해석
7.6.3 Grad-CAM을 활용한 설명 정리
검증 결과 정리
제8장 LIME과 Integrated Gradients 텍스트 분류의 국소 설명
8.1 검증 목적
8.2 라이브러리 준비
8.3 검증 대상 데이터
8.4 모델 학습과 예측
8.5 LIME을 활용한 모델 해석
8.6 Integrated Gradients를 활용한 방법
검증 결과 정리
Column Attention 가시화
제9장 SHAP의 국소적•전역적 설명과 대응
9.1 설명 준비
9.1.1 환경 구축
9.1.2 데이터 세트 준비
9.1.3 모델 준비
9.2 SHAP 값 산출과 이해
Column LightGBM의 SHAP 연계 기능
9.3 SHAP 값 가시화
9.3.1 개별 예측에 대한 특징량의 영향
9.3.2 데이터 세트 전체에 대한 특징량 반영 방법
Column 특징량 중요도 상호 비교?
9.3.3 SHAP 값과 특징량의 상관 관계 가시화
Column 변수 사이의 상호 작용을 활용한 상세 관찰 방법: SHAP Interaction aVlues
9.4 SHAP 값의 추가적인 활용
9.4.1 SHAP 값의 클러스터링을 활용한 데이터 분류
9.4.2 차원 삭제에 따른 특징량의 조합 추출
9.4.3 유사 데이터 검색과 신규성의 산출
검증 결과 정리
제10장 ELI5, PDPbix, Skater를 활용한 전역 설명
10.1 다양한 전역 설명 XAI
10.1.1 모델 설명을 수행하는 라이브러리
10.1.2 개발 성숙도
10.2 사전 준비
10.2.1 XAI 실행을 위한 과정
10.2.2 파이썬 환경 구축
10.2.3 XAI 라이브러리 설치
10.3 ELI5(Permutation Importance)
10.3.1 ELI5는 어떠한 기술인가?
10.3.2 ELI5 실행
10.3.3 ELI5 평가
10.4 PDPbox(PDPㆍICE)
10.4.1 PDPbox는 어떠한 기술인가?
10.4.2 PDPbox 실행
10.4.3 PDPbox 평가
10.5 Skater(Tree Surrogate)
10.5.1 Skater는 어떠한 기술인가?
10.5.2 Skater 실행
10.5.3 Skater 평가
검증 성과 정리
제11장 LIME, SHAP의 한계와 해결책
11.1 XAI 방법의 한계
11.2 LIME 결과 안정성
11.3 SHAP 계산 시간 대처 방안
11.4 스파스(Sparse) 데이터 분석
이번 장을 정리하며
제Ⅳ부 장래 전망
제12장 업무에서 필요한 설명 능력
12.1 비즈니스상의 설명
12.1.1 AI 활용 상황
12.1.2 설명이 필요한 비즈니스 상황
12.1.3 비즈니스상 필요한 설명 분류
12.2 정밀도와 설명 능력의 Trade Off
12.2.1 복잡한 사상의 설명은 근본적으로 복잡하다
12.2.2 XAI에 과도한 기대는 금물
12.3 설득력 키우기
12.3.1 필요한 것은 ‘이해’가 아닌 ‘설득’?
12.3.2 왜 XAI의 설득에 선형회귀가 사용되는가?
12.3.3 XAI를 사용해 설득할 수 있는가?
이번 장을 정리하며
제13장 XAI의 전망
13.1 사용자에게 XAI란
13.1.1 XAI의 도달점
13.1.2 XAI는 사용자에게 도움이 되는가?
13.2 설득할 수 있는 설명을 위한 도전
13.2.1 설득력 부족에 대한 이유
13.2.2 지식 활용 방침
Column 지식 클럽과 LOD
13.3 XAI의 이상적인 모습
13.3.1 분야를 넘나드는 발전 방향 기대
13.3.2 XAI가 갖추어야 할 모습
부록 - 환경 구축 방법
A.1 파이썬 환경
A.2 Jupyter notebook 환경 구축
오오쓰보 나오키大坪直樹
2015년 NTT 데이터에 입사하여 헬스케어 분야 패키지 소프트웨어의 개발 업무를 거쳐서 2018년부터 AI 및 데이터 분석 기술 연구개발에 종사하고 있다. 헬스케어를 시작으로 사람의 판단에 중대한 책임을 지는 비즈니스 영역에 대해 업무의 고도화ㆍ효율화를 목표로 AI 개발에 매진하고 있다. ‘설명 가능한 AI’이 비즈니스와 기계 학습을 접목시키는 주요 기술이라고 생각하며, 고객ㆍ사용자 시선에서 사용하기 쉽고 이해하기 쉬운 것이 가장 중요하다고 생각한다.
나카에 도시히로中江俊博
2003년 NTT 데이터 수리 시스템에 입사하고 데이터 마이닝ㆍ기계학습 관련 조직에서 데이터 분석 수탁 안건을 다수 담당하는 한편 패키지 소프트웨어 판매ㆍ영업 등을 병행하며 수행했다. IoT 스타트업 기업으로 이직을 거쳐서 2019년부터 비즈리치(Visional 그룹)에 소속되어, 현재 Recommend 시스템 등 기계학습 관련 구축 등 코딩 관련 업무에 종사하고 있다.
후카사와 유타深沢祐太
2016년 NTT데이터 수리 시스템에 입사하여 제조업 대상 과학 계산, 데이터 분석의 연구 개발에 종사했다. 2018년부터 엣지 디바이스 대상 이미지 분석 연구 개발 분야에 몸을 담았다. LeapMind를 거쳐서 현재는 수리 모델의 개발 및 이미지 분석의 경험을 바탕으로 2021년부터 자동차 제조사에서 운전 주행 데이터 분석, 차량 탑재 카메라의 이미지 분석 연구 개발 분야에 종사하고 있다.
도요카 쇼豊岡 祥
2017년 NTT 데이터 수리 시스템에 입사하여 수리최적화ㆍ시뮬레이션ㆍ기계학습 등 폭넓은 기술을 활용해 실제 문제 해결에 힘쓰고 있다. 코로나 사태를 계기로 경기 프로그래밍을 시작하였고 ‘2020년 PG BATTLE’ 기업 부문 6위 입상 등 열심히 매진하고 있다. 취미는 합창으로, 국내 및 유럽 무대에서의 연주 경험이 있다. 2016 ~ 2018년 전일본 합창 연맹 유스콰이어 멤버이기도 하다.
사카모토 뎃페이坂元哲平
2018년 NTT 데이터에 입사하여 AI 기술의 사회적 도입을 위한 연구 개발에 종사하고 있다. 또한 공공 분야와 금융 분야 등 폭넓은 업계에서 AIㆍ데이터 분석 프로젝트에 참여하고 있다. 기술 및 업무를 이해하고 그 징검다리가 되는 날을 위해 열심히 매진 중이다.
사토 마코토佐藤 誠
2005년 NTT 데이터 수리 시스템에 입사하여 수리계획ㆍ최적화 개발 엔지니어로서 고객 컨설팅 활동 등을 병행하고 있다. 그 후 기계학습 등 기술 전반에 대해 고객의 과제 정리, 적용 지원 등을 중심으로 영업ㆍ컨설팅 팀의 리더로 활동하고 있다.
이가라시 겐타五十嵐健太
2010년 NTT 데이터 수리 시스템에 입사하여 기계학습ㆍ통계해석 등을 사용한 데이터 분석 수탁 안건을 다수 담당하고 자사 개발 분석 도구의 개발에 종사했다. 현재는 AIㆍ기계학습 등의 도입을 검토하는 고객의 과제 정리, 적용 지원 등을 수행하고 있다.
이치하라 다이키市原大暉
2017년 NTT 데이터에 입사하여 커뮤니케이션 로봇과 드론, IoT에 관한 연구개발에 종사해, 현재는 신뢰성 있는 AI 시스템을 구현하고 개발 공정을 체계화하고 품질 보증 방법을 구체화하는 것에 집중하고 있다. 자택의 스마트 홈을 추진하고 있으나 아파트의 오토락을 돌파하지 못해 고뇌하고 있으며, 취미로는 프로듀서 일을 병행하거나 말의 육성에도 힘쓰고 있다.
호리우치 신고堀内新吾
2013년 NTT데이터에 입사하여 빅데이터 분석과 이미지 인식에 관한 업무 및 연구에 종사했다. 2018년부터 실제 비즈니스에서의 AI 활용이라는 과제에 관심이 생겨 AI 시스템 개발을 위한 프로세스 및 품질 관리 검토 팀을 만들어 계몽활동을 진행하고 있다. 알고리즘 검토부터 기계학습 기술 활용 컨설팅과 데이터 활용까지 폭넓게 잘할 수 있기를 바라고 있다. 공동 저서로 『데이터 과학자의 기초 지식』(『データサイエンティストの基礎知識』, 2014년, 릭 텔레콤 간행)이 있다.
김대희
강남대학교 컴퓨터 공학과를 졸업 후 서비스 데스크 업무 및 시스템 운영 관리를 거쳐 일본계 회사인 (주)랏쿠에 입사했다. 일본 관공서 / 대기업 관련 프로젝트에 참여해 정보 보호 시스템 개발 및 유지보수를 수행했으며, 국내 정보 보안 컨설팅 프로젝트에도 참가했다. 현재는 SK쉴더스에서 고객사 정보 보안 시스템 구축/운영 업무 PM으로 업무 수행 중이며, 역서로는 ‘반응형 웹 디자인’, ‘IT 시스템 개발 철저공략’, ‘가장 쉬운 알고리즘 책’, ‘데이터베이스 철저공략’이 있다.
XAI를 실무 현장에 적용하여 풀어낸 기술적 해설서 출간!
이 책으로 당신의 AI를 한층 더 이해하고 업그레이드하라!
본격적으로 AI가 업무 환경에 투입되고 있습니다. 이에 따라 AI 차세대 기술인 XAI(eXplainable AI, AI가 도출한 결과에 인간이 이해할 수 있는 이유나 근거를 제시하여, 인간과 AI를 연결하는 기술)도 동시에 각광받고 있습니다. 하지만 현재 공개된 다양한 XAI 소스 코드들 중 대부분은 연구자를 대상으로 한 논문이고, 실무 현장의 실정에 입각한 기술적 해설서는 그리 많지 않습니다. 특히 AI 업무 시 ‘공평성’, ‘책임성’, ‘투명성’이라는 3가지 요구사항을 갖추어야 하며, 그중에서도 ‘AI의 책임성’은 엔지니어와 사업가 양쪽에서 중요한 과제임에도 불구하고 책임성에 대한 기본적인 인식을 포함한 모든 내용들이 체계적으로 정리되지 못한 상황입니다.
이 책에서는 실제로 AI에 어떠한 ‘설명’이 필요하고 XAI를 통해 무엇이 가능한지를 친절하게 설명합니다. XAI의 기본 이론 및 대표적인 XAI 기술을 소개하고, 소스 코드를 구현하면서 실무적인 XAI 지식도 습득할 수 있습니다. 또한 파이썬의 XAI 라이브러리인 LIME이나 SHAP 등의 사용 방법도 소개합니다. 이 책을 통해 당신의 AI를 한층 더 이해하고 발전시켜 보시기 바랍니다.
SNS 앱을 만들면서 배우는 안드로이드 클라이언트 개발 (0) | 2022.11.18 |
---|---|
데이터 드리븐 분석 비법 (2) | 2022.11.18 |
서버리스 이제는 AWS Lambda로 간다 (1) | 2022.11.10 |
댓글 영역