상세 컨텐츠

본문 제목

파이썬으로 배우는 음성인식

새로 나온 책

by 비제이퍼블릭 2023. 1. 6. 09:57

본문

 

 

 

제목 파이썬으로 배우는 음성인식

부제 음성인식의 기술 발전 동향부터 파이토치를 활용한 딥러닝 실습까지

저자 다카시마 료이치

역자 정권우

출판사 비제이퍼블릭

출간/배본가능일 202319

정가 27,000

페이지 336

판형 188*245

ISBN 979-11-6592-182-8 (93000)

 

 

책 소개

음성인식의 기초부터 파이토치를 활용한 딥러닝 실습까지,

파이썬으로 배우는 음성인식 도서 출간!

 

음성인식이란 음성 신호로부터 발화 내용을 인식하는 기술, 즉 컴퓨터가 사람의 음성을 신호로 인식하여 처리하는 기술이다. AI 스피커와 스마트폰 음성 어시스턴트 등 음성인식 기술들은 이미 우리의 일상생활 속으로 깊이 스며들어 있다. 음성 번역 시스템의 전처리 단계, 회의록 자동 작성 시스템 등 다양한 곳에서 음성인식 기술이 사용된다. 특히나 음성인식 기술은 손을 사용하지 않고(Hands-free) 기계를 작동시킬 수 있어, 차량 내비게이션과의 연동 혹은 신체장애인의 입력 장치 등 다양한 방면에서 성장이 기대되는 기술이다.

 

이 책은 지금까지의 음성인식 기술의 역사와 기술 발전 동향을 이해하고, 파이썬과 파이토치를 통해 최신 음성인식 시스템을 실습한다. 음성인식의 목적이나 알고리즘의 개요를 설명하고, 소스 코드를 상세하게 분석하고, 마지막으로 소스 코드를 첨부하여 독자들이 직접 구현할 수 있도록 한다. 특히 인공지능기술이 만들어진 목적이나, 해당 기술로 목적을 달성할 수 있을지에 대해 명확히 제시한다. 이 책은 음성인식을 제대로 구현하고자 하는 개발자 및 학부생에게 꼭 필요한 필독서가 될 것이다.

 

소스 코드 다운로드 https://github.com/bjpublic/python_speech_recognition

 

 

목차

 

1 장 음성인식이란?

1절 음성인식은 무엇이며, 어디에 사용되는가?

2절 음성을 인식한다는 것은? - 음성인식 원리-

3절 이 책의 목적과 구성

 

2 장 음성인식 기초 지식

1절 음성인식과 확률

2절 음성인식 문제를 수식으로 정의하기

3절 텍스트 종류와 발음 사전 - 음소ㆍ히라가나ㆍ문자ㆍ단어

4절 음성인식 실험 두 가지

5절 음성인식 실험 프로세스

 

3 장 음성 처리 기초와 특징 추출

1절 데이터 준비하기

2절 음성 파일 읽어보기

3절 푸리에 변환으로 음성을 주파수 분해하기

4절 음성을 단시간 푸리에 변환하여 스펙트럼 생성하기

5절 로그 Mel Filter Bank 특징

6 Mel 주파수 켑스트럼 특징

7절 특징의 평균과 표준편차 계산해보기

 

4 장 음성인식 첫걸음 DP Matching

1절 음성인식에서 떼어놓을 수 없는 정렬(얼라인먼트) 문제

2 DP Matching

3 DP Matching 구현해보기

 

5 GMM – HMM 기반 음성인식

1절 템플릿이 아닌, 분포와 빈도 관점

2절 정규분포와 최빈 추정법을 활용한 매개변수 추정

3절 혼합 정규분포(GMM) EM 알고리즘

4절 은닉 마코프 모델(HMM)

5 GMM - HMM 구현하기

 

6 DNN-HMM 기반 음성인식

1분포에서 ‘Deep Neural Network’

2 Deep Neural Network

3 DNN HMM을 조합한 DNN - HMM 하이브리드 시스템

4 DNN - HMM을 파이썬과 파이토치로 구현해보기

5 HMM 기반 대어휘 연속 음성인식

 

7 End–to–End 모델 기반 연속 음성인식

1절 하이브리드 시스템에서 Full Neural Network Model

2절 순환 신경망(Recurrent Neural Network)

3 Connectionist temporal classification(CTC)

4 CTC를 파이썬과 파이토치로 구현해보기

5 Attention encoder-decoder 모델

6 Attention 모델을 파이썬과 파이토치로 구현해보기

7절 기타 기법과 음성인식 모델

8절 참고 문헌

 

 

저자 소개

 

다카시마 료이치 高島遼一

2013년 고베 대학 대학원 시스템 정보학 연구과 박사 후기 과정 수료(공학박사)

 

2011 4~2013 3월 일본 학술 진흥회 특별 연구원 [DC2]. 2013 4월에 ㈜히타치 제작소 연

구개발 그룹에 입사하여 장비 이상 검사와 음성인식을 위한 잡음 제거 등, 음성 및 음향 신호 처

리에 관한 연구 개발에 종사했다. 2016 10월부터 2018 9월까지 국립 연구 개발 법인 정보 통

신 연구 기구에 전출하여 음성인식에 관한 연구 개발에 종사했다. 2019 4월부터 고베 대학 도

시안전 연구 센터 겸 동 대학원 시스템 정보학 연구과 준교수로 부임했고, 현재는 음성인식 기반

의 음성 처리, 기계 학습 기술과 복지 분야 응용 관련 연구에 종사하고 있다.

 

역자 소개

 

정권우

카네기멜론 대학교 응용수학과 학부를 졸업했다. 5살부터 유초중고 시절을 일본 도쿄에서 보내

, 대학교를 미국으로 진학한 덕분에 한국어, 일본어, 영어에 능통하다.

 

대학 시절에는 금융 수학을 전공하여, UBS Seoul, JP Morgan Tokyo 지사에서 사회생활을 시작

했다. 대학교 2학년 때 처음으로 프로그래밍을 접하면서 관심을 갖게 되어, 휴학 후 한국에서의

병역특례 군복무 시절 머신러닝을 독학하고, 캐글 경진대회에 출전한 이력이 있다.

모바일 콘텐츠 플랫폼 카카오페이지를 운영하는 다음카카오의 자회사 포도트리를 거쳐 P2P

자 기업 8퍼센트의 챗봇을 개발한 데이터나다에서 머신러닝 엔지니어로 근무한 경력이 있으며,

현재는 네이버 파파고 팀에서 딥러닝을 통해 더 나은 번역기를 개발하고 있다.

텍스트 번역으로 시작한 기계번역은 어느덧 사진을 번역해주는 이미지 번역으로 발전한 것처

, 앞으로 궁극적으로는 음성을 바로 번역하는 것으로 발전할 것이라 생각한다.

음성인식을 공부하는 과정에서 이 책을 만나고, 직접 번역하게 된 것을 영광으로 생각한다.

 

 

출판사 리뷰

 

음성인식 머신러닝 모델을 파이썬으로 구현 및 실습하기 위한

'음성인식 기초 이론 및 단계별 실습서'

 

음성인식 기술은 나날이 발전해가고 있습니다. 중요한 회의나 강의 내용을 필사해야 할 경우 과거에는 녹음기를 사용했지만 최근에는 음성인식 노트 앱을 사용합니다. 또한 핸드폰에 깔려있는 애플 시리, 구글 어시스턴트, 삼성 빅스비 혹은 집에 하나씩 가지고 있는 스마트 스피커, 차량에서 사용하는 내비게이션 앱에서 지원하는 음성인식 등, 음성인식은 이미 우리의 일상에 스며들었습니다. 음성인식은 최근 들어 딥러닝 모델링을 기반으로 급격한 기술적 도약을 경험하며 인식 품질이 개선되었지만, 여전히 완벽한 음성인식에 도달하기 위해서는 더 많은 데이터와 모델이 필요합니다. 잡음이 섞인 음성, 복수의 사람이 동시에 이야기를 할 때의 음성인식 등 현실적으로 풀어야 할 문제들이 많습니다.

 

이 책은 과거부터 현재까지의 음성인식 기술 발전의 변천사를 다루고 있습니다. 과거의 음성인식 기법이 현재의 음성인식 기술에 미친 영향에 대해 마치 이야기를 들려주듯이 설명하고 있습니다. 또한 음성인식 기술에 많이 사용되는 확률과 신호 처리 이론을 포함한 음성인식의 각 기법에 대한 이론적 지식과 실습 코드를 제공하며, 딥러닝을 이용한 최신 음성인식 시스템을 파이썬과 파이토치를 활용하여 직접 개발해 볼 수 있도록 돕습니다.

 

이 책의 저자는 처음 음성인식을 접하는 독자분들에게 음성인식 기술의 이해를 넘어서 음성인식 기술의 전체적인 흐름과 특징을 이해할 수 있게끔 집필하였습니다. 향후 음성인식 기술이 어떻게 더 발전해 나갈지 관심 있으신 분과 현업에 빠르게 음성인식기술을 적용해 보고 싶으신 분, 음성 처리 및 기계 학습 전반에 관심이 있는 분, 그리고 앞으로 진지하게 음성인식 기술에 대해서 배우고 싶은 분들에게 이 책을 추천합니다.

 

 

관련글 더보기

댓글 영역