새로 나온 책

자연어 처리를 위한 허깅페이스 트랜스포머 하드 트레이닝

비제이퍼블릭 2025. 1. 13. 09:56

제목 자연어 처리를 위한 허깅페이스 트랜스포머 하드 트레이닝

부제 코드와 결과물로 이해하는 언어 모델과 트랜스포머

저자 박성환, 남승우

출판사 비제이퍼블릭

출간/배본가능일 20250113

정가 27,500

페이지 320

판형 188*245

ISBN 979-11-6592-315-0 (93000)

 

관련분류카테고리 분류

   

책 소개

자연어 처리의 기본부터

허깅페이스 모델 경량화, 정렬 조정, 강화 학습까지

 

GPT와 같은 대화형 인공지능 챗봇과 다수의 오픈소스 생성형 언어 모델은 대규모 언어 모델(LLM)에 해당합니다. 허깅페이스는 각종 생성형 인공지능을 위한 모델과 데이터셋을 개발자들이 자유롭게 공유하고 쉽게 활용할 수 있도록 API 및 도구를 제공하는데, 『자연어 처리를 위한 허깅페이스 트랜스포머 하드 트레이닝』에서는 다양한 생성형 인공지능 기술 중 자연어 처리를 위한 언어 모델에 집중합니다.

 

Transformers 라이브러리를 기준으로 토크나이저 및 모델 준비, 한국어 자연어 이해 평가(KLUE) 데이터셋 전처리, 학습 파라미터 선정 및 학습 진행과 성능 평가를 실습해봅니다. 이후 사전학습 단계부터 직접 진행해야 하는 경우를 대비하여 Tokenizers 라이브러리에 대해 살펴보고 정확도, f1 스코어, 정밀도, 재현율을 기준으로 모델을 평가하는 Evaluate 라이브러리에 대해서 알아봅니다. PEFT, 양자화, QLoRA 미세조정과 같이 모델의 메모리 사용량은 줄이고 추론 속도는 높이는 경량화 기법에 대해 코드와 결과물로 꼼꼼하게 확인해본 후 RLHF, SFT, PPO, Best-of-N 샘플링 등 정렬 조정에 해당하는 다양한 방법론과 이를 강화학습을 위한 트랜스포머(TRL)를 통해 활용하는 방식까지 차근차근 학습합니다.

 

목차

1 자연어 처리와 허깅페이스

_1.1 허깅페이스 소개

__1.1.1 Datasets

__1.1.2 Models

__1.1.3 Spaces

__1.1.4 Docs

_1.2 자연어 처리와 허깅페이스의 관계

 

2 환경 구축

_2.1 구글 코랩 환경 구축

__2.1.1 계정 생성

__2.1.2 새 노트북 만들기

__2.1.3 코드 실행

__2.1.4 파일 저장

__2.1.5 깃 코드 열기

_2.2 구글 드라이브 마운트

 

3 허깅페이스 주요 라이브러리

_3.1 Datasets 라이브러리

__3.1.1 Datasets 설치

__3.1.2 Datasets 실습

_3.2 Transformers 라이브러리

__3.2.1 Transformers 설치

__3.2.2 Tokenizer

__3.2.3 DataCollator

__3.2.4 Model

__3.2.5 AutoClass

__3.2.6 Trainer, TrainingArguments

__3.2.7 Pipeline

_3.3 미세조정

__3.3.1 토크나이저와 모델 준비

__3.3.2 데이터 준비 및 전처리

__3.3.3 학습 파라미터 선정

__3.3.4 학습 진행

__3.3.5 성능 평가

__3.3.6 모델 저장

_3.4 허깅페이스 허브 등록

__3.4.1 push_to_hub()

__3.4.2 CLI

__3.4.3 huggingface-hub

 

4 보조 라이브러리

_4.1 Tokenizers 라이브러리

__4.1.1 Tokenizer 학습

__4.1.2 모델 초기화 후 학습

_4.2 Evaluate 라이브러리

__4.2.1 Evaluate 평가

__4.2.2 커스텀 메트릭 만들기

__4.2.3 Trainer 적용

 

5 언어 모델 구조 및 학습

_5.1 트랜스포머 모델

_5.2 인코더 기반 모델

__5.2.1 기본 구조

__5.2.2 Sequence Classification

__5.2.3 Multiple Choice

__5.2.4 Token Classification

__5.2.5 Question Answering

_5.3 디코더 기반 모델

__5.3.1 기본 구조

__5.3.2 Causal LM

__5.3.3 Question Answering

__5.3.4 Sequence Classification

_5.4 인코더-디코더 기반 모델

__5.4.1 기본 구조

__5.4.2 Conditional Generation

__5.4.3 Sequence Classification

__5.4.4 Question Answering

 

6 모델 활용

_6.1 모델 미세조정

__6.1.1 인코더 - Sequence Classification

__6.1.2 디코더 - Causal LM

__6.1.3 인코더-디코더 - Conditional Generation

__6.1.4 언어 모델 문장 생성

_6.2 모델 서빙

 

7 모델 경량화

_7.1 모델 경량화 개요

_7.2 PEFT

_7.3 양자화

_7.4 QLoRA 미세조정

 

8 TRL

_8.1 TRL 라이브러리 개요

_8.2 RLHF

_8.3 보상 모델 트레이닝

_8.4 SFT

_8.5 PPO

_8.6 Best-of-N 샘플링

_8.7 DPO

_8.8 KTO

_8.9 CPO

_8.10 ORPO

  

저자 소개

박성환

 

통계학을 전공하였으며 DB 관리 및 솔루션 개발 3 9개월, 스타트업 자연어 처리(Natural Language Processing, NLP) 개발 2 8개월 경력을 쌓은 후 현재는 국내 식품 관련 기업 풀무원의 Data&AI 팀에서 대규모 언어 모델(Large Language Model, LLM)을 활용한 HR 어시스턴트, AICC 콜봇 개발을 하고 있습니다.

최근에는 자연어 처리 관련 모델과 LLM에 관해 주로 공부 중이며 항상 아는 지식을 공유하고 모르는 지식은 배우려는 자세로 임하고 있습니다.

 

) 풀무원 Data&AI NLP 개발

) AI 관련 스타트업 NLP 개발

) 퓨쳐누리 DB 관리 및 솔루션 개발

 

-      이메일 hipster4020@gmail.com

-      깃허브 github.com/hipster4020

-      블로그 hipster4020.tistory.com

-      링크드인 linkedin.com/in/sunghwanpark4020

 

 

남승우

 

소프트웨어마이스터고등학교 소프트웨어개발과를 졸업했습니다. 2020년도에 디스코드 챗봇 개발 팀 ‘팀 크레센도’에서 활동하며 여러 챗봇 개발에 기여했고, 졸업 직후 취업해 5년 차 NLP 엔지니어로 재직 중이며 한국방송통신대학교 통계ㆍ데이터과학과 이수를 병행하고 있습니다.

현재는 sLM 사전학습, 프롬프트 엔지니어링 등의 자연어 처리 기술과 더불어 음성 인식 및 음성 합성에도 많은 관심을 가지고 공부하고 있습니다.

 

) AI 관련 스타트업 NLP 개발

) 디스코드 챗봇 개발팀 ‘팀 크레센도’ 활동

 

-      이메일 nsw0311@gmail.com

-      깃허브 github.com/Nam-SW

 

보러 가기

- 예스24: yes24.com/Product/Goods/140977612

- 알라딘: aladin.co.kr/shop/wproduct.aspx?ItemId=354932239&start=slayer

- 교보문고: product.kyobobook.co.kr/detail/S000215102182