부제 파이토치를 활용한 딥러닝과 비전 생성 모델
저자 최재웅
출판사 비제이퍼블릭
출간/배본가능일 2024년 08월 30일
정가 33,000원
페이지 368쪽
판형 188*245
ISBN 979-11-6592-297-9 (93000)
수식으로 이해하고, 코드로 습득하고, 결과물로 알아보는
파이토치를 활용한 딥러닝과 비전 생성 모델
이제는 누구나 쉽게 접할 수 있는 각종 생성형 AI 서비스는 컴퓨터 비전, 그중에서도 비전 생성 모델의 기술적 산물입니다. 인공지능과 관련된 전문가로 성장하기 위해서는 단순히 완성형으로 개발된 서비스를 이용해보기에 앞서 동작의 원리를 깨쳐야 합니다. 이에 『생성형 AI를 위한 컴퓨터 비전』은 미드저니, 빙 이미지 크리에이터, 스테이블 디퓨전, 스노우 앱 등의 서비스를 개발할 때 사용되는 이미지 및 영상 생성 관련 컴퓨터 비전 기술의 근간을 설명합니다.
비전 생성 모델과 관련된 각종 모델에 대해 수학 공식을 통해 수리적인 배경을 이해하고 소스코드를 한 줄씩 따라가며 동작 기술을 습득할 수 있습니다. 또한 텍스트 입력을 처리하는 트랜스포머, 이미지와 텍스트 프롬프트의 정보를 연결하는 CLIP 모델, 파이프라인 및 응용 기법 등을 지원하는 허깅페이스의 Diffuser 라이브러리와 함께 멀티 모달 비전 생성 모델의 결과 도출 방식을 알 수 있습니다. 이제는 생성형 AI 제품 및 서비스를 경험해보는 것을 넘어 책에서 제시하는 전망과 미래 잠재력에 동참해보도록 합시다.
1장 비전 생성 모델
_1.1 비전 생성 모델이란?
__1.1.1 영상 생성 모델
__1.1.2 영상 변환 모델
__1.1.3 스타일 변환 모델
__1.1.4 영상 품질 개선 모델
_1.2 비전 생성 모델의 활용 분야
__1.2.1 예술 및 디자인
__1.2.2 엔터테인먼트
__1.2.3 의료 및 산업 분야
__1.2.4 게임 개발
_1.3 비전 생성 모델 이해를 위한 배경지식
__1.3.1 평균과 분산
__1.3.2 정규 분포
__1.3.3 최대 가능도 추정
__1.3.4 쿨백-라이블러 발산
__1.3.5 MAE 손실 함수와 MSE 손실 함수
_1.4 구현 및 실습을 위한 도구
__1.4.1 CUDA와 CuDNN 설치
__1.4.2 아나콘다 설치
__1.4.3 파이토치란?
2장 비전 생성 모델링 방식 및 특징
_2.1 오토 인코더
__2.1.1 소개 및 이론
__2.1.2 구현 및 실습
__2.1.3 정리
_2.2 변이형 오토 인코더
__2.2.1 소개 및 이론
__2.2.2 구현 및 실습
__2.2.3 정리
_2.3 생성적 적대 신경망
__2.3.1 소개
__2.3.2 GAN
__2.3.3 WGAN
__2.3.4 cGAN
__2.3.5 DCGAN
__2.3.6 구현 및 실습
__2.3.7 정리
_2.4 확산 모델
__2.4.1 소개 및 이론
__2.4.2 구현 및 실습
__2.4.3 정리
3장 생성적 적대 신경망 기반 응용 모델
_3.1 영상 생성 모델
__3.1.1 PGGAN
__3.1.2 StyleGAN
__3.1.3 정리
_3.2 영상 변환 모델
__3.2.1 pix2pix
__3.2.2 CycleGAN
__3.2.3 정리
_3.3 스타일 변환 모델
__3.3.1 AdaIN
__3.3.2 StarGAN
__3.3.3 정리
_3.4 영상 품질 개선 모델
__3.4.1 초해상도: SRGAN
__3.4.2 디블러링: DeblurGAN
__3.4.3 정리
4장 확산 모델 기반 응용 모델
_4.1 트랜스포머
_4.2 CLIP
_4.3 Diffusers 라이브러리란?
_4.4 멀티 모달 비전 생성 모델
__4.4.1 미드저니
__4.4.2 빙 이미지 크리에이터
__4.4.3 스테이블 디퓨전
__4.4.4 정리
_4.5 응용 및 확장 기법
__4.5.1 드림부스
__4.5.2 컨트롤넷
__4.5.3 정리
5장 최신 연구 및 서비스 동향
_5.1 관련 서비스 및 응용 분야 소식
_5.2 비전 생성 모델의 전망과 미래
최재웅
대학교에서 전자공학을 전공하던 중 인공지능에 흥미가 생겨 대학원 진학을 결심하였습니다. 그리고 인하대학교의 컴퓨터 비전 및 이미지 프로세싱(Computer Vision and Image Processing, CVIP) 연구실에서 가장 흥미롭게 생각한 비전 분야의 생성 모델을 연구해 석사 학위를 취득하였습니다.
NHN에서는 스타일 변환 모델에 대한 서비스 개발을 진행했고 생성 모델 관련 특허를 여러 개 출원하였으며, 현재는 LG CNS에서 생성 모델 관련 연구 및 개발 업무를 수행하고 있습니다. 이 밖에, 공부한 것을 나누기를 좋아하여 멘사코리아의 개발자 모임에서 스터디를 주관하기도 하며 좋은 영향력을 펼칠 길을 찾아나가고 있습니다.
現) LG CNS – 멀티 모달 AI 팀
前) NHN – AI 선행연구팀
- 이메일 chlwodnd500@naver.com
- 깃허브 github.com/jaewoong1
- 인스타그램 instagram.com/chlwodnd500
저술 사항
- 논문 「Style-Guided and Disentangled Representation for Robust Image-to-ImageTranslation」, (AAAI, 2022), 9.
- 저널 「Synthesized rain images for deraining algorithms」, (NeuroComputing, 2022), sciencedirect.com/science/article/pii/S0925231222004040
- 논문 「EPrOD: Evolved Probabilistic Object Detector with Diverse Samples」, (ECCV, 2020), 10.
책 보러 가기
금융보안 프로세스 A to Z (7) | 2024.09.02 |
---|---|
캐릭터 일러스트 A to Z with 프로크리에이트 (0) | 2024.08.20 |
포토샵 & AI 완벽 시너지 (1) | 2024.07.19 |
댓글 영역