상세 컨텐츠

본문 제목

이보다 더 쉬울 수 없는 자바 머신러닝 with Weka

새로 나온 책

by 비제이퍼블릭 2021. 1. 22. 18:25

본문

 

이보다 더 쉬울 수 없는 자바 머신러닝 with Weka

부제 코딩의 압박에서 벗어나는 새로운 머신러닝 예제 학습 

저자 자바라머신러닝 

 

출간/배본가능일 2021 01 29 

정가 31,000 

페이지 616 

판형 크라운판 (173 * 230)

ISBN 979-11-6592-043-2 (93000)

 

책 소개 

웹을 넘어 모바일로 전환될 때 Java가 큰 역할을 했듯이, 
데이터 분석에도 Java는 큰 역할을 할 것으로 예상됩니다

 

더 이상 머신러닝을 무시하거나 무서워할 필요가 없습니다. 이제는 머신러닝을 어디에 적용할지를 고민해야 할 때입니다. 머신러닝 분야는 현재 파이썬이나 R이 상대적으로 강세이지만, 향후 iOS와 같이 파이썬, R과 Java가 양립하면서 확대될 것으로 예상됩니다. 

이 책의 최종 목적은 도메인 전문가와 IT 종사자 간에 협업 체계를 구축하는 것입니다. 설계와 코딩 모두 구현할 수 있도록 UI와 API를 제공하는 Weka를 통해 실무에 적용해도 전혀 손색이 없는 예제를 제공합니다.

 


이 책의 특징
- 머신러닝을 아는 도메인 전문가와 코딩을 아는 자바 개발자 간 협업 체계 구축
- 코딩 없는 머신러닝이 가능한 Weka 학습
- Weka Explorer, Experimenter, Knowledge Flow 사용을 통한 상호 유기적인 연계

 

이 책이 필요한 독자 
- 코딩을 모르는 도메인 전문가 및 머신러닝 기획자
- Java 실무 1년 이상 개발자
- Weka Experimenter, Knowledge Flow 사용법 습득을 원하는 분

 

 

독자대상
초중급

소스코드 다운로드

https://github.com/bjpublic/weka

 

 

저자 소개 

자바라머신러닝
19년 동안 정보화 기획, 구축, 진단 업무를 수행하였고 스몰 데이터 분석을 실무에 적용하고 있습니다. 12년간 IT 시스템 구축과 운영을 담당하였고 5년간 정보화 전략, 예산, 조직을 담당하는 기획 업무를 거쳐 2년간 데이터 분석으로 실제 사회의 문제점을 찾아내고 개선하는 진단 업무를 수행했습니다. 
데이터 분석 준전문가(ADsP) 자격증을 취득하면서 데이터 분석에 대한 이론을 좀 더 이해하게 되었지만, 현실 세계의 데이터 분석 분야는 코딩이라는 과대 포장된 진입장벽을 만들었다는 것을 알게 되었습니다. 이제는 거품을 걷어내고 데이터 분석의 저변화와 자바 머신러닝의 대중화를 같이할 동료들을 만나는 것이 저의 목표입니다. 더 나아가 포스트 정보화 시대를 대비하고 영위하는 미래의 모습을 그려봅니다. 

 

목차

Chapter 01 Why: Weka를 사용하는 이유
1.1 왜 데이터 분석인가? 임계의 가시화
1.2 왜 자바 머신러닝인가? Web → 모바일 → 분석(?)
1.3 왜 Weka인가? 무료/쉽고/신속 적용 가능
1.3.1 장점: 무료/쉽고/신속 적용 가능
1.3.2 단점: 메모리 문제, 무료 s/w 한계, 한글 인코딩
1.4 먼저 알아야 할 2개 지표(정분류율, 상관계수)

Chapter 02 What: 설치 프로그램
2.1 jre/jdk(Open JDK)
2.2 Weka 3.8.3 또는 Weka 3.9.3
2.3 Eclipse
2.4 다운로드 자료 강의 활용

Chapter 03 What: Weka 3.9.3
3.1 Weka
3.1.1 DIKW 관점 활용(why)
3.1.2 Weka 소개(what)
3.1.3 본서 구성(how)
3.1.4 학습 기대 효과(IF)
3.2 학습 방법 예시
3.2.1 실습: LinearRegression 알고리즘, regression_outliers.csv/arff 데이터셋
3.2.2 KnowledgeFlow 설계
3.2.3 Explorer 실습
3.2.4 Java 프로그래밍: W5_L1_OutlierWithCSV.java 


Chapter 04 How: Weka 사용(전반)
4.1 인트로: arff 포맷, 필터링, 알고리즘, 시각화
4.1.1 소개
4.1.2 KnowledgeFlow
4.1.3 Explorer 사용
4.1.4 Datasets 살펴보기
4.1.5 분류 알고리즘 학습하기
4.1.6 필터 사용하기
4.1.7 Dataset을 시각화로 확인하기
4.2 모델평가
4.2.1 모델평가를 먼저 설명하는 이유
4.2.2 분할검증(Holdout): 훈련 데이터와 테스트 데이터를 처음부터 나눠서 검증한다
4.2.3 RandomSeed: 무작위로 데이터를 훈련과 테스트 데이터로 나눠 검증한다
4.2.4 가장 성능이 낮은 ZeroR 알고리즘보다 정분류율이 높은지 비교한다
4.2.5 n Cross-Validation: 훈련 및 테스트 데이터를 균등 분할하여 교차검증한다
4.3 결측값(pitfall)과 이상값(pratfall) 처리 

4.4 초등 분류 알고리즘
4.4.1 OneR: 모든 목표변수는 단 한 개 속성으로 결정된다
4.4.2 NaiveBayes - 모든 속성을 중시함
4.4.3 J48: 대중적인 의사결정나무 But 과적합은 운명
4.4.4 IBk: k 군집 거리 측정 알고리즘, 적정 군집수 선별이 목적이다
4.5 중등 분류 학습 알고리즘
4.5.1 Boundary Visualizer: 2개 속성의 의사 결정 경계를 시각화한다
4.5.2 M5P: 선형회귀분석과 의사결정나무 분석을 동시에 학습한다
4.5.3 회귀 분류 1: 모든 숫자 속성을 선으로 분석한다(목표변수가 2가지의 경우)
4.5.4 회귀 분류 2: 모든 숫자 속성을 선으로 분석한다(목표변수가 3가지 이상의 경우)
4.5.5 로지스틱 회귀분석: 모 아니며 도의 구분을 알아낸다
4.5.6 서포트 벡터머신: SVM, 데이터 군집을 얼마나 떨어뜨릴 것인가?
4.5.7 앙상블 학습: 과적합을 피하기 위해 여러 알고리즘 결과를 투표로 선별한다

Chapter 05 IF: 전반부 정리
5.1 후반부에서 배울 것들

Chapter 06 What: 후반부 시작
6.1 전반부 복습
6.2 Experimenter(원시적인 AI)
6.2.1 기본 개념
6.2.2 통계적 유의미성 개념
6.2.3 분류 알고리즘 비교: 비교 자동화 = 원시적 A
6.2.4 Command Line Interface 및 JavaDoc
6.3 Weka 빅데이터(Big Data)

Chapter 07 How: Weka 사용(후반)
7.1 ROC(성능 판별 추가 지표)
7.2 텍스트마이닝
7.2.1 StringToWordVector
7.2.2 FilteredClassifier
7.2.3 MultiFilter
7.2.4 NaiveBayesMultinomial
7.3 이산화
7.3.1 비지도 이산화
7.3.2 지도 이산화
7.4 비지도 학습 연관/군집분석
7.4.1 지도 학습 vs. 비지도 학습
7.4.2 의사결정나무 비교
7.4.3 연관분석 기초
7.4.4 연관분석 응용
7.4.5 군집분석 개념
7.4.6 군집분석 평가
7.5 속성 선택과 결과 집중(개입)
7.5.1 중요 속성 기여도 선별(기초)
7.5.2 중요 속성 기여도 선별(응용)
7.5.3 라벨 결과 가중치 개입
7.6 인공신경망(딥러닝)
7.6.1 WekaDeeplearning4j(why)
7.6.2 Weka 패키지(what)
7.6.3 WekaDeeplearning4j 실습(how)
7.6.4 WekaDeeplearning4j 결론(if)
7.7 추가적인 성능 향상 기법
7.7.1 학습곡선
7.7.2 성능 최적화
7.7.3 arff 파일 추가 소개
7.7.4 학습 알고리즘(모델) 재사용

Chapter 08 IF: 후반부 정리

 

 

출판사 리뷰

인터넷과 모바일 혁명이 도래하면서 수많은 IT 시스템들이 탄생했고 상당한 IT 시스템들이 Java로 구축되었습니다. R과 파이썬으로 구축된 데이터 분석 모듈이 Java에서 돌아가기 위해서는 이기종 간의 데이터 연동이 필요하고 구축 비용이나 투입되는 인력도 더 많이 소요될 것입니다. 그렇다고 java로 구축된 IT 시스템을 버리고 파이썬으로 고치는 것은 천문학적인 비용이 들어갈 수 있습니다.

Weka는 다양한 UI를 제공하고 코딩을 몰라도 기본적인 머신러닝이 가능하며, 설계 후에 머신러닝을 배포하고 시스템에 체계화하기 위한 Java 코딩까지 가능하도록 해줍니다. 앞으로 데이터 분석에서 코딩이란 보이지 않는 장벽 때문에 개발자들이 과도한 작업 시간을 강요받지 않도록, 이 책이 Java로 순조롭게 데이터 분석 기술을 전달할 수 있는 환경을 만들기를 기대합니다.

 

관련글 더보기

댓글 영역