AI Application & Practice (인공지능 응용 및 실습, Fall Semester, 2022 – CSE544)
“Student-professor relationships are based on trust. Acts,
which violate this trust, undermine the educational process.
Your classmates and the professor will not tolerate violations
of academic integrity.”
1. Course Schedule & Lecture Notes
실습 내용 Github 리포지토리:
RAY+RLLIB 실습 내용 Github 리포지토리:
온라인 강의 (E-Learning) 콘텐츠 강의 자료 원본 - 1 (01. 강화 학습의 기본 ~ 10. 정책 반복과 가치 반복 알고리즘 구현 및 실험 [실습]): Click
온라인 강의 (E-Learning) 콘텐츠 강의 자료 원본 - 2 (01. 몬테카를로 예측의 기본 ~ 12. Tic-Tac-Toe 강화 학습 게임 에이전트 개발 및 훈련 [실습]): Click
RAY+RLLIB 실습 내용 Github 리포지토리:
온라인 강의 (E-Learning) 콘텐츠 강의 자료 원본 - 1 (01. 강화 학습의 기본 ~ 10. 정책 반복과 가치 반복 알고리즘 구현 및 실험 [실습]): Click
온라인 강의 (E-Learning) 콘텐츠 강의 자료 원본 - 2 (01. 몬테카를로 예측의 기본 ~ 12. Tic-Tac-Toe 강화 학습 게임 에이전트 개발 및 훈련 [실습]): Click
# | Date | 오프라인(강의실) 강의 (화요일) | 온라인 강의 (E-Learning) (전주 목요일) | 참고자료/공지사항 |
---|---|---|---|---|
01 | 08월 30일(화)/9월 01일(목) |
- 수업 소개 - 인공지능이 주도하는 흥미로운 패러다임 전환: Paradigm Shift |
- 강화학습 실습 환경 구축
01. 강화 학습의 기본 02. 강화 학습의 절차 및 분류 |
|
02 | 09월 06일(화)/08일(목) | - 강화 학습 기본 다지기 (Part 1) |
03. 강화 학습 실습 환경 소개 [실습]
04. 마르코프 결정 과정, 보상 이득 |
|
03 | 09월 13일(화)/15일(목) | - 강화 학습 기본 다지기 (Part 2) | 05. 정책과 가치 함수 | |
04 | 09월 20일(화)/22일(목) | - 강화 학습 기본 다지기 (Part 3) | 06. 최적 정책과 최적 가치 함수 | |
05 | 09월 27일(화)/29일(목) | - 강화 학습 기본 다지기 (Part 4) |
07. 최적 가치 및 최적 정책 산출 실험 [실습]
08. 동적 프로그래밍 기반 정책 평가 및 정책 개선 |
Homework #1
Due Date: 2022년 10월 10일(월요일), 23시 59분 |
06 | 10월 04일(화)/06일(목) | - DQN의 이해 - I | 09. 동적 프로그래밍 기반 정책 반복 및 가치 반복 | |
07 | 10월 11일(화)/13일(목) | - DQN의 이해 - II [실습] | 10. 정책 반복과 가치 반복 알고리즘 구현 및 실험 [실습] | |
08 | 10월 18일(화)/20일(목) | - DQN 모델 로드 및 플레이 |
01. 몬테카를로 예측의 기본 02. 몬테카를로 제어의 기본 |
|
10 | 10월 25일(화)/27일(목) | - DQN을 활용한 GYM ATARI/PONG 훈련 전처리 |
03. 몬테카를로 학습 에이전트 개발 [실습]
04. 시간차 예측 및 측정 |
Homework #2
Due Date: 2022년 11월 12일 (토요일), 23시 59분 |
11 | 11월 01일(화)/03일(목) | - DQN을 활용한 GYM ATARI/PONG 훈련 |
05. 시간차 예측을 통한 가치 추정 [실습]
06. SARSA와 Q-Learning |
11월 3일 (목), 16시 ~ 17시 50분 - 오프라인 중간 고사 ([시험 범위] 온라인 강의: 11월 1일까지 학습한 오프라인/온라인 수업 강의 내용) |
12 | 11월 08일(화)/10일(목) |
- Policy Gradient 및 Actor-Critic의 이해 - I
- RAY+RLLIB |
07. 시간차 학습 에이전트 개발 [실습] | |
13 | 11월 15일(화)/17일(목) | - Policy Gradient 및 Actor-Critic의 이해 - II | 08. 모델 기반 학습 | |
14 | 11월 22일(화)/24일(목) | - Policy Gradient 및 Actor-Critic의 실습 |
09. 모델 기반 학습 에이전트 개발 [실습]
10. 다양한 강화 학습 기법 |
Homework #3
Due Date: 2022년 12월 11일 (일요일), 23시 59분 |
15 | 11월 29일(화)/12월 01일(목) | - Tic-Tac-Toe 강화 학습 부연 설명 | 11. Tic-Tac-Toe 강화 학습 환경 구축 [실습] | |
16 | 12월 06일(화)/08일(목) | - Tic-Tac-Toe 강화 학습 부연 설명 (종강) | 12. Tic-Tac-Toe 강화 학습 게임 에이전트 개발 및 훈련 [실습] |
2. Course Information
- Lecturer: 한연희 교수 (Rm. 2공학관 423호, Email: yhhan@koreatech.ac.kr)
- Classes: 화요일 (8, 9교시, 16:00-18:00), 목요일 (8, 9 교시, 16:00-18:00)
- Lecture Room: 2공학관 409호
- 수업조교(TA): 석영준 석사과정 (Email: dsb04163@koreatech.ac.kr)
- Course Board(숙제 제출 사이트): http://el2.koreatech.ac.kr
- Prerequisites: 스크립트프로그래밍, 알고리즘및실습, 인공지능기초및실습, 기계학습및실습
3. E-Learning Courses
4. References
- 주교재: 홈페이지에서 제공
- 부교재: Reinforcement Learning: An Introduction
R. Sutton, and A. Barto.
The MIT Press, Second edition, (2018)
</ul>
</div>
</div>
5. Logistics
- Attendance – one class absence will result in the deduction of two points out of 100 points. Five absences will not result in ten points deduction, but “failure” (i.e., grade ‘F’) in this course.
- Exam – there will be midterm exam and final exam for the evaluation of the knowledge learned from the class.
- Homework – much intensive homework will be set. Any cheating (or copying) will result in grade ‘F’.
5. Evaluation
- Attendance (10%), Quiz (10%), Homework (20%), Midterm exam (40%), Final term project (20%)