Advanced Deep Reinforcement Learning (고급심층강화학습 [240222], Spring Semester, 2025)


“Student-professor relationships are based on trust. Acts, which violate this trust, undermine the educational process. Your classmates and the professor will not tolerate violations of academic integrity.”


1. Course Schedule & Lecture Notes


[공지사항 - 2025.03.04]

본 수업을 수강하는 학생들에게 공지합니다. 본 수업은 심층강화학습(Deep Reinforcement Learning)에 대한 공부를 어느 정도 수행한 학생들을 대상으로 하는 수업입니다.
특히 본 수업은 최신 강화학습 연구 주제인 오프라인 강화학습(Offline Reinforcement Learning)에 대하여 함께 공부할 예정입니다.
모든 학생들은
   1) 본 수업에서 제시하는 오프라인 강화학습과 관련된 유명 논문들을 직접읽고 발표를 해야 하며,
   2) 수업에서 소개하는 오프라인 심층강화학습 코드를 이해하고 이를 기반으로 숙제와 텀프로젝트를 리포트와 함께 제출해야 하며,
   3) 기말고사를 통하여 본 수업에서 다룬 오프라인 강화학습 알고리즘 전반에 걸친 이해도를 평가받게 됩니다.
본 수업을 수강하기 위하여 꼭 필요한 선수 지식
   1) 학부과정에서의 자료구조 및 알고리즘 교과목 이수
   2) 파이썬을 활용한 가상 환경 구축 및 다양한 패키지/모 활용 경험
   3) 파이썬을 활용한 Tensorflow 또는 Pytorch 기반으로 딥러닝 관련 코딩 수행 경험
   4) 심층강화학습에 대한 기초 지식
학점은 A+/A, B+/B, C+/C, F 이렇게 총 4개의 그룹으로 나누어 부여할 예정이며, F로 평가될 학생이 없다면 A+/A, B+/B, C+/C 그룹에 대한 학점 분포는 40%, 40%, 20%로 나누어 부여할 예정이지만 강의가 종료된 이후 전반적인 학업성취도를 가늠하여 변경될 수 있습니다.
본 수업에서 참고하는 Github Repositories
   1) Data-Driven Deep Reinforcement Learning Library for Python (d3rlpy)
   2) Clean Offline Reinforcement Learning (CORL)
# Date Book Presentation Paper Presentation Notice
01 03월 03일(월) - 강의 소개
02 03월 10일(월) - Deep Q Network (DQN)
- Double DQN (DDQN)
03 03월 17일(월) - Deep Deterministic Policy Gradient (DDPG)
- Twin Delayed Deep Deterministic Policy Gradient (TD3)
04 03월 24일(월) - Soft Actor-Critic (SAC)
05 03월 31일(월) - Behavioral Cloning (BC) Offline only
- Implicit Behavioral Cloning (IBC) Offline only
- 논문 발표 01: Behavioral Cloning from Observation
- 논문 발표 02: Implicit Behavioral Cloning
06 04월 07일(월) - Batch Constrained Q-learning (BCQ)
- Bootstrapping Error Accumulation Reduction (BEAR)
- 논문 발표 03: Off-Policy Deep Reinforcement Learning without Exploration
- 논문 발표 04: Stabilizing Off-Policy Q-Learning via Bootstrapping Error Reduction
07 04월 14일(월) - Conservative Q-Learning (CQL) Offline and Offline-to-Online
- Advantage Weighted Actor-Critic (AWAC) Offline and Offline-to-Online
- 논문 발표 05: Conservative Q-Learning for Offline Reinforcement Learning
- 논문 발표 06: AWAC: Accelerating Online Reinforcement Learning with Offline Datasets
08 04월 21일(월) - Critic Reguralized Regression (CRR)
- Policy in Latent Action Space (PLAS)
- 논문 발표 07: Critic Regularized Regression
- 논문 발표 08: PLAS: Latent Action Space for Offline Reinforcement Learning
09 04월 28일(월) - TD3+BC Offline only
- ReBRAC Offline only
- 논문 발표 09: A Minimalist Approach to Offline Reinforcement Learning
- 논문 발표 10: Revisiting the Minimalist Approach to Offline Reinforcement Learning
10 05월 05일(월) 공휴일 (휴강)
11 05월 12일(월) - Policy Regularization with Dataset Constraint (PRDC)
- Implicit Q-Learning (IQL) Offline and Offline-to-Online
- 논문 발표 11: Policy Regularization with Dataset Constraint for Offline Reinforcement Learning
- 논문 발표 12: Offline Reinforcement Learning with Implicit Q-Learning
12 05월 19일(월) - Supported Policy OpTimizatio (SPOT) Offline-to-Online only
- Calibrated Q-Learning (Cal-QL) Offline-to-Online only
- 논문 발표 13: Supported Policy Optimization for Offline Reinforcement Learning
- 논문 발표 14: Cal-QL: Calibrated Offline RL Pre-Training for Efficient Online Fine-Tuning
13 05월 26일(월) - Ensemble-Diversified Actor Critic (EDAC) Offline only
- Large-Batch SAC (LB-SAC) Offline only
- 논문 발표 15: Uncertainty-Based Offline Reinforcement Learning with Diversified Q-Ensemble
- 논문 발표 16: Q-Ensemble for Offline RL: Don't Scale the Ensemble, Scale the Batch Size
14 06월 02일(월) - Decision Transformer (DT) Offline only
- 논문 발표 17: Decision Transformer: Reinforcement Learning via Sequence Modeling
15 06월 09일(월) - Gato
- 논문 발표 18: A Generalist Agent
16 06월 16일(월) 기말 고사

2. Course Information


  • - Lecturer: 한연희 교수 (Rm. 2공학관 423호, Email: yhhan@koreatech.ac.kr)
  • - Classes: 월요일 (16:00 ~ 16:50)
  • - Lecture Room: 2공학관 317호
  • - Prerequisites: 머신러닝 및 딥러닝 기본 지식, 파이썬 기반의 PyTorch/Tensorflow 기본 코딩 경험

3. Presentation Evaluation


  • - BOOK: 내용 이해도 (60%), 발표 자료 충실도 (40%) - 반드시 모든 팀원이 모두 골고루 발표, 팀원들에게 동일한 점수 부여
  • - PAPER: 내용 이해도 (50%), 발표 자료 충실도 (30%), 발표 역량 (20%)

4. Home Work Guide


  • - 추후 구체적인 숙제 가이드 라인 제공
  • - 교재를 기반으로 강화학습 코딩 및 실험 결과 담은 리포트 제출

5. References


[주교재]

  • - 밑바닥부터 시작하는 딥러닝 4 (파이썬으로 직접 구현하며 배우는 강화 학습 알고리즘 )
  • - 수업 시간 PDF로 제공
  • - 심층강화학습 핵심 논문

[부교재]

  • - 심층 강화학습 인 액션 : 기본 개념부터 파이썬 기반의 최신 알고리즘 구현까지
  • - 파이썬 기반 강화학습 알고리듬 DP, Q-Learning, AC, DQN, TRPO, PPO, DDPG, TD3 | Imitation Learning, ESBAS 알아보기
  • - 심층강화학습 주요 논문 모음:
  • - PyTorch 튜토리얼:

6. Logistics


  • - Attendance: one class absence will result in the deduction of two points out of 100 points. Five absences will not result in ten points deduction, but “failure” (i.e., grade ‘F’) in this course.
  • - Homework: much intensive homework will be set. Any cheating (or copying) will result in grade ‘F’.
  • - Exam: there will be the final examination for the evaluation of the knowledge learned from the class.

7. Lecture Evaluation


  • Attendance (10%), Book Presentation (20%), Paper Presentation (20%), Homework Reports (20%), Final Exam. (30%)