한국기술교육대학교 LINK 연구실

Reinforcement Learning and Practice (강화학습및실습) - CSS410, Spring Semester, 2026

“학생과 교수 사이의 관계는 신뢰를 바탕으로 합니다. 이러한 신뢰를 저버리는 행위는 교육의 본질을 훼손하게 됩니다. 함께 수업을 듣는 여러분 모두는 학문적 윤리를 해치는 행위를 하지 않도록 최선을 다해야 합니다. 다만, 학습 목적에 부합하는 AI 활용은 학문적 윤리 위반에 해당하지 않습니다. 오히려 AI와의 상호작용을 통해 학습의 깊이와 효과를 높이는 것은 권장합니다.”

1. Course Schedule & Lecture Notes [수업 실습 코드], [수업 질의 응답]

주차	회	Date	Lecture	Notice
1주차	01	03월 02일(월)	삼일절 대체공휴일
1주차	02	03월 03일(화)	- 00. Course Introduction - 01. Introduction to Reinforcement Learning (Part 1) 강의 노트	- Development Environment 강의 노트
2주차	03	03월 09일(월)	- 01. Introduction to Reinforcement Learning (Part 2)
2주차	04	03월 10일(화)	- 02. Multi-Armed Bandit 강의 노트
3주차	05	03월 16일(월)	- 03. Markov Decision Process (Part 1) 강의 노트
3주차	06	03월 17일(화)	- 03. Markov Decision Process (Part 2)
4주차	07	03월 23일(월)	- 04. Value Functions 강의 노트
4주차	08	03월 24일(화)	- 05. Dynamic Programming 강의 노트
5주차	09	03월 30일(월)	- 06. Monte Carlo Control (Part 1) 강의 노트	- Term Project #1: BipedalWalker-Hardcore - Term Project #2: Rotary Inverted Pendulum (Updated - 2026.04.01)
5주차	10	03월 31일(화)	- 06. Monte Carlo Control (Part 2)
6주차	11	04월 06일(월)	- 07. Temporal Difference 강의 노트
6주차	12	04월 07일(화)	- 08. SARSA and Q-Learning (Part 1) 강의 노트
7주차	13	04월 13일(월)	- 08. SARSA and Q-Learning (Part 2)
7주차	14	04월 14일(화)	- 09. Deep Q-Network (Part 1) 강의 노트
8주차	15	04월 20일(월)	- 09. Deep Q-Network (Part 2)	- Homework #1 (기한: 2026년 5월 5일 23시 59분)
8주차	16	04월 21일(화)	- 10. Deep Q-Network Application (Part 1) 강의 노트
9주차	17	04월 27일(월)	- 10. Deep Q-Network Application (Part 2)
9주차	18	04월 28일(화)	- 11. Policy Gradient (Part 1) 강의 노트
10주차	19	05월 04일(월)	- 11. Policy Gradient (Part 2)
10주차	20	05월 05일(화)	어린이날 공휴일
11주차	21	05월 11일(월)	중간 고사
11주차	22	05월 12일(화)	- 12. Advantage Actor-Critic (A2C) and Asynchronous Advantage Actor-Critic (A3C) (Part 1) 강의 노트
12주차	23	05월 18일(월)	- 13. Proximal Policy Optimization (PPO) (Part 1) 강의 노트
12주차	24	05월 19일(화)	- 휴강
13주차	25	05월 25일(월)	부처님 오신날 대체공휴일
13주차	26	05월 26일(화)	- 13. Proximal Policy Optimization (PPO) (Part 2)
14주차	27	06월 01일(월)	- 14. Deep Deterministic Policy Gradient (DDPG) and Twin Delayed Deep Deterministic Policy Gradient (TD3) 강의 노트
14주차	28	06월 02일(화)	- 15. Soft Actor-Critic (SAC) 강의 노트
15주차	29	06월 08일(월)	텀프로젝트 수행 및 발표
15주차	30	06월 09일(화)	텀프로젝트 수행 및 발표
16주차	31	06월 15일(월)	텀프로젝트 수행 및 발표
16주차	32	06월 16일(화)	텀프로젝트 수행 및 발표

2. Course Information

- Lecturer: 한연희 교수 (Rm. 2공학관 423호, Email: yhhan@koreatech.ac.kr)
- Classes: 월요일 (8, 9교시 - 16:00 ~ 17:50), 화요일 (8, 9교시 - 16:00 ~ 17:50)
- Lecture Room: 2공학관 408호
- Prerequisites: Python (필수), 인공지능기초및실습, 기계학습및실습, 딥러닝및실습

3. Practice & Homework Guide

참고 링크

4. References

[강의 노트]

- 수업 시간 PDF로 제공 (강의 노트 프린트 및 서류철/서류집 활용하여 정리하기 )

[보조 교재]

- 밑바닥부터 시작하는 딥러닝 4:
- 파이토치로 완성하는 실전 강화학습 :
- PyTorch 튜토리얼:

5. Logistics

- 출석(Attendance): 1회 결석 시 100점 만점 기준에서 2점이 감점됩니다. 5회 결석 시 단순히 10점 감점되는 것이 아니라, 해당 과목은 F(낙제) 처리됩니다.
- 과제(Homework): 수업 시간에 배운 이론을 실습으로 다시 이해하는 과제가 부과됩니다. 부정행위(표절·복사 등)가 적발될 경우 해당 과목은 F(낙제) 처리됩니다. AI 도구 활용은 문제없습니다.
- 시험(Exam): 수업을 통해 학습한 지식을 평가하기 위해 중간고사를 실시합니다.
- 텀프로젝트(Term Project): 기말시험을 대체하여, 학생들은 팀 기반으로 심도 있는 텀프로젝트를 수행하고 완성해야 합니다.

6. Lecture Evaluation

출석(Attendance) (10%), 과제(Homework) (20%), 시험(Exam) (40%), 텀프로젝트(Term Project) (30%)

7. Term Project Assignments

Term Project #1: BipedalWalker (9명)

김민석
류영재
방윤아
배종연
오승준
이도호
조윤재
한동훈
한용민

Term Project #2: Rotary Inverted Pendulum (10명)

권오준
김도현
김용현
김창윤
박성환
우정모
이종현
정준영
정현도
파즐란크즈굴카이르