강화학습 응용 - 학습 유형별 알고리즘 및 응용 커리큘럼 모듈 1. 몬테카를로 학습 방법 몬테카를로 예측 (01차시) 몬테카를로 학습 방법 소개 몬테카를로 예측 행동 가치 기반 몬테카를로 예측 몬테카를로 제어 (02차시) 몬테카를로 제어 소프트 정책 기반 몬테카를로 제어 [실습 1] 몬테카를로 학습 에이전트 개발 (03차시) 그리드 월드에서 몬테카를로 학습 에이전트 개발 랜덤 워크에서 몬테카를로 학습 에이전트 개발 모듈 2. 시간차 학습 방법 시간차 예측 및 추정 (04차시) 시간차 예측 배치 업데이트 [실습 2] 시간차 예측과 몬테카를로 예측 성능 비교 (05차시) 랜덤 워크에서 시간차 예측과 몬테카를로 예측 성능 비교 그리드 월드에서 시간차 예측을 통한 상태 가치 추정 그리드 월드에서 배치 업데이트 기반 시간차 예측을 통한 상태 가치 추정 시간차 학습 (06차시) SARSA와 Q-Learning 기대값 기반 SARSA [실습 3] 시간차 학습 에이전트 개발 (07차시) 절벽이 있는 그리드 월드에서 SARSA와 Q-Learning 구현 및 성능 비교 Epsilon 스케줄링 자바스크립트 기반 미로 환경에서 SARSA와 Q-Learning 실험 모듈 3. 계획과 학습 모델 기반 학습 (08차시) 모델과 계획 Dyna-Q [실습 4] 모델 기반 학습 에이전트 개발 (09차시) 절벽이 있는 그리드 월드에서 Dyna-Q 에이전트 개발 미로 찾기 환경에서 Dyna-Q 에이전트 개발 다양한 강화학습 기법 (10차시) 기대 갱신과 샘플 갱신 다양한 강화학습 기법 비교 강화학습 성능에 영향을 주는 다양한 요소 모듈 4. 강화학습 게임 에이전트 개발 [실습 5] Tic-Tac-Toe 강화학습 환경 구축 (11차시) 대전 보드 게임 Tic-Tac-Toe의 이해 Tic-Tac-Toe 강화학습 환경 개발 Dummy 에이전트 개발 및 게임 수행 [실습 6] Tic-Tac-Toe 강화학습게임 에이전트 개발 및 훈련(12차시) Tic-Tac-Toe 게임을 수행하는 Q-Learning 게임 에이전트 개발 Dummy 에이전트와 대결하는 Q-Learning 에이전트 훈련 자기 자신과 대결하는 (Self-Play) Q-Learning 에이전트 훈련