4.61 sur 5
4.61

Apprentissage par renforcement moderne : Apprentissage Q profond dans PyTorch

Comment transformer les documents de recherche sur l'apprentissage par renforcement approfondi en agents qui battent les jeux Atari classiques
Comment lire et mettre en œuvre des documents d'apprentissage par renforcement profond
Comment coder les agents d'apprentissage Deep Q
Comment coder les agents d'apprentissage Double Deep Q
Comment coder Dueling Deep Q et Dueling Double Deep Q Learning Agents
Comment écrire un logiciel d'apprentissage par renforcement profond modulaire et extensible
Comment automatiser le réglage des hyperparamètres avec des arguments de ligne de commande

Dans ce cours complet d’apprentissage par renforcement en profondeur, vous apprendrez un cadre reproductible pour la lecture et la mise en œuvre d’articles de recherche sur l’apprentissage par renforcement en profondeur. Vous lirez les articles originaux présentant les algorithmes d’apprentissage Deep Q, d’apprentissage Double Deep Q  et d’apprentissage Dueling Deep Q. Vous apprendrez ensuite à les implémenter dans un code PyTorch pythonique et concis, qui peut être étendu pour inclure tous les futurs algorithmes d’apprentissage Q profond. Ces algorithmes seront utilisés pour résoudre une variété d’environnements de la bibliothèque Atari d’Open AI gym, notamment Pong, Breakout et Bankheist.

 

Vous apprendrez la clé pour faire fonctionner ces algorithmes Deep Q Learning, à savoir comment modifier la bibliothèque Atari d’Open AI Gym pour répondre aux spécifications de l’original Q Documents d’apprentissage approfondis. Vous apprendrez à :

  • Répéter des actions pour réduire les frais de calcul
  • Redimensionner les images de l’écran Atari pour augmenter l’efficacité
  • Empilez les cadres pour donner à l’agent Deep Q une impression de mouvement
  • Évaluez les performances de l’agent Deep Q avec des no-ops aléatoires à traiter avec modèle sur formation
  • Clip récompenses pour permettre à l’agent d’apprentissage Deep Q de généraliser à travers les jeux Atari avec différentes échelles de score

     

Si vous n’avez pas d’expérience préalable en apprentissage par renforcement ou renforcement profond, ce n’est pas un problème. Le cours comprend un cours complet et concis sur les principes fondamentaux de l’apprentissage par renforcement. Le cours d’introduction à l’apprentissage par renforcement sera enseigné dans le contexte de la résolution de l’environnement du lac gelé de l’Open AI Gym.

Nous couvrirons :

  • Les processus décisionnels de Markov
  • L’apprentissage de la différence temporelle
  • L’algorithme d’apprentissage Q original
  • Comment résoudre l’équation de Bellman
  • Fonctions de valeur et fonctions de valeur d’action
  • Apprentissage par renforcement basé sur un modèle ou sans modèle
  • Solutions au dilemme explorer-exploiter, y compris l’optimisme initial valeurs et sélection d’actions epsilon-greedy

Un mini-cours d’apprentissage en profondeur utilisant le framework PyTorch est également inclus. Ceci est destiné aux étudiants qui connaissent les concepts de base de l’apprentissage en profondeur, mais pas les détails, ou à ceux qui sont à l’aise avec l’apprentissage en profondeur dans un autre cadre, tel que Tensorflow ou Keras. Vous apprendrez à coder un réseau de neurones profonds dans Pytorch ainsi que le fonctionnement des réseaux de neurones convolutifs. Cela sera utilisé dans la mise en œuvre d’un agent d’apprentissage Deep Q naïf pour résoudre le problème Cartpole de l’Open AI gym.

Introduction

1
What You Will Learn In This Course
2
Required Background, software, and hardware
3
How to Succeed in this Course

Fundamentals of Reinforcement Learning

1
Agents, Environments, and Actions
2
Markov Decision Processes
3
Value Functions, Action Value Functions, and the Bellman Equation
4
Model Free vs. Model Based Learning
5
The Explore-Exploit Dilemma
6
Temporal Difference Learning

Deep Learning Crash Course

1
Dealing with Continuous State Spaces with Deep Neural Networks
2
Naive Deep Q Learning in Code: Step 1 - Coding the Deep Q Network
3
Naive Deep Q Learning in Code: Step 2 - Coding the Agent Class
4
Naive Deep Q Learning in Code: Step 3 - Coding the Main Loop and Learning
5
Naive Deep Q Learning in Code: Step 4 - Verifying the Functionality of Our Code
6
Naive Deep Q Learning in Code: Step 5 - Analyzing Our Agent's Performance
7
Dealing with Screen Images with Convolutional Neural Networks

Human Level Control Through Deep Reinforcement Learning: From Paper to Code

1
How to Read Deep Learning Papers
2
Analyzing the Paper
3
How to Modify the OpenAI Gym Atari Environments
4
How to Preprocess the OpenAI Gym Atari Screen Images
5
How to Stack the Preprocessed Atari Screen Images
6
How to Combine All the Changes
7
How to Add Reward Clipping, Fire First, and No Ops
8
How to Code the Agent's Memory
9
How to Code the Deep Q Network
10
Coding the Deep Q Agent: Step 1 - Coding the Constructor
11
Coding the Deep Q Agent: Step 2 - Epsilon-Greedy Action Selection
12
Coding the Deep Q Agent: Step 3 - Memory, Model Saving and Network Copying
13
Coding the Deep Q Agent: Step 4 - The Agent's Learn Function
14
Coding the Deep Q Agent: Step 5 - The Main Loop and Analyzing the Performance

Deep Reinforcement Learning with Double Q Learning

1
Analyzing the Paper
2
Coding the Double Q Learning Agent and Analyzing Performance

Dueling Network Architectures for Deep Reinforcement Learning

1
Analyzing the Paper
2
Coding the Dueling Deep Q Network
3
Coding the Dueling Deep Q Learning Agent and Analyzing Performance
4
Coding the Dueling Double Deep Q Learning Agent and Analyzing Performance

Improving On Our Solutions

1
Implementing a Command Line Interface for Rapid Model Testing
2
Consolidating Our Code Base for Maximum Extensability
3
How to Test Our Agent and Watch it Play the Game in Real Time

Conclusion

1
Summarizing What We've Learned

Bonus Lecture

1
Bonus Video: Where to Go From Here
Vous pouvez afficher et revoir les supports de cours indu00e9finiment, comme une chau00eene u00e0 la demande.
Absolumentu00a0! Si vous disposez d'une connexion Internet, les cours sur WeCours sont disponibles u00e0 tout moment sur n'importe quel appareil. Si vous n'avez pas de connexion Internet, certains instructeurs permettent u00e9galement u00e0 leurs u00e9tudiants de tu00e9lu00e9charger les cours. instructeur cependant, alors assurez-vous d'u00eatre de leur bon cu00f4tu00e9u00a0!
4.6
4.6 sur 5
Notes570

Détails des Notes

Étoiles 5
315
Étoiles 4
177
Étoiles 3
33
Étoiles 2
6
Étoiles 1
2
Suivre un cours
Garantie de remboursement de 30 jours

Inclut

6 heures de vidéo à la demande
Accès complet à vie
Accès sur le mobile et la télévision
Certificat d'achèvement

Archive

Working hours

Monday 9:30 am - 6.00 pm
Tuesday 9:30 am - 6.00 pm
Wednesday 9:30 am - 6.00 pm
Thursday 9:30 am - 6.00 pm
Friday 9:30 am - 5.00 pm
Saturday Closed
Sunday Closed