WeCours > Development > Data Science > Apprentissage par renforcement moderne : Apprentissage Q profond dans PyTorch

4.61 sur 5

4.61

Apprentissage par renforcement moderne : Apprentissage Q profond dans PyTorch

Name: Apprentissage par renforcement moderne : Apprentissage Q profond dans PyTorch
Author: Mahefa Abel

Comment transformer les documents de recherche sur l'apprentissage par renforcement approfondi en agents qui battent les jeux Atari classiques

Instructeur :

Mahefa Abel

English

Comment lire et mettre en œuvre des documents d'apprentissage par renforcement profond

Comment coder les agents d'apprentissage Deep Q

Comment coder les agents d'apprentissage Double Deep Q

Comment coder Dueling Deep Q et Dueling Double Deep Q Learning Agents

Comment écrire un logiciel d'apprentissage par renforcement profond modulaire et extensible

Comment automatiser le réglage des hyperparamètres avec des arguments de ligne de commande

Dans ce cours complet d’apprentissage par renforcement en profondeur, vous apprendrez un cadre reproductible pour la lecture et la mise en œuvre d’articles de recherche sur l’apprentissage par renforcement en profondeur. Vous lirez les articles originaux présentant les algorithmes d’apprentissage Deep Q, d’apprentissage Double Deep Q et d’apprentissage Dueling Deep Q. Vous apprendrez ensuite à les implémenter dans un code PyTorch pythonique et concis, qui peut être étendu pour inclure tous les futurs algorithmes d’apprentissage Q profond. Ces algorithmes seront utilisés pour résoudre une variété d’environnements de la bibliothèque Atari d’Open AI gym, notamment Pong, Breakout et Bankheist.

Vous apprendrez la clé pour faire fonctionner ces algorithmes Deep Q Learning, à savoir comment modifier la bibliothèque Atari d’Open AI Gym pour répondre aux spécifications de l’original Q Documents d’apprentissage approfondis. Vous apprendrez à :

Répéter des actions pour réduire les frais de calcul
Redimensionner les images de l’écran Atari pour augmenter l’efficacité
Empilez les cadres pour donner à l’agent Deep Q une impression de mouvement
Évaluez les performances de l’agent Deep Q avec des no-ops aléatoires à traiter avec modèle sur formation
Clip récompenses pour permettre à l’agent d’apprentissage Deep Q de généraliser à travers les jeux Atari avec différentes échelles de score

Si vous n’avez pas d’expérience préalable en apprentissage par renforcement ou renforcement profond, ce n’est pas un problème. Le cours comprend un cours complet et concis sur les principes fondamentaux de l’apprentissage par renforcement. Le cours d’introduction à l’apprentissage par renforcement sera enseigné dans le contexte de la résolution de l’environnement du lac gelé de l’Open AI Gym.

Nous couvrirons :

Les processus décisionnels de Markov
L’apprentissage de la différence temporelle
L’algorithme d’apprentissage Q original
Comment résoudre l’équation de Bellman
Fonctions de valeur et fonctions de valeur d’action
Apprentissage par renforcement basé sur un modèle ou sans modèle
Solutions au dilemme explorer-exploiter, y compris l’optimisme initial valeurs et sélection d’actions epsilon-greedy

Un mini-cours d’apprentissage en profondeur utilisant le framework PyTorch est également inclus. Ceci est destiné aux étudiants qui connaissent les concepts de base de l’apprentissage en profondeur, mais pas les détails, ou à ceux qui sont à l’aise avec l’apprentissage en profondeur dans un autre cadre, tel que Tensorflow ou Keras. Vous apprendrez à coder un réseau de neurones profonds dans Pytorch ainsi que le fonctionnement des réseaux de neurones convolutifs. Cela sera utilisé dans la mise en œuvre d’un agent d’apprentissage Deep Q naïf pour résoudre le problème Cartpole de l’Open AI gym.

Introduction

What You Will Learn In This Course

Required Background, software, and hardware

How to Succeed in this Course

Fundamentals of Reinforcement Learning

Agents, Environments, and Actions

Markov Decision Processes

Value Functions, Action Value Functions, and the Bellman Equation

Model Free vs. Model Based Learning

The Explore-Exploit Dilemma

Temporal Difference Learning

Deep Learning Crash Course

Dealing with Continuous State Spaces with Deep Neural Networks

Naive Deep Q Learning in Code: Step 1 - Coding the Deep Q Network

Naive Deep Q Learning in Code: Step 2 - Coding the Agent Class

Naive Deep Q Learning in Code: Step 3 - Coding the Main Loop and Learning

Naive Deep Q Learning in Code: Step 4 - Verifying the Functionality of Our Code

Naive Deep Q Learning in Code: Step 5 - Analyzing Our Agent's Performance

Dealing with Screen Images with Convolutional Neural Networks

Human Level Control Through Deep Reinforcement Learning: From Paper to Code

How to Read Deep Learning Papers

Analyzing the Paper

How to Modify the OpenAI Gym Atari Environments

How to Preprocess the OpenAI Gym Atari Screen Images

How to Stack the Preprocessed Atari Screen Images

How to Combine All the Changes

How to Add Reward Clipping, Fire First, and No Ops

How to Code the Agent's Memory

How to Code the Deep Q Network

Coding the Deep Q Agent: Step 1 - Coding the Constructor

Coding the Deep Q Agent: Step 2 - Epsilon-Greedy Action Selection

Coding the Deep Q Agent: Step 3 - Memory, Model Saving and Network Copying

Coding the Deep Q Agent: Step 4 - The Agent's Learn Function

Coding the Deep Q Agent: Step 5 - The Main Loop and Analyzing the Performance

Deep Reinforcement Learning with Double Q Learning

Analyzing the Paper

Coding the Double Q Learning Agent and Analyzing Performance

Dueling Network Architectures for Deep Reinforcement Learning

Analyzing the Paper

Coding the Dueling Deep Q Network

Coding the Dueling Deep Q Learning Agent and Analyzing Performance

Coding the Dueling Double Deep Q Learning Agent and Analyzing Performance

Improving On Our Solutions

Implementing a Command Line Interface for Rapid Model Testing

Consolidating Our Code Base for Maximum Extensability

How to Test Our Agent and Watch it Play the Game in Real Time

Conclusion

Summarizing What We've Learned

Bonus Lecture

Bonus Video: Where to Go From Here

Combien de temps ai-je accu00e8s aux supports de coursu00a0?

Vous pouvez afficher et revoir les supports de cours indu00e9finiment, comme une chau00eene u00e0 la demande.

Puis-je prendre mes cours avec moi partout ou00f9 je vais?

Absolumentu00a0! Si vous disposez d'une connexion Internet, les cours sur WeCours sont disponibles u00e0 tout moment sur n'importe quel appareil. Si vous n'avez pas de connexion Internet, certains instructeurs permettent u00e9galement u00e0 leurs u00e9tudiants de tu00e9lu00e9charger les cours. instructeur cependant, alors assurez-vous d'u00eatre de leur bon cu00f4tu00e9u00a0!

4.6

4.6 sur 5

Notes570

Détails des Notes

Étoiles 5		315
Étoiles 4		177
Étoiles 3		33
Étoiles 2		6
Étoiles 1		2

Suivre un cours

227.000Ar 187.000Ar

Paiement unique S'inscrire avec l'adhésion

Garantie de remboursement de 30 jours

Inclut

6 heures de vidéo à la demande

Accès complet à vie

Accès sur le mobile et la télévision

Certificat d'achèvement

Working hours

Monday	9:30 am - 6.00 pm
Tuesday	9:30 am - 6.00 pm
Wednesday	9:30 am - 6.00 pm
Thursday	9:30 am - 6.00 pm
Friday	9:30 am - 5.00 pm
Saturday	Closed
Sunday	Closed

Apprentissage par renforcement moderne : Apprentissage Q profond dans PyTorch

Introduction

Fundamentals of Reinforcement Learning

Deep Learning Crash Course

Human Level Control Through Deep Reinforcement Learning: From Paper to Code

Deep Reinforcement Learning with Double Q Learning

Dueling Network Architectures for Deep Reinforcement Learning

Improving On Our Solutions

Conclusion

Bonus Lecture

Combien de temps ai-je accu00e8s aux supports de coursu00a0?

Puis-je prendre mes cours avec moi partout ou00f9 je vais?

Détails des Notes

Inclut

Archive

Working hours