Dans ce cours complet d’apprentissage par renforcement en profondeur, vous apprendrez un cadre reproductible pour la lecture et la mise en œuvre d’articles de recherche sur l’apprentissage par renforcement en profondeur. Vous lirez les articles originaux présentant les algorithmes d’apprentissage Deep Q, d’apprentissage Double Deep Q et d’apprentissage Dueling Deep Q. Vous apprendrez ensuite à les implémenter dans un code PyTorch pythonique et concis, qui peut être étendu pour inclure tous les futurs algorithmes d’apprentissage Q profond. Ces algorithmes seront utilisés pour résoudre une variété d’environnements de la bibliothèque Atari d’Open AI gym, notamment Pong, Breakout et Bankheist.
Vous apprendrez la clé pour faire fonctionner ces algorithmes Deep Q Learning, à savoir comment modifier la bibliothèque Atari d’Open AI Gym pour répondre aux spécifications de l’original Q Documents d’apprentissage approfondis. Vous apprendrez à :
- Répéter des actions pour réduire les frais de calcul
- Redimensionner les images de l’écran Atari pour augmenter l’efficacité
- Empilez les cadres pour donner à l’agent Deep Q une impression de mouvement
- Évaluez les performances de l’agent Deep Q avec des no-ops aléatoires à traiter avec modèle sur formation
- Clip récompenses pour permettre à l’agent d’apprentissage Deep Q de généraliser à travers les jeux Atari avec différentes échelles de score
Si vous n’avez pas d’expérience préalable en apprentissage par renforcement ou renforcement profond, ce n’est pas un problème. Le cours comprend un cours complet et concis sur les principes fondamentaux de l’apprentissage par renforcement. Le cours d’introduction à l’apprentissage par renforcement sera enseigné dans le contexte de la résolution de l’environnement du lac gelé de l’Open AI Gym.
Nous couvrirons :
- Les processus décisionnels de Markov
- L’apprentissage de la différence temporelle
- L’algorithme d’apprentissage Q original
- Comment résoudre l’équation de Bellman
- Fonctions de valeur et fonctions de valeur d’action
- Apprentissage par renforcement basé sur un modèle ou sans modèle
- Solutions au dilemme explorer-exploiter, y compris l’optimisme initial valeurs et sélection d’actions epsilon-greedy
Un mini-cours d’apprentissage en profondeur utilisant le framework PyTorch est également inclus. Ceci est destiné aux étudiants qui connaissent les concepts de base de l’apprentissage en profondeur, mais pas les détails, ou à ceux qui sont à l’aise avec l’apprentissage en profondeur dans un autre cadre, tel que Tensorflow ou Keras. Vous apprendrez à coder un réseau de neurones profonds dans Pytorch ainsi que le fonctionnement des réseaux de neurones convolutifs. Cela sera utilisé dans la mise en œuvre d’un agent d’apprentissage Deep Q naïf pour résoudre le problème Cartpole de l’Open AI gym.