4.69 sur 5
4.69

Intelligence artificielle : apprentissage par renforcement en Python

Guide complet de l'apprentissage par renforcement, avec des applications de négociation d'actions et de publicité en ligne
Instructeur :
Mahefa Abel
English En savoir plus
Appliquer des méthodes d'apprentissage automatique supervisé basées sur des gradients à l'apprentissage par renforcement
Comprendre l'apprentissage par renforcement au niveau technique
Comprendre la relation entre l'apprentissage par renforcement et la psychologie
Implémenter 17 algorithmes d'apprentissage par renforcement différents

Lorsque les gens parlent d’intelligence artificielle, ils ne parlent généralement pas d’apprentissage automatique dirigé et non exécuté.

Ces tâches sont assez triviales par rapport à ce que nous pensons des IA : jouer aux échecs et au go, conduire des voitures et battre des jeux vidéo à un niveau surhumain.

L’apprentissage par renforcement est récemment devenu populaire pour faire tout cela et plus.

Tout comme l’apprentissage en profondeur, une grande partie de la théorie a été découverte dans les années 70 et 80, mais ce n’est que récemment que nous avons pu observer en premier donner les résultats étonnants qui sont possibles.

En 2016, nous avons vu Google AlphaGo battre le champion du monde de go.

Nous avons vu des IA jouer à des jeux vidéo comme Doom et Super Mario.

Les voitures autonomes ont commencé à conduire sur de vraies routes avec d’autr es conducteurs et même à transporter des passagers (Uber), le tout sans assistance humaine .

Si cela semble incroyable, b préparez-vous pour l’avenir, car la loi des Les rendements accélérés dictent que ces progrès ne feront que continuer à augmenter de manière exponentielle.

En savoir plus sur l’apprentissage automatique dirigé et non dirigé n’est pas une mince affaire. À ce jour, j’ai plus de VINGT CINQ (25 !) cours uniquement sur ces sujets.

Et pourtant, l’apprentissage par renforcement commence un tout nouveau monde. Comme vous l’apprenez dans ce cours, le paradigme de l’apprentissage par renforcement provient à la fois de l’apprentissage appris et non encadré.

Il a conduit à de nouvelles et étonnantes connaissances en psychologie comportementale et en neurosciences. Comme vous l’apprenez dans ce cours, il existe de nombreux processus analogues lorsqu’il s’agit d’enseigner à un agent et d’enseigner un animal ou même un humain. C’est la choisi la plus proche que nous ayons jusqu’à présent d’une véritable intelligence générale artificielle.  Qu’est-ce qui est couvert dans ce cours ?

  • Le problème des bandits à plusieurs bras et le dilemme explorer-exploiter
  • Les moyens de calculer les moyennes et moyennes mobiles et leur relation avec la descente de gradient stochastique
  • Processus de décision de Markov (MDP)
  • Programmation dynamique
  • Monte Carlo
  • Apprentissage par différence temporelle (TD) (Q-Learning et SARSA)
  • Méthodes d’approximation (c’est-à-dire comment brancher un réseau de neurones profonds ou un autre modèle différentiable dans votre algorithme RL)
  • Comment utiliser OpenAI Gym, sans aucun changement de code
  • Projet : Appliquer Q-Learning pour créer un bot de trading d ‘actions

Si vous êtes prêt à relever un nouveau défi et à découvrir des techniques d’IA que vous n’avez jamais vues auparavant dans l’ apprentissage automatique , l’apprentissage automatique non encadré ou même l’apprentissage en profondeur, alors ce cours est fait pour vous.

Rendez-vous en classe !

 

“Si vous ne pouvez pas, je implémentez-le, vous ne le comprenez pas”

  • Ou comme disait le grand physicien Richard Feynman : “Ce que je ne pas créer, je ne comprends pas”.
  • Mes cours sont les SEULS cours où vous apprendrez à implémenter des algorithmes d’apprentissage automatique à partir de zéro
  • D’autres cours vous apprendront comment branchez vos données dans une bibliothèque, mais avez-vous vraiment besoin d’aide avec 3 lignes de code ?
  • Après avoir fait le même choix avec 10 ensembles de données, vous réalisez que vous n’avez pas appris 10 choses. Vous avez appris 1 a choisi et vous venez de répéter les mêmes 3 lignes de code 10 fois…

 

Prérequis suggérés :

  • Calcul
  • Probabilité
  • Programmation objet orienté
  • Codage Python : if/else, boucles, listes, dicts, ensembles
  • Codage Numpy : opérations matricielles et vectorielles
  • Régression linéaire
  • Descente de dégradé

 

QUELLE COMMANDANT DOISI PRENDRE VOS COURS EN ? :

  • Consultez la conférence “Machine Learning and AI Prerequisite Roadmap” (disponible dans la FAQ de n’importe lequel de mes cours, y compris le cours gratuit Numpy)

Welcome

1
Introduction
2
Course Outline and Big Picture
3
Where to get the Code
4
How to Succeed in this Course
5
Warmup

Return of the Multi-Armed Bandit

1
Section Introduction: The Explore-Exploit Dilemma
2
Applications of the Explore-Exploit Dilemma
3
Epsilon-Greedy Theory
4
Calculating a Sample Mean (pt 1)
5
Epsilon-Greedy Beginner's Exercise Prompt
6
Designing Your Bandit Program
7
Epsilon-Greedy in Code
8
Comparing Different Epsilons
9
Optimistic Initial Values Theory
10
Optimistic Initial Values Beginner's Exercise Prompt
11
Optimistic Initial Values Code
12
UCB1 Theory
13
UCB1 Beginner's Exercise Prompt
14
UCB1 Code
15
Bayesian Bandits / Thompson Sampling Theory (pt 1)
16
Bayesian Bandits / Thompson Sampling Theory (pt 2)
17
Thompson Sampling Beginner's Exercise Prompt
18
Thompson Sampling Code
19
Thompson Sampling With Gaussian Reward Theory
20
Thompson Sampling With Gaussian Reward Code
21
Why don't we just use a library?
22
Nonstationary Bandits
23
Bandit Summary, Real Data, and Online Learning
24
(Optional) Alternative Bandit Designs
25
Suggestion Box

High Level Overview of Reinforcement Learning

1
What is Reinforcement Learning?
2
From Bandits to Full Reinforcement Learning

Markov Decision Proccesses

1
MDP Section Introduction
2
Gridworld
3
Choosing Rewards
4
The Markov Property
5
Markov Decision Processes (MDPs)
6
Future Rewards
7
Value Functions
8
The Bellman Equation (pt 1)
9
The Bellman Equation (pt 2)
10
The Bellman Equation (pt 3)
11
Bellman Examples
12
Optimal Policy and Optimal Value Function (pt 1)
13
Optimal Policy and Optimal Value Function (pt 2)
14
MDP Summary

Dynamic Programming

1
Dynamic Programming Section Introduction
2
Iterative Policy Evaluation
3
Designing Your RL Program
4
Gridworld in Code
5
Iterative Policy Evaluation in Code
6
Windy Gridworld in Code
7
Iterative Policy Evaluation for Windy Gridworld in Code
8
Policy Improvement
9
Policy Iteration
10
Policy Iteration in Code
11
Policy Iteration in Windy Gridworld
12
Value Iteration
13
Value Iteration in Code
14
Dynamic Programming Summary

Monte Carlo

1
Monte Carlo Intro
2
Monte Carlo Policy Evaluation
3
Monte Carlo Policy Evaluation in Code
4
Monte Carlo Control
5
Monte Carlo Control in Code
6
Monte Carlo Control without Exploring Starts
7
Monte Carlo Control without Exploring Starts in Code
8
Monte Carlo Summary

Temporal Difference Learning

1
Temporal Difference Introduction
2
TD(0) Prediction
3
TD(0) Prediction in Code
4
SARSA
5
SARSA in Code
6
Q Learning
7
Q Learning in Code
8
TD Learning Section Summary

Approximation Methods

1
Approximation Methods Section Introduction
2
Linear Models for Reinforcement Learning
3
Feature Engineering
4
Approximation Methods for Prediction
5
Approximation Methods for Prediction Code
6
Approximation Methods for Control
7
Approximation Methods for Control Code
8
CartPole
9
CartPole Code
10
Approximation Methods Exercise
11
Approximation Methods Section Summary

Interlude: Common Beginner Questions

1
This Course vs. RL Book: What's the Difference?

Stock Trading Project with Reinforcement Learning

1
Beginners, halt! Stop here if you skipped ahead
2
Stock Trading Project Section Introduction
3
Data and Environment
4
How to Model Q for Q-Learning
5
Design of the Program
6
Code pt 1
7
Code pt 2
8
Code pt 3
9
Code pt 4
10
Stock Trading Project Discussion

Setting Up Your Environment (FAQ by Student Request)

1
Anaconda Environment Setup
2
How to install Numpy, Scipy, Matplotlib, Pandas, IPython, Theano, and TensorFlow

Extra Help With Python Coding for Beginners (FAQ by Student Request)

1
How to Code by Yourself (part 1)
2
How to Code by Yourself (part 2)
3
Proof that using Jupyter Notebook is the same as not using it
4
Python 2 vs Python 3

Effective Learning Strategies for Machine Learning (FAQ by Student Request)

1
How to Succeed in this Course (Long Version)
2
Is this for Beginners or Experts? Academic or Practical? Fast or slow-paced?
3
Machine Learning and AI Prerequisite Roadmap (pt 1)
4
Machine Learning and AI Prerequisite Roadmap (pt 2)

Appendix / FAQ Finale

1
What is the Appendix?
2
BONUS: Where to get discount coupons and FREE deep learning material
Vous pouvez afficher et revoir les supports de cours indu00e9finiment, comme une chau00eene u00e0 la demande.
Absolumentu00a0! Si vous disposez d'une connexion Internet, les cours sur WeCours sont disponibles u00e0 tout moment sur n'importe quel appareil. Si vous n'avez pas de connexion Internet, certains instructeurs permettent u00e9galement u00e0 leurs u00e9tudiants de tu00e9lu00e9charger les cours. instructeur cependant, alors assurez-vous d'u00eatre de leur bon cu00f4tu00e9u00a0!
4.7
4.7 sur 5
Notes8710

Détails des Notes

Étoiles 5
4867
Étoiles 4
2531
Étoiles 3
460
Étoiles 2
125
Étoiles 1
87
Suivre un cours
Garantie de remboursement de 30 jours

Inclut

15 heures de vidéo à la demande
Accès complet à vie
Accès sur le mobile et la télévision
Certificat d'achèvement

Archive

Working hours

Monday 9:30 am - 6.00 pm
Tuesday 9:30 am - 6.00 pm
Wednesday 9:30 am - 6.00 pm
Thursday 9:30 am - 6.00 pm
Friday 9:30 am - 5.00 pm
Saturday Closed
Sunday Closed