WeCours > Development > Data Science > Intelligence artificielle : apprentissage par renforcement en Python

4.69 sur 5

4.69

Intelligence artificielle : apprentissage par renforcement en Python

Name: Intelligence artificielle : apprentissage par renforcement en Python
Author: Mahefa Abel

Guide complet de l'apprentissage par renforcement, avec des applications de négociation d'actions et de publicité en ligne

Instructeur :

Mahefa Abel

English En savoir plus

Appliquer des méthodes d'apprentissage automatique supervisé basées sur des gradients à l'apprentissage par renforcement

Comprendre l'apprentissage par renforcement au niveau technique

Comprendre la relation entre l'apprentissage par renforcement et la psychologie

Implémenter 17 algorithmes d'apprentissage par renforcement différents

Lorsque les gens parlent d’intelligence artificielle, ils ne parlent généralement pas d’apprentissage automatique dirigé et non exécuté.

Ces tâches sont assez triviales par rapport à ce que nous pensons des IA : jouer aux échecs et au go, conduire des voitures et battre des jeux vidéo à un niveau surhumain.

L’apprentissage par renforcement est récemment devenu populaire pour faire tout cela et plus.

Tout comme l’apprentissage en profondeur, une grande partie de la théorie a été découverte dans les années 70 et 80, mais ce n’est que récemment que nous avons pu observer en premier donner les résultats étonnants qui sont possibles.

En 2016, nous avons vu Google AlphaGo battre le champion du monde de go.

Nous avons vu des IA jouer à des jeux vidéo comme Doom et Super Mario.

Les voitures autonomes ont commencé à conduire sur de vraies routes avec d’autr es conducteurs et même à transporter des passagers (Uber), le tout sans assistance humaine .

Si cela semble incroyable, b préparez-vous pour l’avenir, car la loi des Les rendements accélérés dictent que ces progrès ne feront que continuer à augmenter de manière exponentielle.

En savoir plus sur l’apprentissage automatique dirigé et non dirigé n’est pas une mince affaire. À ce jour, j’ai plus de VINGT CINQ (25 !) cours uniquement sur ces sujets.

Et pourtant, l’apprentissage par renforcement commence un tout nouveau monde. Comme vous l’apprenez dans ce cours, le paradigme de l’apprentissage par renforcement provient à la fois de l’apprentissage appris et non encadré.

Il a conduit à de nouvelles et étonnantes connaissances en psychologie comportementale et en neurosciences. Comme vous l’apprenez dans ce cours, il existe de nombreux processus analogues lorsqu’il s’agit d’enseigner à un agent et d’enseigner un animal ou même un humain. C’est la choisi la plus proche que nous ayons jusqu’à présent d’une véritable intelligence générale artificielle. Qu’est-ce qui est couvert dans ce cours ?

Le problème des bandits à plusieurs bras et le dilemme explorer-exploiter
Les moyens de calculer les moyennes et moyennes mobiles et leur relation avec la descente de gradient stochastique
Processus de décision de Markov (MDP)
Programmation dynamique
Monte Carlo
Apprentissage par différence temporelle (TD) (Q-Learning et SARSA)
Méthodes d’approximation (c’est-à-dire comment brancher un réseau de neurones profonds ou un autre modèle différentiable dans votre algorithme RL)
Comment utiliser OpenAI Gym, sans aucun changement de code
Projet : Appliquer Q-Learning pour créer un bot de trading d ‘actions

Si vous êtes prêt à relever un nouveau défi et à découvrir des techniques d’IA que vous n’avez jamais vues auparavant dans l’ apprentissage automatique , l’apprentissage automatique non encadré ou même l’apprentissage en profondeur, alors ce cours est fait pour vous.

Rendez-vous en classe !

“Si vous ne pouvez pas, je implémentez-le, vous ne le comprenez pas”

Ou comme disait le grand physicien Richard Feynman : “Ce que je ne pas créer, je ne comprends pas”.
Mes cours sont les SEULS cours où vous apprendrez à implémenter des algorithmes d’apprentissage automatique à partir de zéro
D’autres cours vous apprendront comment branchez vos données dans une bibliothèque, mais avez-vous vraiment besoin d’aide avec 3 lignes de code ?
Après avoir fait le même choix avec 10 ensembles de données, vous réalisez que vous n’avez pas appris 10 choses. Vous avez appris 1 a choisi et vous venez de répéter les mêmes 3 lignes de code 10 fois…

Prérequis suggérés :

Calcul
Probabilité
Programmation objet orienté
Codage Python : if/else, boucles, listes, dicts, ensembles
Codage Numpy : opérations matricielles et vectorielles
Régression linéaire
Descente de dégradé

QUELLE COMMANDANT DOISI PRENDRE VOS COURS EN ? :

Consultez la conférence “Machine Learning and AI Prerequisite Roadmap” (disponible dans la FAQ de n’importe lequel de mes cours, y compris le cours gratuit Numpy)

Welcome

Introduction

Course Outline and Big Picture

Where to get the Code

How to Succeed in this Course

Warmup

Return of the Multi-Armed Bandit

Section Introduction: The Explore-Exploit Dilemma

Applications of the Explore-Exploit Dilemma

Epsilon-Greedy Theory

Calculating a Sample Mean (pt 1)

Epsilon-Greedy Beginner's Exercise Prompt

Designing Your Bandit Program

Epsilon-Greedy in Code

Comparing Different Epsilons

Optimistic Initial Values Theory

Optimistic Initial Values Beginner's Exercise Prompt

Optimistic Initial Values Code

UCB1 Theory

UCB1 Beginner's Exercise Prompt

UCB1 Code

Bayesian Bandits / Thompson Sampling Theory (pt 1)

Bayesian Bandits / Thompson Sampling Theory (pt 2)

Thompson Sampling Beginner's Exercise Prompt

Thompson Sampling Code

Thompson Sampling With Gaussian Reward Theory

Thompson Sampling With Gaussian Reward Code

Why don't we just use a library?

Nonstationary Bandits

Bandit Summary, Real Data, and Online Learning

(Optional) Alternative Bandit Designs

Suggestion Box

High Level Overview of Reinforcement Learning

What is Reinforcement Learning?

From Bandits to Full Reinforcement Learning

Markov Decision Proccesses

MDP Section Introduction

Gridworld

Choosing Rewards

The Markov Property

Markov Decision Processes (MDPs)

Future Rewards

Value Functions

The Bellman Equation (pt 1)

The Bellman Equation (pt 2)

The Bellman Equation (pt 3)

Bellman Examples

Optimal Policy and Optimal Value Function (pt 1)

Optimal Policy and Optimal Value Function (pt 2)

MDP Summary

Dynamic Programming

Dynamic Programming Section Introduction

Iterative Policy Evaluation

Designing Your RL Program

Gridworld in Code

Iterative Policy Evaluation in Code

Windy Gridworld in Code

Iterative Policy Evaluation for Windy Gridworld in Code

Policy Improvement

Policy Iteration

Policy Iteration in Code

Policy Iteration in Windy Gridworld

Value Iteration

Value Iteration in Code

Dynamic Programming Summary

Monte Carlo

Monte Carlo Intro

Monte Carlo Policy Evaluation

Monte Carlo Policy Evaluation in Code

Monte Carlo Control

Monte Carlo Control in Code

Monte Carlo Control without Exploring Starts

Monte Carlo Control without Exploring Starts in Code

Monte Carlo Summary

Temporal Difference Learning

Temporal Difference Introduction

TD(0) Prediction

TD(0) Prediction in Code

SARSA

SARSA in Code

Q Learning

Q Learning in Code

TD Learning Section Summary

Approximation Methods

Approximation Methods Section Introduction

Linear Models for Reinforcement Learning

Feature Engineering

Approximation Methods for Prediction

Approximation Methods for Prediction Code

Approximation Methods for Control

Approximation Methods for Control Code

CartPole

CartPole Code

Approximation Methods Exercise

Approximation Methods Section Summary

Interlude: Common Beginner Questions

This Course vs. RL Book: What's the Difference?

Stock Trading Project with Reinforcement Learning

Beginners, halt! Stop here if you skipped ahead

Stock Trading Project Section Introduction

Data and Environment

How to Model Q for Q-Learning

Design of the Program

Code pt 1

Code pt 2

Code pt 3

Code pt 4

Stock Trading Project Discussion

Setting Up Your Environment (FAQ by Student Request)

Anaconda Environment Setup

How to install Numpy, Scipy, Matplotlib, Pandas, IPython, Theano, and TensorFlow

Extra Help With Python Coding for Beginners (FAQ by Student Request)

How to Code by Yourself (part 1)

How to Code by Yourself (part 2)

Proof that using Jupyter Notebook is the same as not using it

Python 2 vs Python 3

Effective Learning Strategies for Machine Learning (FAQ by Student Request)

How to Succeed in this Course (Long Version)

Is this for Beginners or Experts? Academic or Practical? Fast or slow-paced?

Machine Learning and AI Prerequisite Roadmap (pt 1)

Machine Learning and AI Prerequisite Roadmap (pt 2)

Appendix / FAQ Finale

What is the Appendix?

BONUS: Where to get discount coupons and FREE deep learning material

Combien de temps ai-je accu00e8s aux supports de coursu00a0?

Vous pouvez afficher et revoir les supports de cours indu00e9finiment, comme une chau00eene u00e0 la demande.

Puis-je prendre mes cours avec moi partout ou00f9 je vais?

Absolumentu00a0! Si vous disposez d'une connexion Internet, les cours sur WeCours sont disponibles u00e0 tout moment sur n'importe quel appareil. Si vous n'avez pas de connexion Internet, certains instructeurs permettent u00e9galement u00e0 leurs u00e9tudiants de tu00e9lu00e9charger les cours. instructeur cependant, alors assurez-vous d'u00eatre de leur bon cu00f4tu00e9u00a0!

4.7

4.7 sur 5

Notes8710

Détails des Notes

Étoiles 5		4867
Étoiles 4		2531
Étoiles 3		460
Étoiles 2		125
Étoiles 1		87

Suivre un cours

184.000Ar 144.000Ar

Paiement unique S'inscrire avec l'adhésion

Garantie de remboursement de 30 jours

Inclut

15 heures de vidéo à la demande

Accès complet à vie

Accès sur le mobile et la télévision

Certificat d'achèvement

Working hours

Monday	9:30 am - 6.00 pm
Tuesday	9:30 am - 6.00 pm
Wednesday	9:30 am - 6.00 pm
Thursday	9:30 am - 6.00 pm
Friday	9:30 am - 5.00 pm
Saturday	Closed
Sunday	Closed