Lorsque les gens parlent d’intelligence artificielle, ils ne parlent généralement pas d’apprentissage automatique dirigé et non exécuté.
Ces tâches sont assez triviales par rapport à ce que nous pensons des IA : jouer aux échecs et au go, conduire des voitures et battre des jeux vidéo à un niveau surhumain.
L’apprentissage par renforcement est récemment devenu populaire pour faire tout cela et plus.
Tout comme l’apprentissage en profondeur, une grande partie de la théorie a été découverte dans les années 70 et 80, mais ce n’est que récemment que nous avons pu observer en premier donner les résultats étonnants qui sont possibles.
En 2016, nous avons vu Google AlphaGo battre le champion du monde de go.
Nous avons vu des IA jouer à des jeux vidéo comme Doom et Super Mario.
Les voitures autonomes ont commencé à conduire sur de vraies routes avec d’autr es conducteurs et même à transporter des passagers (Uber), le tout sans assistance humaine .
Si cela semble incroyable, b préparez-vous pour l’avenir, car la loi des Les rendements accélérés dictent que ces progrès ne feront que continuer à augmenter de manière exponentielle.
En savoir plus sur l’apprentissage automatique dirigé et non dirigé n’est pas une mince affaire. À ce jour, j’ai plus de VINGT CINQ (25 !) cours uniquement sur ces sujets.
Et pourtant, l’apprentissage par renforcement commence un tout nouveau monde. Comme vous l’apprenez dans ce cours, le paradigme de l’apprentissage par renforcement provient à la fois de l’apprentissage appris et non encadré.
Il a conduit à de nouvelles et étonnantes connaissances en psychologie comportementale et en neurosciences. Comme vous l’apprenez dans ce cours, il existe de nombreux processus analogues lorsqu’il s’agit d’enseigner à un agent et d’enseigner un animal ou même un humain. C’est la choisi la plus proche que nous ayons jusqu’à présent d’une véritable intelligence générale artificielle. Qu’est-ce qui est couvert dans ce cours ?
- Le problème des bandits à plusieurs bras et le dilemme explorer-exploiter
- Les moyens de calculer les moyennes et moyennes mobiles et leur relation avec la descente de gradient stochastique
- Processus de décision de Markov (MDP)
- Programmation dynamique
- Monte Carlo
- Apprentissage par différence temporelle (TD) (Q-Learning et SARSA)
- Méthodes d’approximation (c’est-à-dire comment brancher un réseau de neurones profonds ou un autre modèle différentiable dans votre algorithme RL)
- Comment utiliser OpenAI Gym, sans aucun changement de code
- Projet : Appliquer Q-Learning pour créer un bot de trading d ‘actions
Si vous êtes prêt à relever un nouveau défi et à découvrir des techniques d’IA que vous n’avez jamais vues auparavant dans l’ apprentissage automatique , l’apprentissage automatique non encadré ou même l’apprentissage en profondeur, alors ce cours est fait pour vous.
Rendez-vous en classe !
“Si vous ne pouvez pas, je implémentez-le, vous ne le comprenez pas”
- Ou comme disait le grand physicien Richard Feynman : “Ce que je ne pas créer, je ne comprends pas”.
- Mes cours sont les SEULS cours où vous apprendrez à implémenter des algorithmes d’apprentissage automatique à partir de zéro
- D’autres cours vous apprendront comment branchez vos données dans une bibliothèque, mais avez-vous vraiment besoin d’aide avec 3 lignes de code ?
- Après avoir fait le même choix avec 10 ensembles de données, vous réalisez que vous n’avez pas appris 10 choses. Vous avez appris 1 a choisi et vous venez de répéter les mêmes 3 lignes de code 10 fois…
Prérequis suggérés :
- Calcul
- Probabilité
- Programmation objet orienté
- Codage Python : if/else, boucles, listes, dicts, ensembles
- Codage Numpy : opérations matricielles et vectorielles
- Régression linéaire
- Descente de dégradé
QUELLE COMMANDANT DOISI PRENDRE VOS COURS EN ? :
- Consultez la conférence “Machine Learning and AI Prerequisite Roadmap” (disponible dans la FAQ de n’importe lequel de mes cours, y compris le cours gratuit Numpy)