Jeu de NIM
L'apprentissage par renforcement : C'est une méthode où une IA apprend en essayant différentes actions et en observant les résultats. Si une action mène à un succès, elle sera plus susceptible d'être répétée. Si elle mène à un échec, elle sera évitée à l'avenir. C'est comme ça que les humains apprennent aussi : par essais et erreurs !
Apprentissage guidé (semi-supervisé) : Dans les modes standard et avancé, l'IA utilise une forme d'apprentissage guidé. Elle reçoit des indications précises sur quels coups éviter, en commençant par la fin du jeu et en remontant. Lorsqu'elle perd, on lui indique spécifiquement que son dernier coup était mauvais, puis on l'aide à construire sa stratégie en remontant étape par étape. C'est comme apprendre avec un professeur qui montre les erreurs à ne pas commettre.
Comment notre IA apprend : Quand l'IA perd une partie, elle comprend que son dernier choix était un mauvais coup et le barre dans son tableau de connaissances. C'est sa façon d'apprendre ! Dès qu'elle n'a plus qu'une seule option possible pour une position, elle considère avoir trouvé la bonne stratégie et commence alors à apprendre les positions précédentes. Une fois que l'IA a trouvé le bon choix pour chaque position, elle devient imbattable !
Entraînement de l'IA : Le tableau de statistiques montre le nombre de parties gagnées par chaque joueur. Tu pourras observer qu'au début de l'entraînement, l'IA perd souvent. Mais plus elle joue, plus elle s'améliore ! Il faut à l'IA entre 5 à 10 défaites en mode standard et entre 15 à 20 défaites en mode avancé pour avoir appris la stratégie parfaite et pouvoir gagner à tous les coups !
Règles: prenez 1, 2 ou 3 bâtonnets par tour. Celui qui prend le dernier gagne !
Historique de la partie
Aucun mouvement pour l'instant
Connaissances de l'IA
Ce tableau montre ce que l'IA a appris. Les options barrées sont celles qu'elle évite.
Statistiques
Paramètres avancés
Exploration vs Exploitation : Ce curseur ajuste l'équilibre entre l'exploration (essayer de nouvelles actions) et l'exploitation (utiliser ce qui fonctionne déjà). Plus le taux d'exploration est élevé, plus l'IA essaiera des coups aléatoires même s'ils semblent moins bons.
100% Exploitation (0% Exploration) : L'IA ne joue que les coups qu'elle pense être les meilleurs selon son expérience actuelle. Elle apprend vite mais peut rester bloquée dans des stratégies sous-optimales.
100% Exploration : L'IA joue complètement au hasard sans tenir compte de ses statistiques. Elle n'apprend pas efficacement car elle n'exploite jamais ses connaissances.
Nombre de parties : Ce curseur définit combien de parties l'IA jouera contre elle-même pendant l'entraînement. Plus de parties signifie un meilleur apprentissage, mais prend plus de temps et consomme plus de ressources (processeur et batterie). Sur des appareils mobiles, un grand nombre de parties peut ralentir l'application et consommer davantage d'énergie.