Les simulations basées sur l’apprentissage par renforcement montrent que le désir humain d’en vouloir toujours plus peut accélérer l’apprentissage


Les--basees-sur-lapprentissage-par-renforcement--que-le.jpg" alt="Reinforcement Learning-basierte Simulationen zeigen, dass der menschliche Wunsch, immer mehr zu wollen, das Lernen beschleunigen kann" title="Umgebungsdesign. (a) Die in Experiment 1 verwendete zweidimensionale Gridworld-Umgebung. (b) Um die Eigenschaften der optimalen Belohnung zu untersuchen, haben wir mehrere Modifikationen an der Gridworld-Umgebung vorgenommen. Obere Reihe: In der einmaligen Lernumgebung könnte sich der Agent dafür entscheiden, nach Erreichen des Nahrungsortes ständig an diesem Ort zu bleiben. In der lebenslangen Lernumgebung wurde der Agent an einen zufälligen Ort in der Gitterwelt teleportiert, sobald er den Nahrungszustand erreichte. Mittlere Reihe: In der stationären Umgebung blieb die Nahrung während der gesamten Lebensdauer des Agenten am selben Ort. In der instationären Umgebung wechselte die Nahrung während der Lebenszeit des Agenten ihren Ort. Untere Reihe: Wir haben eine Gridworld der Größe 7 × 7 verwendet, um ein dichtes Belohnungssetting zu simulieren. Um eine spärliche Belohnungseinstellung zu simulieren, haben wir die Größe der Gitterwelt auf 13 × 13 erhöht. Quelle: Biologie computationnelle PLOS (2022). DOI : 10.1371/journal.pcbi.1010316″ width= »800″ height= »496″/>

conception de l’environnement. (a) L’environnement Gridworld à deux dimensions utilisé dans l’expérience 1. (b) Afin d’examiner les propriétés de la récompense optimale, nous avons apporté plusieurs modifications à l’environnement gridworld. Rangée du haut : dans l’environnement d’apprentissage ponctuel, l’agent choisir de rester à cet endroit en permanence après avoir atteint l’emplacement de restauration. Dans l’environnement d’apprentissage à vie, l’agent était téléporté à un endroit aléatoire dans le monde de la grille une fois qu’il avait atteint l’état alimentaire. Rangée du milieu : dans l’environnement stationnaire, les aliments sont restés au même endroit tout au long de la vie de l’agent. Dans l’environnement transitoire, la nourriture a changé de place au cours de la vie de l’agent. Rangée du bas : Nous avons utilisé un gridworld 7×7 pour simuler un réglage de récompense dense. Pour simuler un paramètre de récompense clairsemé, nous avons augmenté la taille du gridworld à 13 × 13. Biologie computationnelle PLOS (2022). DOI : 10.1371/journal.pcbi.1010316

Un trio de chercheurs, deux de l’Université de Princeton, l’autre du Max Planck Institute for Biological Cybernetics, ont développé une simulation basée sur l’apprentissage par renforcement montrant que le désir de vouloir plus peut avoir évolué comme une possibilité d’accélérer l’apprentissage. Dans son article publié en Open Access Biologie computationnelle PLOSRachit Dubey, Thomas Griffiths et Peter Dayan décrivent les facteurs qui sont entrés dans leurs simulations.

Les chercheurs qui étudient le comportement humain ont souvent été troublés par les désirs apparemment contradictoires des gens. Beaucoup de gens ont des désirs incessants pour plus de certaines choses, même s’ils savent que la réalisation de ces désirs peut ne pas apporter le résultat souhaité. Par exemple, beaucoup de gens veulent toujours plus d’argent avec l’idée que plus d’argent rendrait la vie plus facile, ce qui devrait les rendre plus heureux. Mais une multitude d’études ont montré que gagner plus d’argent rend rarement les gens plus heureux (sauf pour ceux qui partent de niveaux de revenu très bas). Dans cette nouvelle tentative, les chercheurs ont cherché à mieux comprendre pourquoi les humains ont évolué comme ils l’ont fait. Pour ce faire, ils ont construit une simulation pour imiter la façon dont les gens réagissent émotionnellement à des stimuli tels que B. la réalisation des objectifs. Et pour mieux comprendre pourquoi les gens se sentent comme ils le font, ils ont ajouté des points de contrôle qui pourraient être utilisés comme baromètres du bonheur.

La simulation était basée sur l’apprentissage par renforcement, où les humains (ou une machine) continuent à faire des choses qui offrent une récompense positive et cessent de faire des choses qui n’offrent aucune récompense ou une récompense négative. Les chercheurs ont également ajouté des réponses émotionnelles simulées aux effets négatifs bien connus de l’accoutumance et de la comparaison, rendant les gens moins heureux au fil du temps lorsqu’ils s’habituent à quelque chose de nouveau et moins heureux lorsqu’ils voient quelqu’un d’autre avoir plus de quelque chose que vous voulez.

En exécutant la simulation, les chercheurs ont découvert que les objectifs étaient atteints plus rapidement lorsque l’accoutumance et la comparaison entraient en jeu, ce qui suggère que de telles réponses émotionnelles peuvent également jouer un rôle dans l’apprentissage plus rapide chez l’homme. Ils ont également constaté que la simulation était moins « plus heureuse » lorsqu’elle était confrontée à plus de choix d’options réalisables que lorsqu’elle était confrontée à moins de choix.

Les chercheurs suggèrent que la raison pour laquelle les gens ont tendance à rester coincés dans un cycle sans fin de désir de plus en plus, c’est parce que cela aide les gens à apprendre plus rapidement dans l’ensemble.


Bonheur : pourquoi l’apprentissage, et non les récompenses, peut être la clé


Plus d’information:
Rachit Dubey et al, La poursuite du bonheur : une perspective d’apprentissage par renforcement sur l’habituation et la comparaison, Biologie computationnelle PLOS (2022). DOI : 10.1371/journal.pcbi.1010316

© 2022 Réseau Science X

Citation: Des simulations basées sur l’apprentissage par renforcement montrent que le désir humain de toujours vouloir plus peut accélérer l’apprentissage (2022, 5 août 2022), extrait le 6 août 2022 de https://phys.org/news/2022-08-learningbased-simulations- human desire . html

Ce document est protégé par le droit d’auteur. Sauf pour le commerce équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans autorisation écrite. Le contenu est uniquement à des fins d’information.

Laisser un commentaire