Un exemple tiré de la psychologie comportementale
Le nom « apprentissage par renforcement » est emprunté à la psychologie comportementale. L'apprentissage par renforcement, un sous-domaine de l'apprentissage automatique (IA), fonctionne en effet de manière similaire au conditionnement instrumental, dans lequel, par exemple, un chien apprend à rapporter une balle.
Dans ce cas, notre chien « Benno » est l'agent. L'environnement (le monde qui l'entoure) est le monde dans lequel il se trouve. Le dresseur et la balle jouent ici un rôle particulièrement important. Benno perçoit son environnement à travers ses sens. Il sent, entend et voit ce qui se passe autour de lui. Son cerveau crée une représentation interne de cet environnement. Il peut réagir à cette représentation par différentes actions. Quand il voit la balle s'envoler, il peut par exemple décider de la regarder, de courir après elle, d'aboyer, de renifler le sol ou de lever la patte. S'il court après la balle et la rapporte à l'entraîneur, celui-ci peut alors lui donner une récompense.
Restez informé des dernières nouveautés en matière de personnalisation : inscrivez-vous à la newsletter epoq. Inscrivez-vous dès maintenant !
Ce comportement est renforcé lorsque le cerveau de Benno établit un lien entre le fait de rapporter l'objet et la récompense. Benno sera alors plus motivé à répéter cette action la prochaine fois. Cependant, cela ne vaut pas la peine pour Benno de courir après un écureuil. Il ne reçoit aucune récompense pour cela. S'il fait plusieurs fois l'expérience d'être récompensé uniquement pour avoir rapporté la balle et non l'écureuil, son cerveau peut établir le lien entre la représentation interne « balle lancée », le fait de courir après et de rapporter, et la récompense. Cela signifie qu'il a appris à choisir la meilleure réaction dans la situation donnée.