Retour à la vue d'ensemble
  • Intelligence artificielle

Processus d'apprentissage par renforcement : comment utiliser l'apprentissage par renforcement de manière rentable pour votre boutique en ligne (partie 1)

  • Publié le 1er février 2018
  • Eric Mende
  • Temps de lecture : 7 min.

L'apprentissage par renforcement est un procédé d'intelligence artificielle dans lequel un agent apprend à interagir au mieux avec son environnement. Ces dernières années, de nombreuses applications ont vu le jour, rendant ce procédé très populaire. Des programmes ont été développés pour battre les humains à des jeux tels que les échecs ou le go, ou même à des jeux Atari simples. Ils aident les robots à jouer au football avec succès ou à réaliser des vols acrobatiques audacieux en hélicoptère. Dans cette série de trois articles de blog, nous vous montrons comment l'apprentissage par renforcement peut être utilisé pour personnaliser les recommandations des boutiques en ligne.

La photo montre un chien jouant à aller chercher une balle dans un champ.

Un exemple tiré de la psychologie comportementale

Le nom « apprentissage par renforcement » est emprunté à la psychologie comportementale. L'apprentissage par renforcement, un sous-domaine de l'apprentissage automatique (IA), fonctionne en effet de manière similaire au conditionnement instrumental, dans lequel, par exemple, un chien apprend à rapporter une balle.

Dans ce cas, notre chien « Benno » est l'agent. L'environnement (le monde qui l'entoure) est le monde dans lequel il se trouve. Le dresseur et la balle jouent ici un rôle particulièrement important. Benno perçoit son environnement à travers ses sens. Il sent, entend et voit ce qui se passe autour de lui. Son cerveau crée une représentation interne de cet environnement. Il peut réagir à cette représentation par différentes actions. Quand il voit la balle s'envoler, il peut par exemple décider de la regarder, de courir après elle, d'aboyer, de renifler le sol ou de lever la patte. S'il court après la balle et la rapporte à l'entraîneur, celui-ci peut alors lui donner une récompense.


Restez informé des dernières nouveautés en matière de personnalisation : inscrivez-vous à la newsletter epoq. Inscrivez-vous dès maintenant !


Ce comportement est renforcé lorsque le cerveau de Benno établit un lien entre le fait de rapporter l'objet et la récompense. Benno sera alors plus motivé à répéter cette action la prochaine fois. Cependant, cela ne vaut pas la peine pour Benno de courir après un écureuil. Il ne reçoit aucune récompense pour cela. S'il fait plusieurs fois l'expérience d'être récompensé uniquement pour avoir rapporté la balle et non l'écureuil, son cerveau peut établir le lien entre la représentation interne « balle lancée », le fait de courir après et de rapporter, et la récompense. Cela signifie qu'il a appris à choisir la meilleure réaction dans la situation donnée.

Apprentissage par renforcement dans le commerce électronique

L'apprentissage par renforcement fonctionne de manière très similaire et est utilisé, entre autres, pour la personnalisation des boutiques en ligne. Malheureusement, l'agent n'est pas aussi mignon et il n'aboie pas non plus. Mais comme Benno, il doit percevoir son environnement et, sur la base de cette perception, être capable de décider d'une action qui, à son tour, a une influence sur l'environnement.

Apprentissage par renforcement pour les boutiques en ligne

L'environnement qui nous intéresse est celui des boutiques en ligne et des clients qui interagissent avec elles. Le comportement d'un client dans une boutique en ligne peut être enregistré côté serveur. Tout comme Benno sent l'odeur du ballon, le voit s'envoler et l'entend rebondir sur le sol, le serveur enregistre, entre autres, le moment où le client consulte une nouvelle page (y compris l'heure exacte), ce qu'il a recherché et s'il a cliqué sur une recommandation de produit. Plus le client navigue longtemps dans la boutique en ligne, plus le journal, c'est-à-dire l'enregistrement de son comportement, est long. L'agent, en revanche, a besoin à chaque fois qu'il doit agir d'un vecteur de longueur toujours identique comme entrée, comme d'autres méthodes d'apprentissage automatique. Ce vecteur est la représentation interne de l'environnement.

Représentation interne sous forme de vecteur

L'apprentissage par renforcement utilisé pour le moteur de recommandation

Tout comme Benno a la possibilité d'effectuer différentes actions telles que courir ou renifler, l'agent peut également effectuer différentes actions. Ces actions ont alors un impact sur l'environnement. Notre agent a une influence sur les recommandations e-commerce sur une nouvelle page consultée d'une boutique en ligne. Il peut par exemple décider que seuls les produits d'une certaine marque doivent être affichés ou que seuls les produits coûtant au maximum 20 € doivent être affichés. Il peut également décider de faire les deux en même temps, tout comme Benno pourrait décider de rapporter et d'aboyer en même temps.

Les décisions de l'agent ont une influence sur les recommandations de produits et les éléments personnalisés que le client voit et peuvent ainsi influencer son comportement :

  • Dans le cas positif, le client voit s'afficher un produit susceptible de l'intéresser et il achète davantage ou avec une plus grande probabilité. Si le client effectue effectivement un achat, l'agent reçoit une récompense numérique, c'est-à-dire qu'il est informé du montant de l'achat effectué par le client. Cette récompense renforce le comportement de l'agent. Cela signifie que s'il reçoit à nouveau un vecteur d'entrée similaire ultérieurement, il sera plus susceptible de se comporter de la même manière.
  • Sinon, le client hésite à acheter ou quitte la boutique et l'agent repart les mains vides. Le comportement affiché n'est pas renforcé. Si l'agent reçoit plus tard un vecteur d'entrée similaire, il sera moins susceptible d'effectuer la même action.

Cette procédure est répétée pour de nombreux clients. Chaque acheteur en ligne devient ainsi le formateur de l'agent. Au fil du temps, celui-ci apprend quelles recommandations de produits sont les plus adaptées au comportement d'un client.

Personnalisation des recommandations

La particularité de l'agent est qu'il peut réagir aux différentes situations dans lesquelles se trouvent les clients. Les clients ayant un comportement similaire génèrent des vecteurs similaires. Par exemple, certains clients recherchent quelque chose de précis et savent ce qu'ils veulent. Ces clients ont tendance à consulter moins les pages d'aperçu des catégories, mais passent en moyenne plus de temps sur chaque page visitée. Pour les clients qui souhaitent flâner et trouver l'inspiration, c'est plutôt l'inverse.


Restez informé des dernières nouveautés en matière de personnalisation : inscrivez-vous à la newsletter epoq. Inscrivez-vous dès maintenant !


L'agent apprend à distinguer ces groupes et à déterminer l'action la plus appropriée pour chacun d'entre eux. Cela permet d'augmenter le chiffre d'affaires par rapport aux stratégies rigides qui exécutent les mêmes actions pour chaque client sur la base de règles prédéfinies.

Notre conclusion sur l'utilisation de l'apprentissage par renforcement dans le commerce électronique

Avec un entraînement adapté, non seulement les chiens peuvent apprendre à rapporter, mais il est également possible de générer des recommandations de produits pertinentes dans les boutiques en ligne. Dans le cadre de l'apprentissage par renforcement, l'agent est formé aux différents comportements des utilisateurs de la boutique et peut ainsi proposer des recommandations toujours mieux adaptées à chaque client.

 

Dans la deuxième partie de cette série d'articles, nous décrivons comment nous utilisons l'analyse en temps réel pour créer des vecteurs d'entrée à partir du comportement des clients. Cela permet de voir ce à quoi il faut prêter attention lors du suivi afin que l'agent puisse faire de bonnes prévisions.
Dans la troisième partie , nous abordons plus en détail les algorithmes d'auto-apprentissage grâce auxquels notre agent détermine quelles actions sont les meilleures pour quel vecteur d'entrée.

5,04 % d'augmentation du chiffre d'affaires par session : Outletcity Metzingen a remis en question sa stratégie de personnalisation.
Demandez dès maintenant l'étude de cas !

Eric, data scientist chez epoq
Eric Mende
Data scientist
Au moment de la publication, Eric travaillait chez Epoq en tant que data scientist et était responsable du domaine du machine learning. Il optimisait quotidiennement nos algorithmes afin qu'ils obtiennent les meilleurs résultats pour nos clients.