Big Data : quand le marketing digital se met à l'heure de la science des corrélations

Par Thierry Picard, Directeur Général de (Groupe Keyrus)

Tout au long de notre éducation, la réponse à la question ‘Pourquoi ?’ est apparue comme «La Quête Absolue». Culturellement, surtout en marketing, la causalité est un moteur essentiel, tentant de comprendre pourquoi un consommateur adopte tel ou tel comportement et comment le reproduire.

Le marketeur pense détenir un pouvoir absolu sur son marché. La réponse à ces questions peut coûter très cher en investigations en tout genre : études, panels, etc. et les réponses sont souvent empiriques, l’intuition jouant un rôle important. Comme nous l’explique Bruno Teboul, Directeur Scientifique, R&D et Innovation de Keyrus, dans son ouvrage « L’Absolu Marketing », l’émergence des sciences cognitives et des neurosciences remet en question le postulat de l’homo oeconomicus qui fonde ses choix sur des raisonnements rationnels, ce qui invaliderait ainsi le marketing traditionnel.

A l’heure du « neuromarketing » et du « Big Data », le marketing comme science du consommateur moderne semblerait sonner plutôt l’avènement de la pure «causalité» au profit d’une science des corrélations selon Viktor Mayer-Schönberger, professeur à l’Oxford Internet Institute, et Kenneth Cukier, responsable des données pour The Economist. Dans leur ouvrage « Big Data : une révolution qui va transformer notre façon de vivre, de travailler et de penser », les auteurs estiment que le Big Data permet de trouver des corrélations que nous n’avions pas vues, appelées aussi signaux faibles. Cette analyse est non seulement bien plus puissante que la causalité, mais risque surtout de la supplanter intégralement. Cette nouvelle compréhension de notre environnement révolutionne complètement nos acquis et nos certitudes.

Ils rappellent dans leur ouvrage que Oren Etzioni, qui a travaillé sur l’indice de prix des billets d’avion mis en place pour Bing Travel, ne cherchait pas à analyser les raisons de l’évolution des prix des billets d’avion, autrement dit ‘pourquoi cela évolue’, mais seulement comment prédire quand acheter, c’est à dire prédire si le prix allait augmenter ou diminuer dans le futur.

S’inspirant d’une telle démarche et à partir de notre propre méthodologie, Keyrus a pu travailler sur ce type d’approche pour le groupe de presse 20 Minutes. L’intérêt n’est pas de comprendre pourquoi certains lecteurs ont une forte probabilité de ‘consommer un contenu’ de politique internationale après avoir lu un fait-divers et un article de politique nationale, surtout s’ils sont arrivés sur le site depuis Google News et que le temps moyen de lecture dépasse 3 minutes un jour de pluie. La quête du ‘Pourquoi ?’ est ici vide de sens. Nous cherchons simplement à prédire les centres d’intérêts des lecteurs en fonction de ces informations afin de mieux les orienter sur le site. Notre vocation pour 20 Minutes, c’est d’être capable de prédire le comportement d’un lecteur à partir de l’analyse de plusieurs teraoctets de données ingérées quotidiennement, afin de construire un parcours ergonomique, intuitif et prescrire le contenu adapté aux lecteurs.

Dans le cadre de Bing Travel, l’important pour Etzioni n’était pas de connaître les facteurs qui président aux fluctuations de prix conformément aux modèles de la tarification algorithmique conventionnelle comme le nombre de sièges disponibles ou la saisonnalité. Il voulait en réalité identifier à quel moment le billet d’avion était moins cher, c’est à dire quand il fallait l’acheter. L’idée géniale a été de construire un nouvel algorithme se servant des résultats des algorithmes de tarification auxquels il ne pouvait accéder. Pour cela, Etzioni a fait ‘avaler’ plus de 200 milliards d’enregistrements de prix de vols à son algorithme. En 2012, son système était capable de faire une prévision correcte à 75 %, faisant gagner ainsi en moyenne 50$ par billet acheté.

Cette double construction algorithmique – celle qui permet de construire le prix du billet et celle qui permet de la comprendre sans en connaître les facteurs – illustre très bien le phénomène du Big Data. « Le changement d’échelle a conduit à un changement d’état », insistent Mayer-Schönberger et Cukier, qui ajoutent « le changement quantitatif a entraîné un changement qualitatif ». La métaphore souvent utilisée par les auteurs est celle de la photo et du cinéma. En passant de la photo au cinéma, une nouvelle possibilité s’est offerte à nous. D’une photographie où la quantité se limitait à une seule prise de vue, la caméra nous a permis d’augmenter ce nombre, le tout amenant à un changement de l’essence de la photographie. Nous pouvions alors aller plus loin que constater une émotion, nous pouvions comprendre le processus ayant amené à l’émotion. Une autre parabole est celle du microscope. Nous avons pu constater que la glace fond ou que l’eau s’évapore par l’expérience, avec l’arrivée du microscope nous avons pu découvrir comment.

Le Big Data se réfère à des choses réalisables à grande échelle, et qui ne peuvent pas être faites à plus petites échelles, pour en extraire de nouvelles connaissances ou de nouvelles formes de valeurs, créer des innovations et de nouveaux services.

L’obsession des marketeurs pour la causalité est en passe d’être transformée par de simples corrélations, qui n’expliquent pas le ‘Pourquoi ?’, mais montrent uniquement le ‘Quoi’. Nous n’allons pas comprendre les domaines du comportement humain sur lesquels vont agir le Big Data mais nous allons savoir comment ils agissent et réagissent.

Les corrélations ne peuvent pas nous dire précisément pourquoi quelque chose se passe, mais elles peuvent nous avertir du moment où cela se passe. Le marketeur pourra être informé du moment, de la fréquence, du nombre de fois où cet événement se produit et la probabilité pour que le même événement se reproduise lorsqu’il est soumis aux mêmes facteurs.

L’impact, c’est à dire le changement qu’induit la corrélation, relègue la causalité à quelque chose de beaucoup moins important. Cela fonctionne assez bien la plupart du temps, rappellent les auteurs. « Si l’étude de millions de dossiers médicaux montrent que les personnes atteintes d’un cancer voient leur maladie entrer en rémission s’ils prennent de l’aspirine et du jus d’orange par exemple, alors la cause exacte qui explique l’amélioration de leur santé est beaucoup moins importante que le fait qu’ils vivent ». L’important est que le remède marche et non pourquoi cela fonctionne.

La plupart de nos institutions a été créée en vertu de la présomption que les décisions humaines sont fondées sur l’information qui est petite, exacte, et de nature causale. Mais la situation change lorsque les données sont énormes, peuvent être traitées rapidement, et tolèrent l’inexactitude. En outre, en raison de l’immensité des données, les décisions peuvent souvent être prises non plus par les humains, mais par des machines. On pense au « trading haute fréquence » sur les marchés financiers, ou encore au secteur du tourisme, qui sont des applications où la puissance et la rapidité à la milliseconde près sont fondamentales.

Pour les auteurs, les corrélations peuvent être trouvées de manière beaucoup plus rapide et moins coûteuse que les liens de causalité, ce qui explique qu’elles vont leur devenir préférables. Cela ne signifie pas que nous n’aurons plus besoin d’étude de causalité, mais bien souvent, la corrélation sera « assez bonne ».

TRANSFORMER EN PROFONDEUR NOTRE RAPPORT A L’INFORMATION

À bien des égards, la façon dont nous contrôlons et gérons les données devra changer. Nous entrons dans un monde de prédictions basées sur des constantes qui pourraient ne pas être en mesure d’expliquer les raisons de nos décisions. Demain, un médecin pourra décider d’une intervention médicale uniquement parce que les données le lui auront indiqué. On peut prendre l’exemple de la mastectomie préventive d’Angelina Jolie en 2013 par le professeur Picovski basée sur un diagnostic prédictif, fruit d’une corrélation entre les résultats de son séquençage ADN et le décès de sa mère portant à plus de 80% le risque de cancer du sein.

Le cas de Target, dévoilé au grand jour par le New York Times, illustre souvent cette nouvelle conception du marketing. Andrew Pole, Data Scientist recruté en 2002 par Target, a pu dans le cadre d’un groupe de travail « Big Data, big opportunities », identifier et adresser le comportement des couples « futurs parents ».

Alors que l’enseigne vend tous les produits y compris par exemple la puériculture et les jouets, la plupart des futurs parents, clients de Target, ne modifie pas leurs comportements de consommation et va acheter les produits nécessaires dans des enseignes spécialisées. L’objectif du groupe de travail a donc été d’être capable d’analyser suffisamment de données issues des programmes de fidélité afin de définir la probabilité qu’une femme soit enceinte. Les résultats sont presque effrayants (cf Bruno Teboul, l’Absolu Marketing, p 165 et suivantes, Mars 2013, Editions Kawa).

L’algorithme imaginé par Andrew Pole permet d’identifier une femme enceinte dans son troisième mois de grossesse par la simple modification de ses habitudes de consommation. Le succès de l’enseigne repose ensuite sur la capacité des marketeurs à adresser des offres personnalisées pour inciter les couples à acheter aussi chez Target les jouets ou encore toute la puériculture.

LE BUSINESS AUGMENTÉ

Là encore, nous empruntons à Bruno Teboul, l’expression de Marketing Augmenté pour Consommateur Augmenté (cf Bruno Teboul, l’Absolu Marketing, p 255, Mars 2013, Editions Kawa).

De nombreux marchés prennent aujourd’hui des décisions basées sur la donnée où l’offre et la demande se rééquilibrent en temps réel bien plus rapidement que n’est capable de le comprendre l’être humain en analysant plus de paramètres que tous les modèles passés.

Amazon est l’un des cas les plus illustres. Les applications mobiles ou le text mining permettent de collecter les prix de la concurrence afin d’ajuster en temps réel les prix proposés. Pas moins de 7 modèles de page produits différents tournent en temps réel sur le site afin de maintenir pour la plus large audience celui qui ‘performe’ le mieux. L’élasticité des prix est testée en temps réel afin d’arrêter non pas le prix le plus fort mais celui qui permettra de réaliser la plus forte marge en intégrant les coûts de recrutement au calcul. Ainsi, le prix d’un livre sera légèrement différent si vous êtes un consommateur acquis depuis Google en référencement naturel ou via un blog affilié. Plus récemment Amazon a annoncé son recul sur le front de la livraison gratuite pour tous; pourtant la livraison reste gratuite pour certains profils de consommateur. Ces informations concédées au marché pour asseoir l’avance prise ne sont certainement qu’une infime partie du modèle qui explique la réussite de cette entreprise.

Laisser un commentaire Cancel Reply

1 question déjà posée

Eric Janvier il y a 10 ans Répondre

Un article qui a la vertu de simplifier à l’extrême le monde de la data.
Bravo pour cet effort pédagogique et l’usage de références anciennes et connues.

Si je peux me permettre quelques commentaires basés sur de longues années d’expérience dans ce domaine :
* L’explication me laisse parfois un peu pantois et navré, car elle comporte vraiment beaucoup d’approximations.
* Dommage que les défis de l’extraction de connaissance et de la création d’une intelligence artificielle ne soient pas abordés, car c’est ce qui commence à faire la différence dans le secteur de la big data.

Mais je reconnais que c’est un sujet difficile et peut être suis-je trop exigeant …

Big Data : quand le marketing digital se met à l’heure de la science des corrélations