Imaginez que vous soyez capables d'analyser, en quasi-temps réel, les émotions des individus, afin de dégager une tendance générale du type "tout va bien" ou "ahhhh c'est la crise", voire même d'estimer les variations de bonheur, d'anxiété ou d'énergie de la population d'un pays ! En plus de faire le malin avec ces données, vous allez pouvoir essayer de prévoir les évolutions futures des cours boursiers. En effet, si vous arrivez à identifier, qu'à un instant t, les individus ont un regain d'optimisme et que votre graphique concernant la variable "bonheur" monte en flèche, alors il y a une forte chance pour que la bourse augmente le jour suivant (si vous êtes le seul à avoir cette information et donc que l'information n'est pas encore intégrée dans les cours boursiers). Vous achetez alors des actions, et attendez bien sagement avec des pop-corn dans votre canap' que les émotions positives des agents se traduisent par des investissements sur le marché action, et vous revendez tout cela après une période donnée (24h / 48h) et bingo !
Mais pour faire cela, il faut tout d'abord répondre à deux questions cruciales : (1) comment est-il possible de quantifier les émotions des gens et (2) existe t-il un lien entre vos variables "émotions" ainsi créées et les variations des cours d'un indice boursier (CAC40, Dow Jones....). Et bien les réponses à ces deux questions sont apportées par une étude parue en 2011 dans le Journal of Computational Science et réalisée par trois chercheurs en informatique "Twitter mood predicts the stock market" (J. Bollen, H. Mao, X. Zeng - 2011).
Mais comment savoir ce que pensent les gens ? Pour cela, internet est une source d'information incroyable, et encore très peu exploitée. Vous connaissez peut-être "Google Flu Trends", un algorithme mis au point par Google utilisant les requêtes faites sur le moteur de recherche pour identifier les zones de propagation de la grippe aviaire dans le monde. Le principe est finalement tout simple : Google géolocalise et retient toutes les requêtes de recherche faites par les internautes en rapport avec la grippe aviaire, et s'il existe de très nombreuses requêtes ou des pics de recherche dans certaines zones du globe, alors il y a une probabilité importante pour que le virus soit actuellement en train de se propager dans cette région. Ce type d'analyse peut permettre d'identifier les zones à risques bien avant que l'information officielle (nombre de cas dans les hôpitaux, nombre de morts de la maladie) ne soient disponibles (voir aussi "Predicting the Present with Google Trends"). Sans faire de prévision, l'utilisation des requêtes Google peut permettre de mieux "comprendre le présent" et de supprimer le décalage dû au temps des collectes des données officielles et d'analyse. Ceci peut-être appliqué aux maladies, mais aussi par exemple aux indices de confiance ou de consommation des ménages.
En ce qui concerne le cas des marchés boursiers, si vous êtes capables d'avoir une information qui n'est pas encore intégrée dans les prix en compilant un grand nombre de recherche Google, de commentaires sur des blogs ou de tweet sur un sujet, alors vous devriez pouvoir en tirer profit. Mais sur les marchés, il ne suffit pas de savoir que l'on parle de quelque chose, il faut pouvoir identifier si l'on parle de cette chose en bien (probabilité de hausse des cours) ou en mal (risque de baisse).
Pour cela, il faut être capable d'analyser avec un algorithme l'émotion contenue dans une recherche Google, dans un commentaire ou dans un tweet ! Mission impossible ? Et bien non ! "OpinionFinder", par exemple, permet de transformer une phrase, une requête, un tweet ou un commentaire en un chiffre : +1 si l'opinin est positive ou -1 en cas d'opinion négative. Un autre algorithme, "Google-Profile of Mood States" (G-POMS), offre quant à lui la possiblité d'identifier l'humeur d'une phrase selon six dimensions : (1) calme (2) alerte (3) serénité (4) vital (5) sympathie et (6) joie. Pour plus d'infos, le Captain' vous conseille de lire "OpinionFinder: A system for subjectivity analysis"
"OpinionFinder is a system that processes documents and automatically identifies subjective sentences as well as various aspects of subjectivity within sentences, including agents who are sources of opinion, direct subjective expressions and speech events, and sentiment expressions. OpinionFinder was developed by researchers at the University of Pittsburgh, Cornell University, and the University of Utah."
Reste maintenant à obtenir une belle base de données à analyser. Sur la période de février 2008 à décembre 2008, les auteurs ont extrait via Twitter un tout petit peu moins de 10 millions de tweet, puis on lancé "Opinion Finder" et "Google-Profile of Mood States" pour obtenir des données journalières concernant l'humeur des utilisateurs de Twitter, pour ensuite voir s'il existe un lien avec les variations journalières du Dow Jones (indice boursier US). Un beau graphique résume tout cela :
Et alors, ça marche ou pas cette méthode Captain' ? Selon les auteurs, l'ajout de Twitter et l'utilisation de la dimension "calme" issue du G-POMS permet d'améliorer significativement la prévision ex-post ; le "niveau de calme" des six derniers jours ayant un lien de causalité avec les variations du Dow Jones de la journée. D'un point de vue économétrique, cela signifie donc que les coefficients des variables retardées "calme" sont significatifs (ici avec un seuil de confiance de 95%, le t-stat étant supérieur à 1,96 en valeur absolue pour les chiffres en gras avec deux étoiles ci-dessous).
Un fonds d'investissement londonien, Derwent Capital, a d'ailleurs utilisé une stratégie basée sur l'analyse de Tweet, "officiellement" avec succès au départ ("Last tweet for Derwentâ€s Absolute Return" - Financial Times), pour être finalement revendu en février dernier pour une bouchée de pain (186.000 dollars au lieu des 5 millions espérés - "DCM Capital Sold for Peanuts") !
"DCM Capital uses a proprietary algorithm to research the public sentiment of stock, primarily through Twitter, to attempt to predict the movements of the Dow Jones Industrial Average. The "Twitter Fund"â€formally, The Derwent Absolute Return Fundâ€was launched in July 2011, but failed to survive the summer, despite posting initial returns."
Attention cependant à ne pas trop s'emballer avec ce genre d'études ! Il existe selon les auteurs un lien de causalité ex-post sur la période considérée, mais cela ne signifie pas pour autant qu'une stratégie de trading basée sur l'information contenue dans les tweets fonctionnent réellement dans le futur (en prévision out-of-sample et en prenant en compte les frais de transactions par exemple).
Conclusion : Il y a, et ce n'est que mon humble avis, un potentiel énorme à l'utilisation de nouvelles sources d'informations (Twitter, Google...) pour mieux comprendre certains processus en économie ou en finance via des processus d'agrégation de l'information ultra-rapides et peu coûteux ! Concernant la prévision pure des cours boursiers, je suis cependant un peu plus sceptique ; c'est intéressant de savoir que Michel dans la Creuse ait tweeté "ah je me sens bien aujourd'hui" (+1 dans l'algo) ou bien que Jacqueline de Mont-de Marsan pense "marre de ce temps de chien, vivement les vacances" (-1 dans l'algo), mais ce ne sont pas vraiment les investisseurs individuels qui font bouger les cours journaliers des valeurs boursières. Si vous ne suivez pas encore le Captain' sur Twitter, vous pouvez vous abonner en cliquant sur le bouton ci-dessous.