King, G. (2011) âEnsuring the Data-Rich Future of the Social Sciences.â Science 331, 719-721.
Résumé de l'article
Cet article très court (2 pages) traite de l'impact de la révolution sur le domaine des sciences sociales de l'abondance de données et d'informations qu'il est désormais possible de collecter via internet et les nouvelles technologies. L'auteur compare cette révolution à l'arrivée du microscope en biologie ; les chercheurs en sciences sociales ont désormais accès à une nouvelle masse d'information énorme permettant peut être d'expliquer de nombreux phénomènes intraitables et/ou inexplicables auparavant.
Des exemples sont donnés, par exemple en ce qui concerne la possibilité, plutôt que de faire un classique sondage d'opinion, de collecter une centaine de millions de posts, tweets et autres par jour et d'analyser le tout via un algorithme d'analyse de texte pour extraire une information en quasi-temps réel de l'opinion.
Cependant, et comme c'est le cas avec la plupart des révolutions, ce changement au niveau de la puissance de collecte et d'analyse des données pose différents problèmes. Tout d'abord, ces informations ont une telle valeur potentielle commerciale qu'il est possible que les entités pouvant donner accès à ces informations (Google, Twitter, opérateurs téléphoniques, créateur de jeux online, réseaux sociaux...) n'acceptent pas de laisser les chercheurs accéder à ces données "pour la beauté de la science".
De plus, se pose la question du respect de la vie privée et de la publication de données sensibles. Par exemple, simplement avec la date de naissance, le code postal et le sexe, il est possible d'identifier 87% de la population aux USA (difficulté d'anonymiser totalement les données sans détruire des variables qui peuvent être utiles). Il est en cependant impossible de demander à ce que les données d'une recherche soient détruites après publication, tout simplement car cela empêcherait la réplication des études et augmenterait le risque de publications frauduleuses basées sur de fausses données. L'auteur explique d'ailleurs qu'il est très important que les journaux académiques exigent que les auteurs dont les études sont publiées rendent public leurs datasets.
Il existe tout de même des possibilités permettant de respecter la vie privée tout en favorisant le partage de données entre chercheurs. La mise en place de ce type de procédure (format standard, sécurisation des informations, coopération interdisciplinaire) requiert de nombreux changements, mais semble indispensable pour que cette révolution du big-data soit gérée correctement par le monde académique et scientifique.
Points intéressants
(1) La revue "Science" est l'une des revues académiques les plus côtés ; dans son domaine au même niveau que Econometrica ou The Journal of Finance.
(2) Les auteurs soulignent le fait que la recherche en sciences sociales devient de plus en plus interdisciplinaire. Bien évidemment possibilité de relier le coté "Computational Social Science" avec la finance de marché.