Projet Big Data

Commencé en 2020 au sein du groupe de travail Surveillance et manipulation des goûts et des opinions, ce projet est porté par François Rioult, professeur en informatique à l’Université de Caen Normandie, Julien Onno, docteur en sociologie de l’Université de Caen, Rania Aoun, enseignante-chercheuse à l’Université du Québec à Montréal (UQAM) et York University, et Camila Pérez Lagos, maître de conférences en sciences de l’information et de la communication à l’Institut des stratégies et techniques de communication (ISTC).

La promesse du Big Data repose sur le postulat que le traitement et l’analyse automatisés de données permettraient d’anticiper des évènements ce qui entrainerait des changements profonds en matière économique et de business intelligence. Ceci est tributaire d’un phénomène de profusion exponentiel des données qui pour Amaël Cattaruzza semble être marqué par trois lois “La loi Moore, qui prévoit un doublement sur puce de silicium tous les 18 mois, la loi de Kryder, qui suppose un doublement de la densité de stockage sur disque magnétique tous les 13 mois ; et la loi de Nielsen, qui annonce le dédoublement de la capacité des réseaux publics tous les 21 ans” (Cattaruzza, 2019 : 9). Pour sa part Charles Huot (2014) souligne que cela implique un changement de paradigme tant au niveau quantitatif (car l’échelle des volumes à traiter explose) qu’au niveau qualitatif car “on ne traite plus des données préalablement échantillonnées et structurées, mais hétérogènes et éparses, structurées et non structurées (texte, image, multimédia, traces numériques…) ; on ne traite plus les données en différé, mais en temps réel” (Huot, 2014 : 15). Dans ce contexte, plusieurs chercheur.es se sont intéressé.es à la production et l’interprétation des Big Data (Mayer-Schönberger et Cukier, 2013 ; Galinon-Mélenec et Zlitni, 2013) sans pour autant explorer le processus de collecte, traitement et utilisation des données pour des fins sociales et économiques. Si les entreprises travaillant au sein du secteur insistent régulièrement sur la dimension de rupture entrainée par la multiplication des données, ce qui relève du Big Data et du traitement des données plus classiques n’est pas toujours évident. Encore, ce qu’on comprend par Big Data ne semble pas être une évidence car bien que la définition de ce qu’est le Big Data repose sur le slogan des 3V (volume, vélocité et variété), le terme semble moins cristallisé dans le pratique et axés d’avantage sur le nombre de données recueillies (le volume) un aspect qui semble lui aussi être instable. De même, les données sur lesquelles repose le Big Data sont souvent présentées comme étant naturelles, une sorte de reflet sans distorsion des comportements des individus-utilisateurs. Or, elles ne sont jamais brutes mais soumises à un travail de construction de la part des informaticiens et informaticiennes, des développeurs et développeuses, des statisticiens et statisticiennes etc.

Le Rapport 2017 France Intelligence Artificielle témoigne de la quête française afin de devenir une référence mondiale en intelligence artificielle (IA) c’est-à-dire “parvenir à faire faire aux machines, ce que l’homme fait aujourd’hui mieux qu’elles, notamment s’adapter, apprendre, communiquer et interagir d’une manière riche et variée avec leur environnement” (Rapport 2017, France Intelligence Artificielle). Cette définition d’IA bien qu’opérationnelle semble problématique car elle masque tous les enjeux éthiques, notamment la collecte indiscriminée des données personnelles permettant de nourrir les méthodes d’IA, notamment le Deep Learning et le Machine Learning. Enfin, chercher à être une référence mondiale dans ce domaine a entrainé également une prolifération du métier de Data Scientist (Huot, 2014). Dans le cadre de ce projet nous allons interroger la distance entre les discours et les pratiques des entreprises françaises qui déclarent faire du Big Data compris comme « l’intégration des données dans les décisions » (Delors, 2015). Pour ce faire, nous allons réaliser les étapes suivantes.

ÉTAPE 1. Réalisation d’une enquête exploratoire auprès des professionnels de la data en France. Par l’analyse des discours des professionnels des données nous cherchons à explorer leurs parcours, leur environnement professionnel et leurs perceptions de la profession. Ceci permettra également d’identifier les enjeux de la récolte/collecte et le traitement des données à caractère personnel ainsi que la mise en place du Règlement général sur la protection des données (RGPD).

ÉTAPE 2. Recueil et l’analyse des sites web des entreprises qui œuvrent dans l’industrie des données. Nous allons interpréter les enjeux communicationnels des entreprises œuvrant dans l’industrie des données, plus particulièrement, des entreprises françaises qui se reconnaissent comme des entreprises spécialisées dans les données. L’analyse de leurs discours s’appuiera sur les contenus disponibles de leurs sites web pour promouvoir leurs produits et services.

ÉTAPE 3. Analyse des articles scientifiques sur le Big Data dans différents secteurs : politique, écologie, énergie, santé, publicité, culture, etc. Une révision sur la littérature sur les données permettra de constituer une encyclopédie sémantique autour de la terminologie utilisée dans l’industrie des données, afin de relever la terminologie relative à l’industrie des données pour chaque domaine.

Fernanda B. Viégas, Visualizing Activity on Wikipedia with Chromograms, 2009, œuvre disponible sur Wikipedia Commons, licence CC BY 2.0.
Références bibliographiques

Barrett, M. A., Humblet, O., Hiatt, R. A., Adler, N. E. (2013). “Big Data and Disease Prevention: From Quantified Self to Quantified Communities”. Big data, 1(3), 168-175. https://doi.org/10.1089/big.2013.0027

Bastin, G. et Tubaro, P. (2018). “Le moment big data des sciences sociales”. Revue française de sociologie, 3(3), 375-394. https://doi.org/10.3917/rfs.593.0375

Boullier, D. (2015). “Les sciences sociales face aux traces du big data. Société, opinion ou vibrations ?” Revue française de science politique, 5(5-6), 805-828. https://doi.org/10.3917/rfsp.655.0805

Broudoux É. et Chartron G. (dir.) (2015). Big data, open data : quelles valeurs ? Quels enjeux ? Actes du colloque Document numérique et société. Rabat, De Boeck.

Cattaruzza, A. (2019). Géopolitique des données numériques : Pouvoir et conflits à l’heure du Big Data. Paris, Le Cavalier Bleu.

Galinon-Mélenec, B. et Zlitni, S. (2013). L’Homme trace, producteur de traces numériques. Traces numériques de la production à l’interprétation. Paris, CNRS Éditions.

Huot, C. (2014). “Chapitre 1. Le Big Data, si nous en parlions : Étudier les modèles techniques et économiques en place et découvrir la démarche à adopter pour réussir un projet Big Data au sein de votre organisation”. In L. Calderan, P. Laurent, H. Lowinger et J. Millet (dir.), Big Data. Nouvelles partitions de l’information. Actes du séminaire IST Inria, octobre 2014. Louvain-la-Neuve, Belgique : De Boeck Supérieur. p. 9-30

Lycett, M. (2013). “Datafication: Making sense of (big) data in a complex world”, European Journal of Information Systems, 22(4), p. 381-386.

Mayer-Schönberger, V., Cukier, K. (2013). Big data. A revolution that will transform how we live, work, and think. New York : Houghton Mifflin Harcourt.

Menger, P., Paye, S. (dir.) (2017). Big data et traçabilité numérique. Les sciences sociales face à la quantification massive des individus. Paris, Collège de France.

Mondoux A. et Ménard M. (dir.) (2018). Big data et société. Industrialisation des médiations symboliques. Québec, Presses de l’Université du Québec, coll. “Communication”.

Neff G. (2013). “Why Big Data Won’t Cure Us”. Big data, 1(3), 117-123. https://doi.org/10.1089/big.2013.0029

Ollion, É. (2015). “L’abondance et ses revers. Big data, open data et recherches sur les questions sociales”. Informations sociales, 5(5), 70-79. https://doi.org/10.3917/inso.191.0070

Plantin, J-C. et Russo F. (2016). “D’abord les données, ensuite la méthode ? Big data et déterminisme en sciences sociales”. Socio. La nouvelle revue des sciences sociales, no 6, 10 mai 2016, 97-115.

Puschmann C., Burgess, J. (2014). “Metaphors of Big Data”. International Journal of Communication, 8, 1690-1709.

Sadin, E. (2015). La vie algorithmique. Critique de la raison numérique. Paris, L’échappée.

Suciu D. (2013). “Big Data Begets Big Database Theory”. In Gottlob G., Grasso G., Olteanu D., Schallhart C. (eds), Big Data. BNCOD 2013. Lecture Notes in Computer Science, vol. 7968. Springer, Berlin, Heidelberg. https://doi.org/10.1007/978-3-642-39467-6_1

S. Yu, M. Liu, W. Dou, X. Liu and S. Zhou. (2017) “Networking for Big Data : A Survey”. IEEE Communications Surveys & Tutorials, 19(1), 531-549, Firstquarter 2017, https://doi.org/10.1109/COMST.2016.2610963