Design des algorithmes de recommandation de biens culturels

Ce groupe de travail, créé en 2021, s’intéresse au design des algorithmes de recommandation de biens culturels. L’objectif est de favoriser les échanges interdisciplinaires et intersectoriels sur la conception et la réception de dispositifs algorithmiques dans le champ des industries culturelles (audiovisuel, cinéma, musique, édition, etc.).

Cet espace de partage scientifique propose d’interroger les conditions nécessaires pour penser des dispositifs alternatifs aux modèles dominants la circulation et la marchandisation de biens symboliques. Des études empiriques ou théoriques permettront de croiser des approches en sciences de l’information et de la communication, sociologie des techniques, sciences informatiques, sciences de l’art et du design, etc.

Coordination

Samuel Gantier est maître de conférences à l’Université Polytechnique Hauts-de-France depuis 2016. Ses recherches abordent la médiation du cinéma documentaire, le design d’expérience utilisateur et l’analyse des usages dans le champ des industries culturelles (plateforme de vidéo à la demande, réalisation documentaire, web-documentaire). Ses enseignements concernent les dimensions pratiques et théoriques de l’audiovisuel et du design d’interaction. En amont de son activité d’enseignant-chercheur, il a débuté sa carrière comme monteur et réalisateur de films documentaires puis consultant en audiovisuel transmédia pendant une quinzaine d’années. Samuel Gantier coordonne ce GdT depuis sa création en 2021.

Fanny Bougenies coordonne ce GdT avec Samuel Gantier depuis 2022.

Ève Givois a coordonné ce GdT avec Samuel Gantier en 2021/22.

Activités

Séminaire Design des algorithmes de recommandation de biens culturels

Organisé depuis octobre 2021, ce séminaire interroge les trois dimensions suivantes :

  • stratégies de médiation algorithmiques déployées par les acteurs culturels face à la surabondance de l’offre de biens symboliques sur Internet ;
  • logiques, controverses et savoir-faire intervenant dans la conception de ces dispositifs socio-techniques ;
  • dynamiques d’appropriation par les usagers des plateformes et effets sur les pratiques socio-culturelles.

Il se déroule en visioconférence. La plupart des séances sont enregistrées et diffusées en ligne.

Le séminaire a été organisé en 2022/23 par Samuel Gantier et Fanny Bougenies (Université Polytechnique Hauts-de-France, laboratoire LARSH, département de recherche DeVISU).

In-former l’information. La qualification algorithmique des contenus médiatiques sur la plateforme Dailymotion

Le modèle d’affaires des plateformes numériques repose sur l’accumulation et la mise en relation des utilisateurs (producteurs, consommateurs, publicitaires) et des contenus dans leurs espaces. Elles font ainsi face à un double impératif. De nombre tout d’abord, puisqu’elles doivent agréger un maximum de productions hétérogènes, amateurs, professionnelles, visuelles, textuelles et vidéo, médiatiques, commerciales, politiques, militantes… voire illégales (pédopornographiques, terroristes, etc.). Mais aussi de précision, étant donné que la présence des acteurs dépend en partie de leur alimentation continue et affine en contenus. En ce sens, la qualification des biens par les algorithmes est aussi décisive que nécessaire pour les plateformes. En prenant comme cas d’étude l’entreprise Dailymotion et sa plateforme d’agrégation vidéo www.dailymotion.fr, nous présenterons l’infrastructure de qualification mise en place par l’organisation pour définir les sujets de ses contenus – essentiellement médiatiques – à partir des textes qui les accompagnent (titres, descriptions, tags, métadonnées). Plus précisément, nous détaillerons le fonctionnement de l’algorithme TagMe et sa place dans le réseau d’acteurs déployé. On montrera comment les choix infrastructurels de l’organisation impactent la manière dont les vidéos sont identifiées, évaluées, classées, représentées, en somme in-formées par l’ajout successif de couches de sens.

Thomas Jaffeux est doctorant au Centre d’analyse et de recherche interdisciplinaires sur les médias (Carism) à l’Université Paris Panthéon-Assas et effectue une thèse Cifre au sein de Dailymotion. Dirigée par Cécile Méadel et Guillaume Sire, elle s’intitule Gouvernementalité algorithmique : objectivation, normalisation et subjectivation des conduites sur les plateformes numériques.

Appropriation d’une recommandation expérimentale de films documentaires : le cas des usagers cinéphiles de la plateforme Tënk

Cette communication présente l’évaluation empirique d’une recommandation algorithmique de films documentaires. Afin de proposer une alternative aux recommandations fondées sur une classification thématique, le réalisateur ou la période de production, un jeu de métadonnées a été élaboré pour caractériser les spécificités des dispositifs de réalisation propre au cinéma documentaire. L’analyse de la réception auprès d’un panel d’abonnés cinéphiles de la plateforme de vidéo à la demande Tënk interroge les différentes manières dont ce public s’approprie cette recommandation inédite. L’objectif est de mieux appréhender comment les utilisateurs interprètent une proposition de documentaires jugée proche du point de vue de leur forme cinématographique. Les apports et limites de cette recommandation expérimentale seront discutés afin d’ébaucher des pistes de réflexion favorisant l’amélioration de la médiation du cinéma documentaire sur les plateformes.

Samuel Gantier est maître de conférences à l’Université Polytechnique Hauts-de-France et au laboratoire LaRSH. Ses recherches abordent la médiation du cinéma documentaire, le design d’expérience utilisateur et l’analyse des usages dans le champ des industries culturelles (plateforme de vidéo à la demande, réalisation documentaire, web-documentaire).

Enjeux de la littératie algorithmique : rendre visible l’invisible

Le but de cette communication est de présenter les enjeux définitionnels, scientifiques, conceptuels et pratiques de la littératie algorithmique. Cette littératie constitue une forme de réponse à l’opacité des traitements algorithmiques qui influent voire biaisent des chaînes de décision qui concernent les individus. Nous souhaitons retracer le contexte de cette littératie, ses origines et ses proximités avec d’autres littératies ainsi que ses relations avec des disciplines des SHS qui étudient les algorithmes et leurs effets. Nous montrerons l’intérêt de s’intéresser à des perspectives mécanologiques en revenant notamment sur les travaux de Gilbert Simondon et de Bernhard Rieder qui ouvrent des pistes qui incitent à mieux documenter les processus algorithmiques à des fins de responsabilité (accountability) et pour faciliter les démarches de retro-ingénierie et d’investigation journalistique. Nous présenterons également un outil réalisé dans le cadre du projet AlgoJ qui vise à rendre visible et intelligible les processus algorithmiques : le graphe AlgoJ basé sur le logiciel COSMA.

Olivier Le Deuff est maître de conférences en sciences de l’information et de la communication à l’Université Bordeaux Montaigne. Il travaille sur l’épistémologie de l’information et de la documentation, les humanités digitales et les littératies.

Rayya Roumanos est maîtresse de conférences en sciences de l’information et de la communication à l’Université Bordeaux Montaigne et directrice adjointe de l’Institut de Journalisme Bordeaux Aquitaine (IJBA). Elle dirige le projet AlgoJ consacré aux enjeux algorithmiques dans le journalisme.

Mesurer la découvrabilité : un enjeu industriel, identitaire et politique

La recherche portant sur la mesure de la découvrabilité des produits musicaux et audiovisuels québécois sur les plateformes transnationales a permis de conceptualiser et documenter un problème important de découvrabilité des produits culturels québecois. Si ces dernières peuvent théoriquement être des vecteurs de rayonnement culturel, notre analyse montre plutôt que, depuis 2018, les produits musicaux et audiovisuels québécois sur les GANAS (Google, Apple, Netflix, Amazon, Spotify) font face à des barrières limitant tant leur présence, que leur visibilité et leur recommandation. Notre indice de découvrabilité permet de l’affirmer sur la base d’indicateurs quantitatifs et d’une analyse qualitative des modèles d’affaires et des barrières à la découvrabilité. En l’absence de données sur la consommation en ligne, le développement d’un indice de découvrabilité est un instrument puissant pouvant avoir des retombées significatives sur l’efficacité des pratiques culturelles ainsi que des politiques et réglementations en matière de culture.

Michèle Rioux est professeure titulaire au département de Science politique de l’UQAM et directrice du Centre d’études sur l’intégration et la mondialisation (CEIM). Ses recherches portent sur l’économie politique de la mondialisation, notamment en ce qui concerne le monde du travail, Internet, le commerce, la concurrence et l’investissement international. Elle est directrice depuis 2018 du Laboratoire d’analyse des transformations des industries culturelles à l’ère du commerce électronique (Laticce) et a publié une centaine d’ouvrages, d’articles scientifiques et de chapitres de livre.

Approche ethnographique de la conception algorithmique

Avec l’explosion des discours sur l’intelligence artificielle, les SHS sont régulièrement convoquées pour poser un regard normatif sur le rôle et le sens des algorithmes. À la lumière de mon expérience professionnelle chez des éditeurs de logiciel spécialisés dans le traitement algorithmique de données massives, je propose des clés d’entrée pour les étudier et les évaluer sans convoquer une normativité éthique. À travers une approche organisationnelle, sociale et documentaire, il est en effet possible de retracer les choix de conception et l’espace de discussion dans lequel l’algorithme est posé en amont des effets sociaux qu’il peut engendrer. Cet espace peut être reconstitué par l’observation, mais également en sollicitant de la part des concepteurs d’algorithmes la formulation d’un récit explicatif retraçant le processus de conception. Tout en considérant les différentes normes épistémiques qui régissent ce processus, je propose enfin une méthode d’évaluation des algorithmes mise en œuvre dans l’entreprise où je travaille actuellement.

Églantine Schmitt est docteure en philosophie des sciences de l’Université de technologie de Compiègne depuis 2018. Sa thèse intitulée Explorer, visualiser, décider : un paradigme méthodologique pour la production de connaissances à partir des big data se base sur plusieurs années en tant qu’employée d’un éditeur de logiciel spécialisé dans le traitement de données textuelles massives. Elle est aujourd’hui directrice produit chez Citio, un éditeur de logiciel qui utilise la donnée pour améliorer les transports publics.

Algorithmes de recommandations et pratiques informationnelles : quelle place pour l’autonomie critique des usagers ?

Le projet de recherche Algopinion, mené entre 2018 et 2022, a pour objectif d’évaluer l’influence des algorithmes de recommandation sur les pratiques informationnelles de jeunes adultes (18-25 ans). À travers une double perspective d’éducation aux médias et de design, ce projet vise notamment à étudier l’influence de l’interface de ces algorithmes sur le développement d’un regard critique à l’égard des recommandations émises. Dans le cadre de cette présentation, nous reviendrons sur deux recherches qualitatives menées conjointement sur ce projet. La première est une analyse (n=13) des imaginaires implicites et des tactiques d’appropriation déployées par les utilisateurs de réseaux sociaux dans le cadre de leurs pratiques informationnelles en ligne. La seconde étude (n=23) porte quant à elle sur l’évaluation expérimentale de modalités d’interaction humain-machine capables de soutenir ces tactiques d’appropriation et de stimuler la réflexivité critique des usagers de ce type d’algorithmes. À travers la présentation des résultats de ces deux études, nous tenterons de circonscrire les principes sur lesquels pourraient reposer l’interface d’un système de recommandation attentif à l’autonomie critique de ses usagers.

Arnaud Claes est doctorant à l’Université catholique de Louvain au sein du GReMS (Groupe de recherche en médiation des savoirs). Ses recherches portent sur l’appropriation sociale des technologies (notamment les algorithmes de recommandation), l’interaction homme- machine, l’expérience utilisateur et l’éducation aux médias.

Thibault Philippette est professeur à l’École de communication de l’Université catholique de Louvain, membre du GReMS (Groupe de recherche en médiation des savoirs) et cofondateur du Louvain Game Lab. Ses domaines de recherche portent sur l’appropriation sociale des technologies, les compétences numériques et la littératie médiatique, l’étude des activités de jeu (play studies) et la place du ludique dans les formes médiatiques contemporaines (ludologie médiatique).

L’écriture guidée du code : le cas des algorithmes de recommandation

Notre contribution décrit les modes de conception des algorithmes de recommandation et vise in fine à éclairer plus largement les débats concernant leur régulation. Déployés sur des plateformes auprès d’un grand nombre d’utilisateurs, permettant ainsi une observation permanente de leur fonctionnement, nous montrons que ces algorithmes sont en effet conçus d’une manière hybride qui dépend continuellement du travail des développeurs et des actions des utilisateurs. Simplement dit, l’utilisation du guidage algorithmique guide sa propre évolution – qu’il s’agisse d’introduire de nouvelles variables, de nouveaux processus algorithmiques et, surtout, d’arbitrer entre de nombreuses variantes par le biais de tests quantifiant en temps réel les réactions des utilisateurs à l’aune d’objectifs essentiellement commerciaux. En soulignant l’importance cruciale du choix de ces métriques commerciales, une fois effectués les choix concernant l’architecture d’une plateforme donnée, nous appelons les futures recherches à formuler la question de la politique des algorithmes principalement sous l’angle de la définition de ces deux dimensions – performance des algorithmes et design des plateformes – plutôt que d’ouvrir davantage la boîte noire du code et de sa conception.

Camille Roth est chercheur au CNRS en informatique depuis 2008. Il a également été enseignant-chercheur en sociologie (professeur à Sciences Po et MCF à Toulouse-I). Il a fondé et dirige l’équipe de sciences sociales computationnelles du Centre Marc Bloch à Berlin où il encadre un groupe interdisciplinaire d’une dizaine de personnes à l’interface entre sciences sociales et modélisation mathématique et informatique.

Jérémie Poiroux est doctorant du CNRS dans l’équipe de sciences sociales computationnelles du Centre Marc Bloch à Berlin, inscrit en sociologie à l’EHESS. Il étudie la manière dont les organisations déploient des algorithmes pour recommander du contenu en ligne et prendre des décisions stratégiques.

Situations algorithmiques et controverses socio-techniques

Ma recherche de doctorat propose une contribution interdisciplinaire entre sciences du design et sciences de l’ingénieur afin d’interroger les conditions d’émergence des controverses socio-techniques. Cette communication présente le concept de « situations algorithmiques » qui vise à élargir la question du design des algorithmes en dehors du moment de leur conception. L’hypothèse centrale est que quelque soit l’effort investi pour concevoir des technologies algorithmiques, plus ou moins biaisées, l’objectif de leur optimisation constitue un problème en soi. Notre travail se focalise plus spécifiquement sur les calculs « qui ne marchent pas très bien » pour décrire les négociations socio-techniques sous-jacentes. En forme de provocation, cette communication posera la question suivante : est-il possible d’évacuer le critère d’optimisation d’un système algorithmique pour répondre aux multiples problèmes de mise en calcul des données ?

Axel Meunier est doctorant en design à Goldsmiths (UK) en partenariat avec le médialab de Sciences Po, et ingénieur d’études au Centre Internet et Société dans le cadre du projet Européen SoBigData++. Il s’intéresse à la constitution et à la participation de publics de l’Intelligence Artificielle.

Analyse du contenu audiovisuel européen et coréen mis en avant par Netflix

Le succès planétaire de Netflix peut être attribué à de multiples facteurs : qualité des programmes, positionnement marketing, viralité de l’offre, effet de conjoncture, etc. Nous étudierons un autre élément de la prédominance de cet acteur sur le marché de la VOD à travers l’étude de son système de recommandation et la manière dont il façonne la demande. En effet, le positionnement d’un titre de film sur la page d’accueil de la plateforme est un élément crucial pour augmenter sa visibilité globale sur le service. Afin d’analyser ce processus de “mise en avant” d’un contenu ad hoc, nous avons développé, un protocole d’expérimentation sur-mesure, dont nous proposons de restituer les principaux résultats consacrés aux contenus européens et coréens.

Grégoire Bideau et Steven Tallec sont chercheurs associés à la Chaire PcEn de l’Université Paris 1 Panthéon-Sorbonne. Depuis deux ans, ils travaillent à mesurer l’impact des algorithmes de recommandation sur la diversité des œuvres proposées, en particulier sur les nouveaux supports de diffusion comme Netflix et Spotify.

Le séminaire a été organisé en 2021/22 par Samuel Gantier (maître de conférences, LARSH-DeVisu, Université Polytechnique Hauts-de-France) et Ève Givois (posdoctorante, LARSH-DeVisu, Université Polytechnique Hauts-de-France).

Découverte et familiarité : deux régimes d’usages des algorithmes de recommandation musicale

Les discours publics sur les algorithmes de recommandation de biens culturels tendent à se concentrer sur les enjeux de découverte. Favorisent-ils la diversité de l’offre et des consommations ? Bénéficient-ils principalement à quelques producteurs ayant des propriétés particulières – des hommes, des stars, un genre musical particulier ? Les usagers s’intéressent-ils aux mêmes questions ? Dans la lignée de travaux antérieurs sur la plateforme Deezer, sur lesquels nous reviendrons, nous présenterons les résultats d’une enquête qualitative par entretiens (n=29) portant sur les usages de YouTube. Nous mettons en évidence deux régimes d’usages des algorithmes de recommandation musicale, un régime de découverte et un régime de familiarité. Le degré d’homogénéité des propositions qui est attendu varie fortement selon cet usage. Nous montrons que ces usages différenciés des algorithmes sont plus largement inscrits dans des configurations sociotechniques d’écoute très stables.

Discussion assurée par Samuel Gantier et Ève Givois (LARSH-DeVisu, Université Polytechnique Hauts-de-France).

Recommander autrement les films documentaires ? Bilan et perspectives du programme AlgoDoc (Algorithme de recommandation de films documentaires)

L’objectif du programme AlgoDoc (Algorithme de recommandation de films documentaires) est d’expérimenter une recommandation algorithmique basée sur une nouvelle forme de catégorisation du cinéma documentaire alternative aux métadonnées fondées principalement sur une classification thématique. Le terrain expérimental a permis de concevoir une preuve de concept qui s’appuie sur un catalogue de documentaires de création (proposé à un public cinéphile par la plateforme de vidéo à la demande Tënk) et du moteur algorithmique Rumo (mis à disposition de l’équipe de recherche par la société Spideo). Au cours de l’année 2021, un corpus d’environ 300 films a été indexé via un thésaurus créé spécifiquement pour cette étude dans l’optique de qualifier la grande variété des dispositifs de réalisation du cinéma documentaire. La pertinence de la recommandation a ensuite été évaluée par un panel d’experts du domaine et utilisateurs finaux afin d’analyser la nature des réseaux de liens sémantiques. Les résultats permettent d’ébaucher de nouvelles perspectives pour améliorer le design des algorithmes de recommandation du cinéma documentaire sur les plateformes et interroge plus largement les manières d’équiper la médiation numérique des œuvres pour les organisations disposant de larges catalogues.

Pragmatique générique : de la genration comme médiation hégémonique des contenus filmiques

À partir d’un retour théorique et épistémologique sur le concept de « genration » (soit le fait de « genrer » les contenus audiovisuels en leur octroyant un certain nombre de propriétés conçues comme intrinsèques), cette intervention propose des pistes de réflexion pour envisager d’autres modalités d’indexation des catalogues et de recommandation algorithmique des objets filmiques.

Discussion assurée par Samuel Gantier (LARSH-DeVisu, Université Polytechnique Hauts-de-France).

Web de données et musique : retour d’expérience sur le projet DOREMUS

Le projet de recherche DOREMUS (DOnnées en REutilisation pour la Musique en fonction des USages), mené de 2014 à 2018, visait à améliorer la structuration, la recherche et la diffusion de l’information musicale grâce aux technologies du web de données. Financé par l’Agence nationale de la recherche (ANR), il a réuni des partenaires d’horizons très différents : institutions culturelles (Radio France, Bibliothèque nationale de France, Philharmonie de Paris), laboratoires de recherche (LIRMM, GERiiCO, Eurecom), et entreprises privées (Ourouk, Meaning Engines).

Cette présentation reviendra sur les différentes étapes du projet (élaboration d’un modèle de données commun ; conversion, alignement et réalisation d’un entrepôt avec les jeux de données des trois institutions culturelles ; réalisation d’une étude sur les usages numériques ; création d’interfaces d’exploration des données), en mettant l’accent sur la réflexion et les développements menés autour de la recommandation musicale.

Discussion assurée par Bernard Jacquemin (Université de Lille/GERiiCO).

L’usager des plateformes : une figure de plus en plus ambiguë

L’exploitation des données d’usages et des « user generated contents » constitue un modèle économique désormais éprouvé et étudié (Dejean 2013, Chevallier 2008). Au-delà de l’économie biface qu’il magnifie, il a comme caractéristique saillante de faire de l’usager, du consommateur de la plateforme, l’unité centrale de son fonctionnement, ainsi l’utilisateur de la plateforme se trouve-t-il à la fois de plus en plus sollicité en production et de plus en plus intégré aux stratégies de développement de l’entreprise sans pour autant perdre son statut d’usager. Cependant, l’hypothèse se fait ici qu’une étape à la fois supplémentaire et disruptive serait franchie par les plateformes d’intermédiation qui 1/ ne proposent elles-mêmes aucun contenu éditorial ou culturel, 2/ s’en remettent totalement aux user generated content, user generated archive et données d’usages exploitées par des algorithmes propriétaires, 3/troisièmement avec comme objectif économique d’aller au-delà de la compilation des avis et notations. Cette hypothèse conduit au modèle hybride utilisé par SensCritique qui sera présenté.

Discussion assurée par Ève Givois (LARSH-DeVisu, Université Polytechnique Hauts-de-France).

Recommandation de produits et services culturels : modèles et enjeux

Avec l’avènement de l’Internet et la production de contenus en réseau, les données accessibles aux usagers du numérique n’ont cessé de croître de manière régulière. À partir de la décennie 2010, cette masse d’information a connu une explosion qui a changé le mode d’accès à l’information et aux contenus. En effet, la production de contenus est trop prolifique pour être suivie et présentée par les humains : la course à l’indexation ne peut être gagnée par les humains. Les données massifiées font l’objet d’un enjeu de filtrage, de tri et de personnalisation vital pour tous les pans de l’industrie. Nous sommes entrés depuis 10 ans dans le règne des algorithmes et du Big Data. La vente en ligne avec le digital marketing et la relation client sont bien sûr les secteurs les plus évidents pour les systèmes et moteurs de recommandation, mais ce ne sont pas les seuls. Les domaines de l’érudition, de la science et de la culture sont également impactés. Les librairies et bibliothèques, la SVOD, la musique en ligne, les plateformes de revues scientifiques sont tout autant de secteurs d’activité qui sont à la pointe en recherche et développement pour la personnalisation de contenus. Nous proposons ici un panorama des méthodes et enjeux techniques, financiers, légaux et éthiques qui complexifient la recommandation y compris dans les milieux culturels et GLAM (Galeries, bibliothèques, archives et musées). Une focale info documentaire sera proposée sur les techniques de médiation du Web sémantique qui offrent un contrepied aux méthodes strictement algorithmiques de filtrage, qu’elles soient sociales ou basées sur les contenus.

Discussion assurée par Éric Kergosien (Université de Lille/GERiiCO).