Bannière du site LexArt
Réflexions, Recherche, Ressources en ligne

LexArt – Words for Art : quelques mots à propos d’un projet… à propos de mots

Le mercredi 21 mars 2018 se tenait à l’INHA (Institut national d’histoire de l’art, 2 rue Vivienne) une conférence de présentation du projet LexArt – Words for Art. 1600-1750. The Rise of a Terminology. Nous y étions, et c’est l’occasion de faire le point sur un projet à grande échelle puisqu’ayant reçu un financement de l’ERC (European Research Council). Ce dernier tend à affecter, sur une durée plus importante, des sommes plus élevées que l’ANR (Agence nationale de la recherche), et les accompagne de conditions particulières, notamment l’ouverture des données produites.

La soirée s’est déroulée en trois grands temps : une longue introduction en forme de bilan, une description plus concrète de l’objet numérique produit, et une séance de questions. On pourra regretter le manque de calibrage, qui a conduit la soirée à se terminer bien plus tard que prévu, après une séance de questions très intéressante cependant.

Bannière du site LexArt
Bannière du site LexArt – Words for Art – The Rise of a Terminology – 1600-1750.

(Et, bien évidemment, le présent billet reflète ma compréhension de ce qui nous a été présenté, les approximations sont miennes et mes opinions n’engagent que leur auteur.)

Synthèse du projet

Un écosystème des notions

Le projet LexArt s’appuie sur un corpus de citations choisies par les chercheurs dans un ensemble de publications sur l’art parues entre 1600 et 1750 en Europe du nord. Par l’étude de ces citations et leur comparaison, l’objectif est d’étudier l’apparition ou les glissements de sens de mots dédiés à la description de l’art, dans une production de textes à l’époque foisonnante. Il faut alors replacer le terme dans le contexte des sources, voir comment il est traduit, l’étudier quand il est employé par les théoriciens ou par les artistes eux-mêmes, et observer sa diffusion en Europe parmi les amateurs et connaisseurs.

Trois publications, trois formats : libre accès en ligne, imprimé et objet numérique

Le résultat se doit alors d’éviter le piège des définitions univoques et d’essayer de montrer, sous l’apparence d’une langue commune à l’élite cultivée du temps, une riche polysémie et la réelle diversité des pratiques. Il se présente, en ce qui concerne les livrables, sous la forme de trois objets : des actes de colloque, un dictionnaire des termes étudiés, et un objet numérique.

Les actes du colloque rassemblent les communications effectuées lors de deux sessions, à Montpellier du 15 au 17 juin 2016 et à Paris le 25 janvier 2017. Ils sont publiés par les Presses Universitaires de la Méditerranée (PULM) sur la plateforme Oapen, une bibliothèque en ligne de publications académiques, peer-reviewed et en open access (pardon, évaluées par des pairs et en accès libre), dans le domaine des humanités et des sciences sociales. L’usage de cette plateforme, et de ce mode de publication en général, est l’un des points sur lesquels insistent particulièrement les consignes de dépôt d’une demande de financement ERC. L’objet est bien sûr d’assurer la plus grande diffusion et réutilisation des résultats produits dans le cadre des projets sélectionnés, mais il implique parfois de convertir son éditeur à une pratique qui lui est inhabituelle. On peut ici saluer (ce qu’a fait l’oratrice) les PULM pour avoir accepté l’expérience.

La seconde publication, qui prendra la même forme ainsi que celle d’un ouvrage imprimé, est un dictionnaire des « mots de la peinture ». Il se présentera sous la forme de soixante-dix-sept notices reprenant deux cent cinquante notions-clés, au moyen d’essais confrontant des termes différents. Il s’agit donc d’un outil complémentaire à la base de données, et dans lequel les essais sont assortis d’un appareil critique complet.

Enfin, la base de données LexArt, ou plus exactement l’outil numérique s’appuyant sur cette base de données, représente bien évidemment l’un des résultats importants et concrets du projet.

Deux exemples de résultats

Un certain nombre de questions sont apparues au fil de l’eau, et la porteuse du projet Michèle-Caroline Helck a choisi d’en mettre deux particulièrement en valeur : d’une part, la question du réel impact de l’écrit sur la pratique artistique, et d’autre part celle de l’émergence d’un « œil du peintre » et d’un « œil du spectateur ». Pour résumer très, très rapidement, les conclusions du projet font apparaître un appareil critique synchrone avec les œuvres, car il crée un « comment regarder » plutôt qu’une théorie de l’art, tandis que les mots sont utilisés à la fois pour décrire comment créer un effet particulier chez le spectateur, mais aussi comment celui-ci doit remplir son rôle : c’est le period eye baxandallien à l’œuvre.

Vous avez du mal à ce stade ? Je ne vous cacherai pas que nous aussi : démarrer cette séance, en fin de journée et le ventre creux, par une longue – ici dramatiquement sabrée – introduction sur les résultats, et ce avant d’avoir montré le moindre exemple, n’était pas un choix très heureux. Néanmoins, les choses se sont arrangées par la suite.

Intentions de l’outil numérique

Objectifs

La base de données qui a servi de support à l’outil de visualisation a été conçue comme un « outil conceptuel » qui devait rassembler les citations extraites de soixante-dix-neuf ouvrages, leurs traductions le cas échéant, l’appareil critique, la bibliographie et des renvois entre citations. Le fait de travailler uniquement sur des extraits aurait pu poser problème à terme, mais la bibliothèque de l’INHA, Gallica, le Getty Center et plusieurs bibliothèques universitaires européennes (Heidelberg, Berlin, Leyde, Amsterdam, Utrecht…) ont fourni des fichiers PDF des textes, qui ont pu être intégrés à l’outil pour permettre la remise en contexte des citations.

Enfin, l’outil devait permettre la visualisation des champs lexicaux, avec synonymes, antonymes et citations concernées, les champs linguistiques grâce aux traductions, et les « champs conceptuels ». Il devait permettre à la fois de visualiser les résultats et de faire émerger de nouvelles questions (ce qui est toujours un bon argument de vente pour un projet de recherche à l’ère numérique).

Le partenariat avec Trèves

Le projet a été accompagné, un peu après son lancement semble-t-il, par le Center for Digital Humanities de l’université de Trèves. Ce dernier a fourni un accès à un espace de travail collaboratif en ligne, le FuD, et développé l’outil de saisie en base (le back-end sur lequel les chercheurs ont travaillé) et de visualisation des données (le front-end qui permettra au public d’accéder aux résultats). En attendant, le FuD leur a permis de travailler ensemble à éditer et annoter les extraits de manière collaborative dans un espace de travail partagé.

Logo du FuD
Logo du FuD (environnement de travail virtuel proposé par le Center for Digital Humanities de Trèves) : inventorier – analyser – rédiger – publier – archiver les données de la recherche.

Le corpus

Michèle-Caroline Helck insiste là-dessus : la base de données ne peut en aucun cas être utilisée pour faire des statistiques comme par exemple des recherches par occurrence. Son contenu est défini lors du projet par le choix des chercheurs qui sélectionnent les citations jugées les plus pertinentes et non pas la totalité des occurrences d’un terme dans un ouvrage. Par ailleurs, certaines citations, liées à plusieurs notions, seraient dupliquées, ce qui fausserait une recherche statistique (ce point nous a vraiment posé problème : l’idée d’une base de données, en tout cas d’une base de données relationnelles, est avant tout d’éviter la duplication de l’information en pointant vers elle plutôt qu’en la copiant… cette remarque nous a donc paru très étrange).

L’outil numérique en lui-même

Les grandes composantes

Le travail effectué tient en trois grands chantiers, que résume Claudine Moulin :

  • Un backend pour permettre de travailler sur les données, en ayant réfléchi au workflow management, c’est-à-dire la vie de ces données : qui les saisit où, qui les valide, qui les modifie, quand sont-elles « prêtes », en s’appuyant sur les chercheurs qui travaillent sur le corpus. C’est à cette étape que se constitue le modèle de données, c’est-à-dire la façon dont la base de données est organisée et comment on y « range » les informations pour répondre au mieux au besoin, et la liste des métadonnées, c’est-à-dire les informations complémentaires qui décrivent les données. Il semble que, pour cette étape, le FuD permette d’utiliser des masques pour la saisie de données, adaptables à différents types de contenu.
  • Un frontend consistant en une interface graphique qui permettra d’afficher les données sur Internet de manière claire et navigable. Cela implique une réflexion sur l’ergonomie : qu’est-ce que le visiteur va chercher à effectuer comme recherches et comment lui en donner les moyens, quels boutons, quels champs de recherche, etc. Et, d’un point de vue technique, également une réflexion sur la connexion avec le backend : quelles interfaces entre les deux parties de l’application pour échanger les données.
  • Enfin, un archivage à long terme avec la sélection et l’adaptation d’un format XML pour enregistrer les données, et des interfaces permettant de les exporter. Cette partie s’est faite en collaboration avec la TGIR (très grande infrastructure de recherche) HumaNum.

(Et, pour les gens qui envisagent d’utiliser les solutions clés en mains proposées en France par HumaNum, on pourrait dire que, dans la suite Nakalona, le backend ainsi décrit correspond à Nakala, l’entrepôt de données, et à ShareDocs, l’espace de travail collaboratif, et le frontend est l’équivalent de la présentation sous Omeka, sauf que dans le cadre de LexArt une solution ad hoc a été développée.)

On notera des mots-clés intéressants qui arrivent à ce stade de la présentation, en particulier l’idée d’une « approche générique » pour une possible utilisation ultérieure des données, et l’idée de chercher à ouvrir l’ensemble pour éviter les « systèmes insulaires » et parce que, comme le dit Claudine Moulin, « on n’a l’argent qu’une fois » (et c’est le drame de nombre de projets qui ne pensent pas à « l’après »).

Méthodologie et résultats

Au sein de l’équipe, c’est Flore César, l’oratrice suivante, qui a joué le rôle d’interface entre les chercheurs et l’équipe technique pour traduire sous la forme d’une base de données le modèle de travail. Elle a également traité, et d’autres participants à la conférence également (Marianne Freyssinet, Aude Prigot, Pierrick Grimaud), une partie du corpus.

Ce dernier est homogène dans sa nature (les textes à propos d’art) mais en apparence seulement. Plusieurs langues, de la prose, des vers, des dialogues, des traductions, des éditions bilingues, des livres qui sont eux-mêmes déjà des dictionnaires, l’usage de signes dans le texte (un markup language avant l’heure ?) pour signaler un concept, les notes en marge… Ce qui a pris le plus de temps est probablement la constitution de la grille d’analyse qui allait servir à la modélisation.

À l’arrivée sont constitués :

  • un « réseau lexical » montrant la variabilité des termes ;
  • un « réseau linguistique » montrant les transferts et circulations des concepts dans l’espace, avec des comparaisons entre textes ;
  • un « réseau conceptuel montrant la polysémie des termes.

Ces réseaux peuvent traverser les types de personnes : un auteur peut parler d’un concept et l’associer à un ou des artistes cités en exemple, qui peuvent eux-mêmes avoir écrit sur le sujet, et ainsi de suite.

L’interface publique

Nous n’avons pas encore pu voir en ligne le site qui nous a été présenté. Il le sera probablement à la publication de l’article : allez cliquer partout ! La charte graphique est celle du site de présentation du projet, de même que la présentation en colonnes. Sur l’interface du corpus, les concepts s’affichent en colonnes par langues (français, allemand, anglais, néerlandais) et tout ce qui pourrait faire l’objet d’une interrogation du visiteur semble cliquable. On peut ainsi naviguer de concept en concept, visualiser les synonymes, les antonymes, cliquer sur une traduction et afficher, à chaque fois, les extraits correspondants. Chaque commentaire est signé de son auteur.

Détail du site LexArt
Design du site LexArt – Words for Art – The Rise of a Terminology – 1600-1750.

L’ergonomie est pensée pour ne pas dérouter le visiteur, par exemple l’affichage d’une liste de sources textuelles rappelle fortement celui de Gallica. Les ouvrages ont leur page de synthèse, les auteurs une page de présentation. La désambiguïsation des termes, utilisés dans des sens différents par les auteurs, est également proposée via la hiérarchie des champs conceptuels : que « peinture » désigne la technique ou le résultat, il ne se trouvera pas dans le même réseau de mots. Et, si l’auteur change d’avis, on peut confronter les citations de différentes époques de sa carrière.

Au total, ce sont environ cinq cent quatre-vingt-dix personnes et quatre mille termes identifiés, avec en outre deux cent fiches présentant des contenus visuels supplémentaires à ceux déjà présents dans les sources (ajout de portraits d’artistes, de reproductions de tableaux). Lorsque la chose était possible, les individus sont rattachés à leur identifiant ULAN (Union List of Artist Names ®, le thésaurus dédié du Getty), ce qui est un comportement vertueux si on veut inscrire un projet aujourd’hui dans le système des données connectées : toute ambiguïté (orthographe, homonymie) est levée, on sait qu’on parle de la même personne.

L’ensemble est libre accès / open access, mais actuellement non moissonnable. Le modèle choisi est actuellement en cours de réflexion, et si la chose n’est actuellement pas possible il est prévu de présenter l’ensemble du corpus dans un entrepôt compatible OAI-PMH (protocole standardisé de mise à disposition des métadonnées).

Questions ouvertes

On regrettera de ne pas avoir entendu Radoslav Petkov, responsable de la réalisation technique de la base de données et du site, de même qu’on déplore l’absence, pour le moment, d’informations sur cette réalisation. Comme souvent, l’aspect purement technique est relégué à la fin de la présentation et c’est celui qui saute quand on n’a plus le temps. Il est à souhaiter que l’outil numérique, lorsqu’il sera mis à disposition du public, disposera d’une page « à propos » qui permette d’en savoir plus sur les choix techniques effectués (on pense, par exemple, à l’excellent About this edition du projet Van Gogh Letters). C’est ce type d’information qui contribue à dissiper l’effet « baguette magique » regretté par Claudine Moulin à propos de la manière de présenter les humanités numériques parfois. À titre personnel, j’aurais aimé savoir quels moteurs de base de données avaient été utilisés, pourquoi on n’a pas entendu parler d’OCR (reconnaissance automatisée de caractères), et pourquoi on a choisi d’extraire des citations plutôt que d’insérer des balises dans les textes intégraux pour y signaler les citations.

La question de la double publication, en ligne et imprimée, est souvent abordée à l’ère des humanités numériques. Ici, le dictionnaire imprimé faisait partie du contrat établi pour le financement par l’ERC et faisait donc figure de livrable, donc la question ne se posait pas : il fallait le livrer. De plus, et même avec l’appui de structures comme Huma-Num, il faut reconnaître que l’avenir de la donnée numérique est incertain et a un petit côté « tout ou rien », quand un vieux livre abîmé reste lisible et demande une faible maintenance. On peut répondre, dans un accès de romantisme échevelé, que l’information survivra à son auteur, disséminée et répliquée dans les limbes des données interconnectées et du web sémantique, mais force m’est d’admettre que je n’ai pas de vraiment bonne réponse à fournir aux tenants du papier. Et vous ?

Enfin, j’aimerais profiter de l’occasion pour reparler de l’intervention de Claudine Moulin, directrice du Center for Digital Humanities de Trèves : c’était un réel plaisir de l’entendre parler, tenant un discours d’une clarté exemplaire, rayonnant d’une maîtrise totale de son sujet et, naturellement et l’air de rien, sans aucune des approximations que l’on entend trop souvent si l’on s’intéresse aux humanités numériques 1. On sort de là en se disant qu’on aimerait bien pouvoir parler comme cela un jour.

Le contraste était amusant, car quelques minutes auparavant, Michèle-Caroline Heck avait rendu hommage à Flore César en remarquant que sa présence avait été une chance, parce qu’il est « rare qu’un historien de l’art soit aussi doué avec l’informatique »… Peut-être est-il temps de cesser de faire passer la compréhension technique pour un don qu’on a ou qu’on n’a pas. Cessons de faire passer les intervenants en humanités curieux de nouvelles technologies pour des licornes.

En tenant ce discours, on efface en effet d’une phrase les formations ouvertes ces dernières décennies dans de nombreuses universités et écoles, ainsi que les initiatives institutionnelles qui, pour certaines d’entre elles comme Trèves (1998), remontent à plus longtemps encore et faisaient des humanités numériques before it was cool. Malgré ses bonnes intentions, cette expression appartient au passé et continue d’entretenir l’idée que les humanités numériques sont une anomalie dans l’histoire de l’art en tant que discipline.

Informations

Les intervenants de cette présentation

Michèle-Caroline Heck, porteur du projet, professeur d’histoire de l’art moderne, université Paul-Valéry Montpellier 3.

Claudine Moulin, responsable du Centre pour les humanités numériques de Trèves (Trier Center for Digital Humanities ou Kompetenzzentrum für elektronische Erschließungs- und Publikationsverfahren in den Geisteswissenschaften an der Uni Trier).

Flore César, Marianne Freyssinet, Pierrick Grimaud (travail collaboratif sur le corpus).

Radoslav Petkov (réalisation technique).

Liste des liens cités

(dernière consultation le 30/03/2018)

Concernant le projet :

Concernant le financement de la recherche :

Humanités numériques et ressources numériques :

Définitions :

(1) Notamment la conception souvent vague de ce qu’est une base de données informatisée. Ce qui engendre souvent des descriptions évasives, et surtout des confusions entre le contenu – les données – et leur interface de présentation (« regardez ma base de données, elle est pratique parce qu’il y a une loupe pour faire une recherche ») retour au texte.