Converted from a Word document
Cet exposé a pour vocation de présenter un projet en cours qui associe les méthodes traditionnelles des sciences humaines (philologie, histoire et histoire des idées) aux approches computationnelles et statistiques. La création et la mise en place du logiciel d’analyse textuelle MACHIATO (Lasson et Manchio, 2015) constitue le point de convergence de deux perspectives de recherche initialement séparées, celle d’un chercheur en informatique spécialiste de la formalisation mathématique et d’une doctorante en études italiennes, travaillant sur la correspondance diplomatique et administrative de Machiavel (
Legazioni e Commissarie, Scritti di governo, 2002-2012). La mise en place du site internet relève donc en premier lieu d’une coopération, terme central pour tout chercheur en sciences humaines et sociales qui entreprend de se lancer dans un projet relevant des humanités numériques. En effet, la rencontre entre des champs disciplinaires, implique un constant pour créer un langage commun pour appréhender les textes, pour identifier le type de questionnements qu’il est possible de soumettre aux machines et pour dégager les potentialités et les limites de certaines procédures d’automatisation.
Nous avons suivi un cheminement complexe depuis la philologie traditionnelle, entendue comme combinaison de critique littéraire, historique et linguistique ou comme pratique d’établissement de texte à partir de sources différentes jusqu’à la philologie dite numérique. L’école qui a le plus influencé nos travaux est celle de Jean-Claude Zancarini et Jean-Louis Fournel et leur approche de ce qu'ils appellent « philologie politique ». Ils se sont attachés à historiciser la pensée de Machiavel, et plus généralement cette génération de la guerre, à travers une analyse minutieuse de son usage des mots dans le cadre de la traduction des textes politiques majeurs de la période des guerres d'Italie. Or, le fait de revenir à chaque usage pour parvenir à une élucidation sémantique est d’autant plus ardu que le corpus est important : pour exploiter nos 2214 lettres, nous avons donc rapidement pensé à croiser notre méthode initiale avec les potentialités des méthodes computationnelles et statistiques, qui nous ont ainsi permis de multiplier les points de vue sur le texte (diachronique, synchronique), de modifier l’unité de base de l’analyse (lemme, champ lexical, champ sémantique) et dégager les tendances générales du corpus et les spécificités de sous-corpus. De telles possibilités modifient inévitablement le rapport aux textes du chercheur en SHS qui ne peut parvenir à l’interprétation des résultats qu’à condition d’en comprendre le sens et les enjeux et donc, de suivre une formation (notamment en statistique et en visualisation de données).
Le logiciel est commandé par une interface Web qui confère à l'utilisateur un accès facile aux ressources du programme avec son navigateur. Les analyses et les pré-calculs statistiques sont faits par un back-end mis en œuvre avec le langage de programmation Python dont le rôle est d'initialiser la base de données. Nous utilisons le Framework
open-source Django pour générer du contenu HTML. Enfin, nous utilisons le langage de programmation Javascript pour afficher les données et les résultats côté utilisateur. Le corpus a tout d’abord été normalisé : différents types d’entrée permettent de le découper en fonction de nos besoins. L’index des lettres permet d’accéder à chaque missive en obtenant les indications de base sur chacune d’elles ; l’index des occurrences donne accès à chacune des 25 007 formes, permettant de cibler des graphies particulières, des noms propres ou des hapax) ; l’index des 6399 familles de mots (qui rassemble toutes les flexions d’un vocable, très nombreuses pour certains verbes du fait de leur emploi et de l’instabilité graphique très forte) consent de mesurer le poids d’un champ lexical. En outre, à chaque missive ont été associés son destinataire, sa date et son lieu de rédaction. Ce
tagging préliminaires nous a ensuite donné la possibilité de formuler de nouvelles questions plus complexes et de croiser différentes variables (à titre d’exemple, quel terme est le plus employé lorsque Machiavel se trouve en mission auprès du roi Louis XII ?).
Nous avons repris une large part des outils proposés dans les logiciels d’analyse textuelle existants et utilisés par les linguistes à l’instar des concordances, particulièrement utiles pour dégager rapidement les nombreux homographes de notre corpus, et des cooccurrences indispensables pour repérer les cas de polysémie, voire de double isotopie typiques de la langue machiavélienne. Nous avons en outre emprunté un modèle d’analyse des cooccurrences multiples (Heiden, 2004) et les principes de mesure et de comparaison développés en statistique textuelle par Lebart et Salem. Les différents types de calcul permettent de décrire de façon toujours plus précise non seulement la nature des usages, mais aussi leur poids et les relations qui les lient les unités du texte entre elles. Nous utilisons trois types de calcul : les fréquences, l’indice de dispersion et l’indice de spécificité qui ont en outre permis de dépasser certains reproches récurrents faits aux méthodes computationnelles (dont celui de ne considérer la langue comme un ensemble d’unités abstraites, sans lien et décontextualisées). Nous avons fait le choix de limiter les types de visualisation pour des raisons de cohérence, de temps et de compétence. Nous proposons d’en donner quelques exemples tels que l’histogramme de répartition des fréquences, celui des graphies, les structures arborescentes (permettant de représenter tous les environnements immédiats en une image) et les histogrammes interactifs représentant la chronologie des missives. Toutes les visualisations de données sont exportables : nous utilisons Excel pour les tables, ainsi que le format SVG pour les données graphiques. Les critères de recherches avancées (permettent d’effectuer des recherches complexes en fonction du nombre d’occurrences ou/et de la fréquence et/ou des indices de répartition et de dispersion). À partir de l’index des lettres, il est aussi possible de questionner un sous-corpus particulier en vertu de critères variés tels que les bornes chronologiques ou la nature des missives (lieu de rédaction). Il est aussi possible de sélectionner un sous-corpus spécifiques et de procéder à une recherche précise en activant (ou non) les filtres sur les occurrences suivants : taille, nombre d’occurrences dans le sous-corpus interrogé, nombre d’occurrences dans l’ensemble du corpus, fréquence dans le sous-corpus, fréquence dans le corpus total, nombre de lettres, indice de dispersion et indice de spécificité. Enfin, nous avons ajouté une fonctionnalité pour comparer deux sous-corpus.
Le premier résultat que nous ayons obtenu est la réalisation du site internet en lui-même, à savoir la création d’une interface dynamique donnant accès aux textes et consentant de les interroger en fonction de différentes variables. En second lieu, plusieurs types de visualisation permettent de représenter l’évolution (dans une perspective globale) ou les rythmes (en fonction des lieux ou du contexte historique et politique de rédaction) des usages langagiers. Les données et leur visualisation permettent de vérifier ou d’écarter certaines thèses que nous avions postulées initialement mais elles ouvrent également la voie à une nouvelle approche des textes qui implique de nuancer certains phénomènes que nous avions identifiés au niveau local. Les tendances de l’écriture qui était invisibles apparaissent alors. L’analyse systématique des relevés d’occurrences et des mesures effectués mettent ainsi en exergue certaines micro-spécificités de la langue telles que le recours constant à la forme hypothétique et aux métaphores de l’incompréhension pour exprimer l’incertitude face aux événements en cours et à venir. L’examen des affinités lexicales a confirmé cette thèse et a permis de mettre au jour une caractéristique déterminante de notre corpus : l’extrême instabilité du monde politique pendant les guerres d’Italie, qui s’exprime à la fois par la centralité du champ sémantique du conflit (qui semble commander les autres champs sémantiques) et par la présence de différents éléments langagiers traduisant une précarité des temps et une fragilisation de la praxis politique.