Romy Sauvayre

Maître de Conférences — Université Clermont Auvergne

Intelligence Artificielle & Sciences des données

Depuis 2021, je développe des méthodes utilisant l’intelligence artificielle pour analyser des textes contenant des millions de caractères afin de les classer, les catégoriser et les comparer. L’objectif de ces travaux est de développer les méthodes les plus adaptées aux données et aux questions de recherche, tout en nourrissant une réflexion épistémologique sur la place de ces outils en sociologie et sur les précautions méthodologiques qu’exige leur utilisation.

Pour ce faire, je teste divers outils parmi lesquels des algorithmes d’apprentissage supervisé tels que les Machines à Vecteurs de Support (SVM), des réseaux de neurones récurrents (RNN), en particulier les réseaux de type Long Short-Term Memory (LSTM) ou les Transformers, des modèles reposant sur des mécanismes d’attention pour prendre en compte le contexte, tels que BERT (Bidirectional Encoder Representations from Transformers) ou RoBERTa.

Projets de recherches réalisés

1. Analyse des messages postés sur Twitter (tweets) de 2012 à 2021 sur les véhicules autonomes

L’objectif du projet a été d’identifier l’évolution des émotions (négatives, neutres et positives) exprimées dans les messages postés sur Twitter ("X") au moyen de diverses techniques supervisées d’apprentissage profond. Après avoir collecté près de 7 millions de tweets, nous avons sélectionné les tweets contenant au moins un mot émotionnel ou à valence émotionnelle au moyen d’un dictionnaire de 189 801 mots.

L’une des étapes a ensuite été de tester deux types de labéllisations (multiclasse ou multilabel) et de tester plusieurs modèles pour obtenir les meilleures performances. L’analyse des émotions au moyen de l’algorithme Binary Segmentation (bibliothèque Ruptures) a permis de distinguer deux grandes périodes (Figure 1) : la première (2012-2016), positive, est portée par les bénéfices espérés portés par cette nouvelle technologie et la deuxième (2016-2021), négative, se concentre sur les risques et accidents causés par les véhicules autonomes en circulation.

Diachronie des événements et sentiments sur Twitter concernant les véhicules autonomes
Figure 1: Diachronie des événements survenus de 2012 à 2021 et des sentiments exprimés sur Twitter (N = 509 069 tweets).

Le projet a également inclus de l’analyse de contenu au moyen de text analytics, text analysis et knowledge graphs (bibliothèque NetworkX). Les graphes de connaissance ont l’avantage de faciliter l’exploration des mots les plus utilisés au cours d’une période et de les regrouper en classes. Dans la Figure 2, ci-dessous, on peut voir que l’espoir généré par la technologie (en bleu) est prédominante au cours de la première période, alors que la peur des accidents et des décès (en rouge) devient centrale au cours de la seconde période. Les accidents de véhicules autonomes ont donc eu un impact sur la manière avec laquelle les citoyens perçoivent les véhicules autonomes.

Graphe de connaissance des mots utilisés pour parler des véhicules autonomes sur Twitter
Figure 2: Graphes de connaissance comparés entre la période 1 (positive) et la période 2 (négative).

2. Analyse des tweets postés sur la vaccination contre la Covid-19 et le pass sanitaire

L’objectif du projet était d’identifier l’évolution des émotions (négatives, neutres et positives) exprimées dans les messages postés sur Twitter ("X") afin d’identifier la part des messages en faveur ou en défaveur des vaccins et le contenu argumentatif utilisé. Pour ce faire, deux types de catégorisations ont été utilisées au moyen d’une approche supervisée (des labellisations manuelles ont servi à entraîner le modèle CamemBERT) : 1/ les sentiments (négatif, neutre, positif) et 2/ les arguments (politique, scientifique et social).

L’étude a permis de montrer que si les messages étaient plus souvent négatifs, les citoyens mobilisaient des travaux scientifiques ou pseudoscientifiques pour contester une décision politique, à savoir l’imposition du pass sanitaire et l’obligation vaccinale des soignants (Figure 3).

Evolution des messages durant la mobilisation contre le pass sanitaire
Figure 3: Evolution des messages au contenu politique, scientifique et social durant la mobilisation contre le pass sanitaire du 12 juillet au 11 août 2021 (N = 847 725 tweets).

3. Analyse du contenu des sites Internet promouvant des remèdes naturels contre le cancer et accessibles au moyen du moteur de recherche Google

L’objectif du projet était de mesurer le niveau d’exposition des patients aux promesses de guérison sur Internet et d’identifier le contenu de la désinformation diffusée sur les 50 pages Internet web-scrapées.

L’étude repose sur l’usage de la bibliothèque Beautiful Soup pour extraire les pages Internet et du text mining pour explorer leur contenu. Le texte a été lemmatisé (regroupés en lemmes) au moyen de la bibliothèque Stanza, la plus adaptée au français grâce à ses modèles reposant sur l’intelligence artificielle. Les schémas ont été générés au moyen des bibliothèques Seaborn et Matplotlib. Les analyses menées ont permis de montrer que les promesses de guérison naturelle du cancer promouvaient plus souvent le curcuma, les vitamines et les fruits et légumes (Figure 4).

Evolution des messages durant la mobilisation contre le pass sanitaire
Figure 4: Promesses de guérison en fonction des types de sites Internet accessibles aux patients.

De plus, un calcul de probabilité d’exposition en fonction du rang d’apparition des pages Internet et du type de site Internet a permis de montrer que les internautes sont plus souvent exposés aux blogs (Figure 5). Ces blogs promeuvent le curcuma, les fruits et légumes pour guérir du cancer au moyen d’arguments pseudo-scientifiques laissant penser que des preuves scientifiques sont disponibles à l’appui de leurs affirmations.

Probabilité d’exposition en fonction du type de sites Internet
Figure 5: Probabilité d’exposition en fonction du type de sites Internet.

Bibliothèques Python et environnement de travail

Environnement de travail

Python
Jupyter
JupyterLab
Anaconda

Visualisations & manipulation des données

Graphviz
Seaborn
Pandas
NumPy
Matplotlib

Apprentissage profond

PyTorch
TensorFlow
Hugging Face
Optuna
Scikit-learn

Analyses statistiques

SciPy
Statsmodels
Pingouin

Traitement de données textuelles

Stanza
spaCy
NLTK
Regular Expressions

Analyse réseau

NetworkX

Webscraping

BeautifulSoup