Sauvayre R., Vernier J. & Chauvière C. (2022), « Using Supervised Learning to Analyze Vaccine’s French Debate on Twitter », JMIR Medical Informatics Vol. 10, n°5.  DOI:10.2196/37831


Résumé

Les réseaux sociaux participent activement à la diffusion de la désinformation sur la covid-19 et, selon de nombreuses études, auraient causés l’augmentation de la réticence vis-à-vis des vaccins anti-covid. Dans ce contexte, l’analyse des réseaux sociaux est des plus importants en matière de santé publique. Toutefois, au regard du grand volume de données échangées chaque jour par les internautes, elle nécessite des méthodes spécifiques. C’est pourquoi les chercheurs ont de plus en plus souvent recours aux modèles d’apprentissage automatisé et au traitement du langage naturel (NLP) en particulier. L’objectif de la présente étude est d’examiner la capacité du modèle CamemBERT, pré-entraîné sur la langue française, à catégoriser automatiquement les tweets traitant de la vaccination alors qu’ils sont souvent ambigus, sarcastique ou sans rapport avec le sujet. 
Les résultats obtenus, sur 2 000 tweets francophones, montrent que la précision de l'apprentissage automatique atteint jusqu'à 70,6 % pour la première classification (tweets « pour » et « contre ») et jusqu'à 90,0 % pour la seconde (tweets « scientifiques » et « politiques »). De plus, un tweet a 1,86 fois plus de chances d'être mal classé par le modèle s'il contient moins de 170 caractères que s'il en contient plus de 170 (odd ratio = 1,86 ; 1,20 < intervalle de confiance à 95 % < 2,86). 
En conclusion, la précision du modèle est affectée par la classification choisie et le sujet du message examiné. Lorsque le débat sur le vaccin est bousculé par des décisions politiques contestées, les tweets deviennent si hétérogènes que la précision des modèles chute sur les classes les moins différenciantes. Toutefois, nos tests ont également montré qu'il serait possible d'améliorer la précision du modèle en sélectionnant les tweets à l'aide d'une nouvelle méthode basée sur la taille des tweets. 

Mots-clés : réseaux sociaux ; Twitter ; traitement du langage naturel (NLP) ; santé publique ; intelligence artificielle, modèle CamemBERT ; méthode ; épistémologie