Trier à travers le bruit : comment les méthodes informatiques peuvent être utilisées pour isoler les thèmes clés des discussions en ligne

Dans l’article de blog suivant, Simon Rodier (photo ci-dessus) décrit son travail avec le Project Someone dans le cadre de « Words in Context » et comment ce travail est lié à sa thèse de maîtrise.

Je suis arrivée dans le Project Someone avec une formation en informatique et un intérêt pour l’utilisation de méthodes informatiques dans le but d’analyser le discours en ligne portant sur des questions controversées.

La manière dont se déroulent les débats sur les forums en ligne me fascine. Nous avons tous vu les divisions marquées qui se forment lorsque les individus débattent de sujets d’actualité en ligne. Nous voyons souvent les partisans se retrancher sur leurs propres positions, empêchant ainsi tout dialogue ou toute négociation constructive. Pour compliquer les choses, les débats en ligne se déroulent souvent sur de nombreuses plates-formes, entre différentes personnes, et impliquent un gros volume de texte. Mon objectif était d’approfondir ces discussions en les triant informatiquement afin d’identifier les principaux thèmes en jeu. Une telle approche est utile pour les parties prenantes de la communauté qui cherchent à intervenir dans le débat général, car elle leur donne une idée de la manière dont le public comprend et interprète les questions en jeu.  

Mon travail avec le Project Someone s’est déroulé selon deux axes majeurs. Dans le premier, j’ai travaillé sur le projet Words in Context, où ma principale contribution était de développer une base de données et un site Web qui hébergeaient et afficheraient les résultats de la recherche de l’équipe sur les discours en ligne concernant des sujets litigieux au Canada et au Liban. Ensemble, nous avons créé un site Web qui permet aux utilisateurs de découvrir comment un langage spécifique est utilisé dans les corpus que nous avons examinés, qui sont divisés en sections thématiques, chacune représentée par plusieurs citations et mots-clés tirés des textes sources.

C’est à partir de ce projet que j’ai développé les bases de ma thèse de maîtrise en technologie de l’éducation, pour laquelle j’ai conçu une méthodologie utilisant des modèles de sujets pour identifier par calcul des groupements thématiques dans un texte. La méthode exploite la cooccurrence statistique des mots dans les documents pour les regrouper en « sujets » latents. Une première version de la méthodologie a été appliquée à un sous-ensemble d’un corpus utilisé pour Words in Context. Cette version a ensuite été affinée pour être utilisée dans ma thèse afin d’identifier les principaux thèmes de discussion dans la controverse entourant la nomination de Brett Kavanaugh à la Cour suprême des États-Unis en 2018.

Pris ensemble, les deux axes de mon travail encouragent les lecteurs et les communautés à s’engager de manière plus critique dans les tendances des discussions en ligne sur les questions litigieuses – une étape importante vers les interventions plus efficaces dans le débat public.