We use cookies to give you the best online experience. By using our website you agree to our use of cookies in accordance with our cookie policy.

L’information et la nouvelle ère de l’astroturfing numérique

Une analyse appropriée des réseaux de robots exige des compétences et une réflexion totalement nouvelles pour les spécialistes des sciences sociales et les journalistes.

Nouvelle élection, nouvelle série de rapports indiquant que les réseaux sociaux ont artificiellement favorisé un candidat et nouvelle étude de cas soulignant les défis liés à la couverture d’une nouvelle ère de l’astroturfing numérique.

Lors des élections générales au Royaume-Uni, le Telegraph s’est démarqué en publiant un article consacré à une série de robots qui inondaient Twitter de messages de soutien à Jeremy Corbyn et contre Theresa May. La base de l’histoire était juste : un nombre considérable d’utilisateurs très actifs du site de microblogging publiait des messages pro-Corbyn dans les dernières semaines avant le scrutin. Toutefois, l’article ne réussissait pas à fournir la preuve de l’ampleur du phénomène ou des intentions qu’il exprimait.

Sans parler de désinformation, la possibilité pour les robots de gonfler le soutien apparent à un candidat vaut la peine d’être signalée, mais l’analyse appropriée de ces réseaux exige des compétences et des réflexions totalement nouvelles pour les spécialistes des sciences sociales, et davantage encore pour les journalistes.

Comment pouvons-nous ne serait-ce qu’évoquer la possibilité de vérifier les campagnes menées par des robots ? Quelles questions poser si nous recherchions des robots pro-Corbyn ? Voici quelques pistes :

Comment identifier des robots ?

Dans leur ensemble, les travaux menés dans le but de détecter des robots se sont concentrés sur l’évaluation d’un ensemble de caractéristiques, tels que les abonnés, les amis et l’âge du compte. Bien que ce type d’éléments puissent être révélateurs, une telle approche peut s’avérer trop rigide, car elle suppose que tous les robots se ressemblent. Mon travail, en revanche, m’a montré que chaque groupe de robots est trahi par des caractéristiques différentes.

En outre, toutes les activités automatisées ne sont pas l’?uvre de robots. Parallèlement aux comptes gérés exclusivement par des logiciels, il existe des comptes « cyborg » tenus conjointement par des personnes ainsi que des comptes légitimes prêtés pour servir dans des campagnes automatisées. Tous ces comptes semblent en partie normaux et affichent des comportements automatisés de manière ponctuelle.

Qu’il s’agisse de robots ou pas, les comptes automatisés employés dans des campagnes partagent très souvent une propriété, directement liée à leur mérite et coûteuse à éviter : ils sont l’auteur de nombreuses publications. Diffuser en nombre des propos favorables à un programme constitue l’objectif d’une campagne automatisée sur les réseaux sociaux et les deux seuls moyens de procéder sont (1) de disposer de quelques comptes avec une fréquence de publication élevée ou (2) de disposer de nombreux comptes qui publient peu. Toutefois, la deuxième solution coûte beaucoup plus cher. Ainsi, les publications très régulières restent généralement un bon point de départ pour débusquer des comptes suspects.

Dans cette optique, l’Oxford Internet Institute a proposé une définition du compte Twitter à fréquence de publication élevée : un compte qui tweete plus de 50 fois par jour en moyenne. Cependant, même une telle définition n’est pas parfaite pour identifier des robots, puisqu’elle pourrait inclure par exemple les journalistes les plus actifs sur Twitter. D’autres chercheurs préfèrent des limites plus strictes, mais la définition de l’Oxford Internet Institute reste, dans son ensemble juste, utilisable et crédible.

Combien de comptes très actifs ont interagi avec ceux de Jeremy Corbyn et de Theresa May ?

Identifier des réseaux de comptes automatisés requiert des données sur l’activité, les utilisateurs, les abonnés et les liens entre utilisateurs. Dans le cas de Twitter, cela signifie invoquer plusieurs interfaces de programmation applicative (API) du service. (Les API sont des systèmes permettant la génération de requêtes Internet programmatique).

Il existe deux API à partir desquelles il est possible de récupérer des tweets sur un sujet : l’API de recherche et l’API de diffusion directe. Toutes deux considèrent un terme de recherche et renvoient des tweets qui contiennent le terme en question. Par exemple, en recherchant les identifiants « @jeremycorbyn » et « @theresa_may », nous pouvons collecter un échantillon de tweets mentionnant chaque compte, y compris les retweets.

Chaque API présente des avantages et des inconvénients. L’API de recherche, par exemple, renvoie un échantillon incomplet de tweets et pourrait donc sous-représenter les comptes produisant des spams. Cependant, c’est la seule qui offre la possibilité de récupérer des tweets déjà publiés et par conséquent celle que j’emploie.

J’ai généré deux échantillons aléatoires de 5 000 comptes qui ont cité le compte Twitter de Jeremy Corbyn ou de Theresa May entre le 25 mai et le 5 juin.* Puis, j’ai récupéré le fil de chaque compte à l’aide de l’API Timeline de Twitter et calculé la fréquence moyenne des tweets. (Techniquement, il est possible d’estimer approximativement la fréquence de publication en divisant le nombre total de publications par le nombre de jours d’existence du compte. Cependant, cette méthode cause de faux négatifs pour les comptes qui sont restés longtemps inactifs ou ont supprimé des tweets.)

Près de 7 % des comptes qui avaient mentionné Jeremy Corbyn répondait à la définition de l’Oxford Internet Institute. Mais, en raison de leur productivité, ces comptes sont à l’origine de plus de 19 % des références au candidat. En d’autres termes, un groupe proportionnellement petit d’utilisateurs très actifs du service a publié près d’une occurrence sur cinq des mentions ou retweets analysés pour Jeremy Corbyn.

UK hashtag frequency
Qu’en est-il pour Theresa May ? Peut-être étonnamment, une part beaucoup plus importante des comptes qui mentionnaient la Première ministre (plus de 10 %) répondait à la définition de l’Oxford Internet Institute. Pourtant, malgré leur nombre, ces utilisateurs n’ont produit que 22 % des mentions et des retweets de Theresa May, soit à peine plus que pour Jeremy Corbyn.
Ces chiffres sont particulièrement remarquables compte tenu du biais potentiel de l’API de recherche contre les comptes qui publient des spams et du fait qu’une précédente étude d’Oxford a trouvé des niveaux inférieurs d’activité à fréquence élevée à l’aide de l’API Streaming.

Quel était le contenu des tweets ?

L’activité automatisée n’est pas compromettante en soi. Une étude récente de l’USC et de l’Université de l’Indiana a estimé qu’entre 9 et 15 % des comptes Twitter actifs sont automatisés et publient du contenu allant d’informations relatives à l’actualité à la poésie postmoderne. Avec cela en tête, nous devons examiner si les tweets analysés présentaient un caractère pertinent pour les élections et soutenaient un candidat plutôt qu’un autre.

En observant à nouveau le fil de chaque compte, une moyenne de 79 % et de 76 % des tweets publiés par des comptes automatisés qui mentionnaient Jeremy Corbyn et Theresa May correspondait, respectivement, à des retweets plutôt que des contenus originaux. Le reste des publications se composait en grande partie de réponses normales.

Parmi les données de recherche, les 25 meilleurs retweets des comptes automatisés qui mentionnaient Jeremy Corbyn allaient dans le sens du dirigeant du parti travailliste et 18 étaient des retweets du candidat lui-même. Cependant, les meilleurs retweets contenant une référence à Theresa May étaient tous critiques envers la Première ministre et regroupaient même plusieurs retweets de Jeremy Corbyn, qui avait pris l’habitude d’inclure l’identifiant de Theresa May dans ses publications. Toutefois, même après avoir soustrait tous les retweets de Jeremy Corbyn, seul un des meilleurs tweets était en faveur de Theresa May.

Meilleur retweet des utilisateurs à fréquence de publication élevée qui mentionnent Jeremy Corbyn :

Des Conservateurs ont rendu visite à ma mère pendant que je lui parlais via FaceTime. Je vous conseille de regarder ça. @jeremycorbyn

Meilleur retweet des utilisateurs à fréquence de publication élevée qui mentionnent Theresa May :

[email protected]_may Pourquoi êtes-vous absente de cette déclaration ? Vous ne pouvez pas défendre l’Angleterre si vous ne tenez pas tête à Trump. Faible leadership.

Cette tendance pro-Corbyn se reflète dans les meilleurs hashtags utilisés par les deux groupes. Parmi les publications faisant référence à Jeremy Corbyn, chacun des 25 meilleurs hashtags était protravailliste, neutre ou sans lien avec les élections. En revanche, les hashtags les plus populaires accompagnant les tweets citant Theresa May incluaient #VoteLabour, #ForTheMany et #ToriesOut.

Tout cela ne signifie pas qu’aucun robot n’a agi en soutien à Theresa May. Par exemple, les comptes les plus actifs pour répondre à Jeremy Corbyn faisaient partie des soutiens de la Première ministre. Toutefois, le parti-pris de gauche des utilisateurs très actifs de Twitter semble évident.

Est-il possible de détecter l’existence d’un réseau ?

Puisque beaucoup de comptes automatisés semblent présenter la même tendance politique, il n’est pas vain de se demander si les deux échantillons se recoupent.

En effet, la moitié des comptes automatisés qui ont fait référence à Jeremy Corbyn ont également mentionné au moins une fois son opposante et environ 62 % des comptes de l’autre groupe ont cité Jeremy Corbyn. Cela n’est pas nécessairement surprenant, au vu de la fréquence à laquelle celui-ci a interpellé Theresa May. Cependant, d’autres facteurs suggèrent d’éventuelles connexions entre les comptes. Un autre ensemble d’utilisation de l’API Friend dresse la liste des identifiants qui constitue les amis de chaque compte. Ces listes donnent ensuite la possibilité de créer des tableaux pour décrire les liens entre les comptes.

Plus de 55 % des comptes analysés comptaient parmi leurs abonnés un autre utilisateur étudié et près de 24 % des amis des comptes analysés (à savoir les comptes auxquels ceux-ci sont abonnés) étaient communs à au moins deux utilisateurs étudiés. (Note : il est probable que ces chiffres se multiplieraient si nous augmentions le volume de l’échantillon.)

Il n’est pas clair que le réseau étudié corresponde à celui dont parlait le Telegraph. En effet, seuls 2 % des noms d’utilisateurs très actifs correspondaient aux indications de l’article, à savoir un nom suivi de huit chiffres. Cependant, l’absence de tels comptes peut être, en partie, causée par le fait que l’API de recherche exclut certains comptes.

Conclusion

Il est inquiétant de constater dans quelle mesure des comptes Twitter automatisés ont fait la promotion des messages pro-Corbyn et anti-May dans la dernière partie de l’élection. En outre, il semble qu’au moins certains de ces comptes puissent appartenir à un même réseau.

Cependant, rien dans les résultats proposés ici ne permet de relier les comptes à la campagne du parti travailliste ou à une autre entité ou d’avancer que ces comptes ont été explicitement mobilisés pour soutenir Jeremy Corbyn. En effet, nous savons que les robots interagissent avec des contenus de façon arbitraire afin de prendre une apparence plus naturelle. Une large proportion du contenu de Twitter concerne la politique, nous pouvons donc nous attendre à ce que les comptes automatisés abordent cet aspect dans une certaine mesure. Quoi qu’il en soit, cela ne change en rien l’influence de ces comptes dans les discussions concernant les élections.

S’intéresser à l’astroturfing numérique revêt une importance considérable : les robots ne possèdent pas le droit de vote, mais le soutien supposé à un candidat représente une influence cruciale sur les électeurs. Les journalistes poursuivent leur utilisation des réseaux sociaux, notamment Twitter pour prendre le pouls de certaines opinions et récoltes des informations et ce n’est ni la vague de réductions des effectifs dans les rédactions, ni le temps toujours plus précieux des journalistes qui risquent d’inverser cette tendance.

Nous avons commencé à réfléchir aux procédés d’identification des éléments automatisés sur les réseaux sociaux, mais comment préparer les journalistes à effectuer ce travail ? Les organismes de presse devraient peut-être s’associer à des universités pour accueillir des étudiants en informatique pendant les élections, même si le recours à l’automatisation ne se limite pas aux périodes d’élection. La meilleure réponse pourrait passer par l’établissement de partenariats entre chercheurs, développeurs et journalistes de données visant à concevoir des outils faciles à prendre en mains et à organiser des formations.

Quelle qu’elle soit, une solution est nécessaire : nous ne pouvons pas nous permettre de nous faire distancer par des robots.

* Cette analyse repose sur près de 460 000 tweets récupérés au moyen de l’API de recherche de Twitter. Les mentions de Jeremy Corbyn sont comprises entre le 25 mai et le 4 juin ; celles de Theresa May entre le 31 mai et le 5 juin. Des échantillons aléatoires de comptes plus réduits étaient nécessaires, nous devions faire appel à d’autres exécutions de l’API Timeline de Twitter pour déterminer les taux de publication des comptes.

Facebook et Google News Lab ont soutenu First Draft et Full Fact dans leur travail avec des rédactions de premier plan afin de lutter contre les rumeurs et la désinformation en ligne pendant les élections générales au Royaume-Uni.
Il s’agit du quatrième article d’une série au sujet du projet de collaboration entre Full Fact et First Draft dans le cadre des élections générales au Royaume-Uni.
1. Élections britanniques : fructueuse collaboration avec Full Fact
2. Comment nous avons ‘fact-checké’ les élections britanniques en temps réel
3. The types of misinformation we saw during the UK election

Leave a Reply

Your email address will not be published. Required fields are marked *

In Your Inbox