Wikipédia:RAW/2024-09-01

L'édito de PAC2 - Beaucoup de médailles, pas mal de Wikimania et un peu d'intelligence artificielle — Le mois d'août a été riche en médailles et autres distinctions. Les jeux olympiques d'été de 2024 ont suscité des réutilisations. Wikimédia France a publié la liste des lauréats de ses prix annuels, la fondation Wikimedia a décerné le prix wikimédien•ne de l'année et les lauréats des Coolest Tool Awards ont été annoncés en clôture de la conférence Wikimania.

La conférence Wikimania justement a donné lieu à de nombreuses présentations. On a tenté d'en restituer quelques bribes dans ce numéro.

Enfin, le sujet de l'intelligence artificielle générative revient à l'ordre du jour de ce numéro pour générer des requêtes au Wikidata Query Service ou même des articles Wikipédia.

L'embellie et Noé nous proposent aussi une grande interview de Cantons-de-l'Est.

Le titre de la newsletter a évolué de « Regards sur l'actualité de la Wikimedia  » vers « Regards sur l'actualité du mouvement Wikimedia ». On garde l'acronyme RAW qui nous tient à cœur. Cette clarification du nom permet de rappeler que si RAW est hébergé sur Wikipedia en français, l'ambition c'est de suivre l'actualité de tous les projets du mouvement Wikimedia au sens large. N'hésitez pas à contribuer au prochain numéro pour évoquer l'actualité du Wiktionnaire, de Wikibooks, Wikiquote, Commons, Wikifunctions, Wikivoyages, Wikisource, Wikinews mais aussi de Vikidia, LinguaLibre ou tout autre produit libre et communautaire.

Brèves

modifier

Peut-on utiliser des grands modèles de langage pour générer des requêtes Wikidata en langage SPARQL ? — L'idée était dans l'air du temps depuis un petit moment[1] mais jusqu'à maintenant, il n'y avait pas eu de résultats probants. Le projet Spinach pourrait changer la donne. L'annonce a été relayée par Denny Vrandečić lui-même :

« Quelles œuvres d'art ont été exposées au MoMA et à la Tate ? Quelle est la taille des 15 derniers vainqueurs du Tour de France ? Quels sont les médaillés d'or olympiques en natation originaires d'Asie depuis les années 1950 ? Quels sont les restaurants européens qui ont obtenu des étoiles Michelin dans les années 2000 ? Autant de questions que vous pouvez poser à #Wikidata en utilisant #SPARQL.

Mais écrire du SPARQL est une compétence rare : Stanford et la Wikimedia Foundation présentent un modèle #LLM pour transformer automatiquement vos questions en requêtes SPARQL : SpinachBot[2],[3]. »

Concrètement, Hal Triedman de la fondation Wikimédia a collaboré avec l'équipe Open Virtual Assistant Lab (OVAL)[4] de l'université Stanford pour développer ce nouvel outil.

L'outil se décline à la fois sous la forme d'une interface Web et d'un bot déployé sur Wikidata[5].

 
Anneaux olympiques sur la Tour Eiffel, Paris 2024.

Carte des médaillés olympiques par lieu de naissance — Où sont nés les lauréats de médailles olympiques ? En s'appuyant sur les données de Wikidata Giorgio Comai a cartographié les lieux de naissance de tous les médaillés olympiques dans le cadre d'un projet pour le European Data Journalism Network (d)  .

Dans la même veine, on peut croiser les données du comité international olympique avec Wikidata pour calculer le nombre de médailles par continent.

On peut aussi s'amuser à compter le nombre de médailles obtenues par groupes de pays. On voit que les 38 pays de l'OCDE ont obtenu 67% des médailles d'or.

Les graphiques bientôt de retour — Désactivée pour des raisons de sécurité en 2023, l'extension qui permet d'afficher les graphiques sur les projets sera bientôt remplacée et accessible aux wikimédien(ne)s. Le programme défini mentionne la fin de ce mois pour le retour progressif de l'extension sur laquelle les équipes techniques travaillent depuis début juillet.

 
Logo de la conférence Wikimania 2024.

Aperçus de la Wikimania 2024 — Du 7 au 10 août s'est déroulée la conférence Wikimania 2024 à Katowice en Pologne. Sur le réseau social Mastodon, Antoine Srun raconte la conférence[6].

Les chercheurs Piotr Konieczny et Włodzimierz Lewoniewski ont présenté leurs travaux sur la mesure de l'américanisation des sociétés à travers l'étude des différentes versions de Wikipédia et Wikidata[7],[8]. Les auteurs calculent pour chaque Wikipedia la part des articles liés aux États-Unis et le volume de vues de ces articles[9].

PMG a montré quels outils peuvent être utilisés pour contribuer aux données structurées sur Commons[10].

AshCrow a débusqué une citation pleine d'humour de James Forrester :

« Vous savez, je viens à #Wikimania pour trouver plus de bugs dans mon logiciel, parce qu'il n'y en a pas assez dans #Phabricator[11],[12]. »

 
Cérémonie de clôture de la Wikimania 2024.

Lydia Pintscher (d)   est revenue sur l'avenir du Wikidata Query Service[13]. Elle a manifestement fait salle pleine et suscité de nombreuses questions[14].

Les lauréats des Coolest Tool Awards ont été annoncés lors de la cérémonie de clôture[15] :

Lauréat Vidéo 🎥 Catégorie Description de la catégorie
Web2Cit 🎥 Qualité Outils qui améliorent la qualité du contenu
Cat-a-lot 🎥 Édition Outils qui améliorent l'édition
InteGraality 🎥 Expérience Intuitifs et faciles à utiliser
Wikidata Walkabout 🎥 Tout petit Petits outils qui font une seule chose bien
View It! 🎥 Nouveaux Nouveaux outils ou outils développés par de nouveaux développeurs
ISA Tool 🎥 Batteur à œufs Outil utilisé depuis plus de 10 ans
CampWiz 🎥 Mention honorable

Enquête annuelle des utilisateurs d'OpenRefineOpenRefine, un logiciel libre très apprécié dans la communauté Wikidata, lance une enquête annuelle auprès des utilisatrices et utilisateurs.

 
Groupe de contributeurices à Wikidata lors de la WikidataCon 2019.

Comment élargir la communauté des contributeurs et contributrices Wikidata? — Wikidata est une base de connaissances collaborative maintenue par une communauté. Au delà du succès du projet, il y a un risque qu'un petit groupe de contributeurs et contributrices concentrent la majorité des contributions et des prises de décisions. Dans l'article "Talking Wikidata", les auteurs et autrices étudient les discussions sur Wikidata et regardent comment ces discussions influent sur l'engagement des contributeurs et contributrices en combinant des statistiques descriptives, de l'analyse de réseaux et des modèles de langage et de réseaux préentraînés.

« Notre étude indique que les interactions de discussion entre les éditeurs de Wikidata forment un réseau avec un coefficient de regroupement élevé et un chemin le plus court faible, ce qui suggère un réseau de type "Réseau « petit monde » (d)  " (petit monde). Dans ce réseau, la poursuite de la conversation est influencée par la topologie du réseau et le contenu des discussions[16] »

Ce sont les contributeurs et contributrices avec plus de 5000 contributions qui participent le plus aux discussions :

« Les données montrent qu'environ 80 % des éditeurs avaient effectué moins de 5 000 modifications et publié moins de 10 messages, ce qui indique que leur contribution est très limitée et qu'ils ne participent pas aux discussions. Cela signifie que seul un petit pourcentage d'éditeurs (20 %) participait activement aux discussions, ce qui laisse supposer que ce sont eux qui prennent les décisions clés au sein de la communauté Wikidata[17]. »

Celles et ceux qui ont les droits de création de propriété et celles et ceux qui ont au moins 6 ans d'ancienneté sont les plus actifs (voir la figure 9).

OpenStreetMap fête ses 20 ans — Le 9 août, c'était le 20e anniversaire d'OpenStreetMap (OSM). Comme Wikipédia, OpenStreetMap est un commun numérique souvent décrit comme le "Wikipédia de la cartographie".

Sur Mastodon, @dmontagne@mapstodon.space rappelle que Wikimédia utilise les données d'OpenStreetMap :

« Eqiad et Codfw : c'est les petits noms des deux datacenter qui affichent les données d'#OpenStreetMap sur les projets #Wikimédia.

Car Wikimédia utilise les données d'OSM ! Mais avec ses propres serveurs, vu le nombre de consultations, et son propre style de #carte[18]. »

Tout est documenté sur le site du logiciel MediaWiki[19]. A l'inverse, OpenStreetMap utilise aussi les données de Wikimédia. Par exemple, le moteur de géocodage, Nominatim utilise les données de Wikimédia pour attribuer un score d'importance aux lieux et suggérer le lieu le plus pertinent[20] :

« Wikipedia s'est avéré être une bonne approximation ou "importance". En gros, si un lieu fait l'objet d'un article dans Wikipédia, combien d'autres articles renvoient à ce lieu ? Et nous pouvons transformer cela en un seul chiffre[21],[22] »

.

C'est pour ça qu'il est important de développer les liens entre les deux projets :

« De nombreux endroits dans les données OpenStreetMap ont déjà les étiquettes wikipedia et wikidata. C'est très utile pour nous, merci de continuer à les ajouter. Sur Wikipédia, de nombreux lieux contiennent des coordonnées. Là encore, c'est utile : nous pouvons déterminer si un article concerne un lieu plutôt qu'un titre de film, un nom de groupe ou une pâtisserie, par exemple[23],[22]. »

Comme sur Wikipédia, certains débats sont un peu longs[24].

 
De la gauche vers la droite : DerHexer, Jimmy Wales, Clovermoss, Vira Motorko, Kurmanbek, Leonfd1992 et Natalia Szafran-Kozakowska.

Les wikimédiens et wikimédiennes de l'annéeen:User:Clovermoss est la wikimédienne de l'année. Âgée de 21 ans, elle contribue depuis l'âge de 16 ans. Elle est connue pour son travail d'accueil des nouvelles et des nouveaux (voir la rubrique en:User_talk:Clovermoss#Newbie_Central sur sa page de discussion) et pour son projet Editor reflections, un recueil de plus de 200 témoignages de contributeurs et contributrices. Elle contribue essentiellement depuis son téléphone (voir ses réflexions sur le sujet en:User:Clovermoss/Mobile editing).

meta:DerHexer est le lauréat Wikimédia de l'année.

Retour sur le Wikicamp 2024 — À l'occasion du Wikicamp 2024 à Saint-Malo, Wikimédia France a remis des prix annuels :

  • Prix Manon : Acélan
  • Prix de la maintenance : Gemini1980
  • Prix du projet de contribution : Culex
  • Prix de la valorisation : Hamuli
  • Prix du commun numérique : Wiktionnaire
  • Prix de l’illustration et de la culture : Arcyon37
  • Prix de la diversité : Victoire F.
  • Prix de l’éducation : Jérome Hublart
  • Prix du journalisme : Noé
  • Prix du du nouveau membre contributeur bénévole de l’année : Hibrideacus
  • Prix régional : Darmo117
  • Prix de l’engagement associatif : Kropotkine_113
  • Prix de la communauté : CKali
  • Prix Wikimédien.ne de l’année : Léna
  • Prix hors catégorie : Rémy Gerbet

Wikipédia va-t-elle résister à la tempête de l'IA ? — Après avoir développé WikiChat[25] et Spinach, l'équipe Open Virtual Assistant Lab (OVAL) de l'université Stanford développe STORM, un service d'intelligence artificielle générative capable de générer des articles de type Wikipédia. Cet article est considéré par The Signpost comme l'approche la plus avancée pour générer des articles. L'acronyme STORM décrit l'approche utilisée : Synthesis of Topic Outlines through Retrieval and Multi-perspective Question Asking (en français : synthèse des grandes lignes d'un sujet par la recherche et la pose de questions multi-perspectives). En bref, STORM recherche d'abord des sujets similaires, récupère les sommaires des articles Wikipédia existants sur les sujets similaires, simule différents éditeurs de Wikipédia avec différentes perspectives. Chaque éditeur virtuel fait lui même appel à des experts virtuels en lui posant des questions précises. Les auteurs de l'étude travaillent sur un nouveau prototype dénommé Co-STORM permettant aux humains d'interagir avec les agents virtuels et d'éliminer les défauts constatés (le projet initial mentionnant que les articles obtenus ne sont « pas destinés à la publication sur Wikipedia »).

Les multiples appels à ChatGPT ont un coût. Générer un article coûte environ 84 cents en utilisant le modèle GPT 4.0.

Le sujet de l'intelligence artificielle générative a été abordé souvent dans RAW ces derniers mois. Nous avions notamment publié une tribune en février 2023 pour réfléchir à la production automatique de contenu[26].

Comprenez vous quelque chose aux institutions de l'enseignement supérieur et de la recherche en France ? — En France, l'enseignement supérieur et la recherche (ESR) est caractérise par une complexité institutionnelle croissante. Pour tenter d'y voir plus clair, Julien Gossa a développé un outil permettant d'explorer le paysage des institutions de l'enseignement supérieur et de la recherche à l'aide de Wikidata. L'outil est développé en langage R.

Wikimedia Poland en aide aux acteurs impliqués dans la résolution des conflits — L'année dernière, Wikimedia Poland a porté une attention particulière au soutien des groupes particulièrement vulnérables au burn-out. Le manque d'autonomie, l'inefficacité de leurs propres actions et les conflits au sein de la communauté ont fait que de nombreux wikipédiens se sont sentis dépassés et désespérés.

Deux initiatives ont donc été lancées : « le projet de soutien et d'intégration des administrateurs de la Wikipédia en polonais » (rapport en pdf) et « le projet de prévention des conflits dans la Wikipédia en langue polonaise » (rapport sur Commons). Le premier projet concernait les administrateurs (environ 40 participant(e)s ; 6 réunions en ligne, 5 activités de suivi et une réunion en direct) et le second était destiné aux wikitrainers, aux wikimédiateurs, mais aussi à d'autres personnes qui souhaitaient acquérir de nouvelles compétences, des connaissances et des compétences en matière de gestion des conflits.

20 % des biographies sur Wikipédia en français sont consacrées aux femmes — Le , la barre des 20% de femmes parmi les biographies a été franchie, ce qui représente 142 979 biographies de femmes au total (sur 714 869 biographies à cette date). Ce taux était seulement de 14 % en 2016 (75 000 biographies de femmes à l’époque). Wikipédia en français se rapproche ainsi de Wikipédia en espagnol qui contient 23,4 % des biographies dédiées à des femmes et devance légèrement Wikipédia en anglais qui ne compte que 19,8 % de femmes parmi ses biographies[27],[28].

En vrac

RAW encourage les membres de la communauté à s'exprimer sur différents enjeux liés à l'écosystème Wikimedia. N'hésitez pas à proposer vos textes pour cette section. N'hésitez pas non plus à réagir dans la section du courrier du lectorat.

La grande interview

modifier

Une nouvelle section s'ajoute à votre gazette à partir de ce numéro. Nous donnerons la parole à des wikimédien(ne)s sur des thèmes donnés afin de recueillir leurs avis ou les faire parler tout simplement de leur expérience dans le mouvement.

Pour ce premier entretien, Cantons-de-l'Est a accepté répondre aux questions de L'embellie et de Noé sur son activité wikimédienne et sa contribution à ce magazine qu'il a fondé et entretenu pendant plusieurs années.

Devinettes

modifier
Voici une sélection d'images prises cet été par des wikimédien(ne)s et qui sont disponibles dans la catégorie : Summer 2024 sur Commons. Essayez de deviner les objets, lieux, villes, ou pays  .


Événements

modifier

Ailleurs dans le Wikiverse

modifier

La page Wikipédia:RAW/Découvrir recense les infolettres et blogs relatifs à Wikimedia.

Courrier du lectorat

modifier

(Il nous fera plaisir de lire les messages déposés ici et, si nécessaire, d'y répondre dans les plus brefs délais.)

La grande interview — Merci pour cette nouvelle édition, encore une fois très instructive. Si les IA écrivent des articles Wikipédia, où va-t-on  ... Merci également pour le nouveau format d'interview. C'est une très bonne idée. Hâte de lire les prochaines !
→ Petite précision concernant la brève d'octobre 2022 : personne à l'époque n'a accusé Cantons-de-l'Est d'avoir « fait preuve de sexisme envers les femmes dans Wikipédia ». Je le précise pour éviter tout malentendu... A l'époque, plusieurs membres de LSP, dont moi, avions transmis nos commentaires en amont de la publication, ceci afin d'éviter un drama, comme celui sur la tribune (retirée) du RAW de juillet 2022…. D'où l'idée de transmettre des commentaires en amont cette fois. Il s'agissait juste d'aider à rédiger la brève.
Au final, la brève n'a pas été publiée car le sujet n'était pas encore "sec" de mémoire (il y avait toujours des discussions sur l'appel à commentaires)... C'était donc plus un problème de contexte qu'autre chose.--Pronoia (discuter) 31 août 2024 à 23:49 (CEST)[répondre]

C'était une super lecture, merci l'équipe ! — Exilexi [Discussion] 1 septembre 2024 à 21:45 (CEST)[répondre]

diminuer les données — L'ours des cavernes mal léché que je suis tente d'être positif. Mes efforts sont mis à mal avec cette diapositive de la présentation de Pintscher.
1- il y a beaucoup de données dans Wikidata,
2- trop de données pour Blazegraph.......
3-.......on va donc changer Blazegraph on peut réduire la quantité de données (??).
Du coup, on va, notamment, pelleter ailleurs ce qui concerne les dizaines de millions d'articles scientifiques et devoir faire des requêtes adaptées pour ceux-ci.
Ce que ça me dit à moi cette déclaration, c'est que malgré que ça fasse des années qu'on sache que Blazegraph n'est plus viable pour Wikidata parce qu'il a été volontairement tué dans les années 2010, aucune des équipes salariées par la Foundation ou les chapters n'a réussi à trouver une solution autre que we can reduce the amount of data.
Non mais as-tu pensé une seconde à quel message tu envoies, toi, identifiée comme la tête du projet, avec une affirmation pareille, devant une salle qu'on me dit comble !?
Moi, mon ambition en travaillant sur Wikidata, c'est de produire la plus grande base de connaissances libres de l'histoire, de l'Univers, en grimpant le plus grand nombre d'ordres de grandeur possibles dans l'aventure. Et je dois pas être le seul taré à croire ça considérant la croissance folle que connait le site. Hier et aujourd'hui, on a des (surtout un) passionnés qui se sont lancés dans la création de dizaines de millions d'articles scientifiquesd'éléments dédiés à des articles scientifiques. Demain, qui sait qui d'autre voudra importer 10x éléments dans la chose ? Tu veux la faire ou pas la sum of all human knowledge ? Si oui, il faut pas décourager les fous qui s'y mettent ! Il faut que tu y mettes les moyens de tes ambitions.
Alors évidemment que si ça marche ton truc, si des gens y croient suffisamment pour y mettre individuellement des milliers d'heures de bénévolat, ça va t'occasionner des problèmes d'infrastructure, d'accès, de réseau, de synchronisation, alouette. Si tu me synthétises en deux phrases que ta solution à ces problèmes c'est we can reduce the amount of data en continuant à répéter année après année qu'il faut remplacer Blazegraph, mais en ne proposant jamais une feuille de route pour la chose......sacrament ! - Simon Villeneuve 2 septembre 2024 à 22:57 (CEST)[répondre]

Simon, Tu as raison d'être en colère : ce n'est pas à Wikidata à s'adapter à un logiciel déficient, mais d'exploiter un logiciel capable de soutenir la croissance de Wikidata, la base de connaissance libre qui souhaite être le hub de toutes les autorités. Pour les dizaines de millions d'articles, voulais-tu dire « millions de notices bibliographiques d'articles » ? — Cantons-de-l'Est p|d|d 🧹 4 septembre 2024 à 01:09 (CEST)[répondre]
Oui, merci, j'ai corrigé. - Simon Villeneuve 4 septembre 2024 à 02:32 (CEST)[répondre]
Sinon, comme d'habitude, j'ai passé à côté de l'essentiel.
Mes félicitations pour ta grande interviou. Les jeunes apprennent et les vieux se rappellent l'étendue considérable de tes apports à la connaissance libre et au principal écoinfosystème qui l'abrite. On se souhaite encore de nombreuses années en ta présence ! - Simon Villeneuve 20 septembre 2024 à 14:26 (CEST)[répondre]
Il faut aussi comprendre que Wikipédia n'est pas toute notre vie, il y a une vraie vie qui existe à côté et donc, à partir du moment où le plaisir n'est plus au rendez vous sur WP, il est nécessaire de prendre un peu le large, d'aller se refaire une santé mais de ne jamais divorcer sur un coup de tête.
 – Lomita (d · c) dans son billet des 1000 jours.
Rédigé/traduit par L'embellie, Noé et PAC2.
Citations originales
Notes
Références
  1. voir notamment cette discussion sur le bistro de Wikidata datée d'août 2022
  2. Traduction avec l'aide de DeepL de « Which art has been displayed at MoMA and the Tate? What are the heights of the last 15 Tour de France winners? Who are the living olympic swimming gold medalists from Asia since the 1950s? Which European restaurants won Michelin Stars during the 2000s? All questions you can ask #Wikidata using #SPARQL. But writing SPARQL is a rare skill: Stanford and Wikimedia Foundation present an #LLM model to turn your questions into SPARQL queries automatically: SpinachBot »
  3. https://mastodon.social/@vrandecic@mas.to/112881781050469804
  4. https://oval.cs.stanford.edu/
  5. https://m.wikidata.org/wiki/Wikidata:Request_a_query#Introducing_SpinachBot%21
  6. https://wikis.world/@assassas77@mastodon.zaclys.com/112922939990350958
  7. https://wikimania.eventyay.com/2024/talk/GYMA3D/
  8. https://prezi.com/view/C7snnAZFWqZz7vPD0kLu/
  9. https://wikimania2024.lewoniewski.info/charts
  10. https://docs.google.com/presentation/d/1sM5_JC1ZCE7b6Zg1HqkBQPhLWVdf8DMn3f9V6ZMebbA/mobilepresent
  11. « You know, I come to #Wikimania to find more bugs in my software, because there aren't enough in #Phabricator already »
  12. https://wikis.world/@Ash_Crow@mastodon.social/112926403421907462
  13. https://docs.google.com/presentation/d/1cFMp-UAY0004zyQB1yvNusNpfp5MpVoiZ_Ak4KNRz6s/mobilepresent
  14. https://wikis.world/@Ash_Crow@mastodon.social/112925350928797833
  15. meta:Coolest_Tool_Award
  16. Traduit avec l'aide de DeepL de « Our study indicates that discussion interactions between Wikidata editors form a network with a high clustering coefficient and low shortest path, suggesting a small world network. In this network, the conversation’s continuation is influenced by the network topology and the content of discussions. »
  17. Traduction avec l'aide de DeepL : « The data showed that approximately 80% of editors had less than 5K edits and ten posts, indicating that they contributed very little and did not engage in discussions. This implied that only a small percentage of editors (20%) were actively participating in discussions, suggesting that they were the ones making the key decisions within the Wikidata community. »
  18. https://wikis.world/@dmontagne@mapstodon.space/112932853412585588
  19. https://m.mediawiki.org/wiki/Help:Extension:Kartographer/OSM/fr#Synchronisation_entre_OpenStreetMap_et_les_wikis_Wikimedia
  20. Découvert via https://weeklyosm.eu/fr/archives/17420
  21. « Wikipedia turned out to be a good approximation or “importance”. Basically if a place has a Wikipedia article, and how many other articles link to it? And we can turn that into a single number. » - Merci DeepL 😉
  22. a et b https://nominatim.org/2024/08/07/wikimedia-file.html
  23. « {{{1}}} » - 🙏 DeepL
  24. https://wikis.world/@ligaturerecords@mamot.fr/112852357974133489
  25. https://meta.m.wikimedia.org/wiki/Research:Newsletter/2024/May#WikiChat,_%22the_first_few-shot_LLM-based_chatbot_that_almost_never_hallucinates%22
  26. Réflexion sauvage sur la rédaction automatisée dans Wikipédia, RAW - février 2023
  27. https://sanspages.org/2024/08/21/sur-wikipedia-un-homme-sur-cinq-est-une-femme/
  28. https://next.ink/147182/sur-wikipedia-20-des-biographies-concernent-desormais-des-femmes/
  29. https://wikis.world/@wikidata/112830134361241348