Wikipédia:RAW/2023-08-01

L'édito de PAC2

Ce mois-ci, nous revenons en détail sur l'histoire de RAW. En parcourant l'ensemble des numéros, on a une bonne idée des questionnements de la communauté Wikimédia au cours du temps (contributions rémunérées, pressions sur la suppression de contenu, désinformation, biais de genre, manque de diversité, etc.). On découvre aussi comment RAW s'est progressivement construit et a trouvé son rythme de croisière. Certaines sections apparaissent et disparaissent au cours du temps. La section des brèves est celle qui a la plus grande longévité. Cet exercice nous renforce dans l'idée que RAW est utile et qu'on a toute liberté de le faire évoluer au fil du temps.

Cette plongée dans les archives est aussi l'occasion de saluer le travail de Cantons-de-l'Est (d · c), de Simon Villeneuve (d · c) et de l'ensemble des contributeurs et contributrices à RAW.

En parallèle, je continue à retravailler le style graphique de la page de présentation de RAW. J'ai notamment mis à jour les couleurs utilisées en m'appuyant sur le système de design de Wikimédia[1]. J'ai aussi mis à jour les couleurs des modèles {{Composition RAW/footer}} et {{Composition RAW/references}}.

J'ai ajouté dans cette édition une section Événements et une section Défis.

Bonne lecture à tous

Voyage dans les archives de RAW modifier

Après 12 ans d'existence, il est temps de se plonger dans l'histoire des RAW. Cantons-de-l'Est lance le premier numéro le 3 juillet 2011. A l'époque, Cantons-de-l'Est avait commencé une veille hebdomadaire sur Le Bistro. Les premiers numéros reprennent des éléments partagés sur le bistro. Le premier numéro contient une seule section intitulée Dans les coulisses de la Wikimedia. La section des Brèves apparaît à partir d'août 2011. Le Wikimag est plus ancien. Le premier numéro date de 2007. A cette époque, on commence tout juste à parler du fossé de genre dans Wikipédia (WP:RAW/2011-07-31, WP:RAW/2011-08-14#Écart_entre_les_sexes). On s'inquiète aussi beaucoup de la baisse du nombre de contributeurs et contributrices, au moins dans la Wikipédia en anglais (WP:RAW/2011-09-11#Sous_le_microscope_de_la_WMF). RAW a parlé des prémices de Wikidata dès le 23 octobre 2011 (WP:RAW/2011-10-23#Dans_les_coulisses_de_la_Wikimedia) mais ça devient un thème récurrent en 2012 (WP:RAW/2012-04-01#Brèves, WP:RAW/2012-04-08#Brèves, WP:RAW/2012-04-15). En 2012 encore, on commence à parler de Wikipédia comme d'une mine d'or pour le traitement automatique des langues naturelles (WP:RAW/2012-04-29). Le 27 mai 2012, Cantons-de-l'Est annonce la fin prochaine de RAW ;) (WP:RAW/2012-05-27). Le 24 juin, il annonce « Il faut une communauté pour rédiger RAW. » (WP:RAW/2012-06-24) et, magie de Wikipédia, le numéro WP:RAW/2012-07-01 a été rédigé par un collectif de contributeurs dont Simon Villeneuve. En août 2012, on parle de l'interface Athena comme l'avenir de Wikipédia (WP:RAW/2012-08-05) mais le projet n'a jamais vraiment été au bout. À l'automne 2012, il y a un petit flottement et RAW ne paraît pas pendant plusieurs semaines mais Cantons-de-l'Est annonce qu'il relance RAW dans le numéro du 18 novembre.

En avril 2013, RAW revient en détails sur l'affaire de l'article sur la station hertzienne militaire de Pierre-sur-Haute dont la DCRI avait demandé le retrait. On débat aussi beaucoup de l'opposition entre Toolserver et Wikimedia Labs (wmflabs) comme choix d'infrastructure pour héberger les outils autour de Wikimédia (Voir WP:RAW/2013-06-09). À l'époque le sujet de la baisse du nombre de contributeurs et contributrices est un sujet récurrent (WP:RAW/2013-11-01). Enfin, l'intégration de Wikivoyage fait couler beaucoup d'encre (WP:RAW/2013-11-08). Un trio s'est constitué pour rédiger RAW avec Canton-de-l'Est, Simon Villeneuve et Gtaf.

Le 2 mai 2014, l'équipe annonce faire une pause jusqu'en septembre (WP:RAW/2014-05-02). Il faut croire que ça n'est pas facile d'arrêter puisque RAW continue de paraître malgré l'annonce. On commence à parler de la disponibilité de Wikipédia dans les assistants vocaux comme Amazon Echo (WP:RAW/2014-11-21). C'est l'époque où Pyb lance Wikipédia:Wikicheese (WP:RAW/2014-12-05).

En 2015, Ickx6 rejoint l'équipe de rédaction puis Trace (WP:RAW/2015-05-22). Le modèle {{AncreRAW}} fait son apparition en juin 2015 (WP:RAW/2015-06-05). RAW modernise aussi sa distribution grâce à OrlodrimBot (WP:RAW/2015-07-17). À l'automne 2015, on observe un petit trou dans la publication. On passe du 9 octobre au 4 décembre. La publication se poursuit sur un rythme presque mensuel en 2016.

2016, l'équipe de rédaction continue de s'étoffer avec des contributions de Trace (WP:RAW/2016-05-30). On voit arriver les premières requêtes SPARQL dans RAW (WP:RAW/2016-07-15#LieuxCanada). Les sections consacrées au points de vue personnels (POV) disparaissent progressivement.

En 2017, RAW chronique en détail la crise de l'association Wikimédia France (WP:RAW/2017-07-25).

En 2018, on trouve une première requête SPARQL dans le corps du texte de RAW (WP:RAW/2018-01-01#brituniversalis). Cette pratique se répand avec par exemple des listes d'articles à créer générées à partir de Wikidata (WP:RAW/2018-04-01#sparql). En juin, l'arrivée des lexèmes sur Wikidata est présentée comme un tremblement de terre (WP:RAW/2018-06-01#lexicographie). Le numéro 200 introduit la section du courrier du lectorat (WP:RAW/2018-09-01).

En 2019 apparaît la section SPARQL du mois (WP:RAW/2019-01-01#SPARQL_du_mois). Cette section explique en détails une requête SPARQL et apparaît jusqu'en janvier 2023. Le contenu des RAW devient alors plus technique.

En 2020, RAW parle du coronavirus dès le 1er mars (WP:RAW/2020-03-01#Coronavirus). Le thème est en filigrane toute l'année mais n'est curieusement pas omniprésent. On commence aussi à parler de textes synthétiques et de GPT-3 (WP:RAW/2020-11-01#TextesSynthetiquesBis). En 2020, les RAW sont très rédigés et comprennent de nombreuses traductions.

La section Humour, disparue depuis deux ou trois mois, réapparaît en juin 2021 (WP:RAW/2021-06-01#Coin_humour).

En 2022, la rubrique Insolite fait son apparition au mois de juin (WP:RAW/2022-06-01#Insolites). En juillet, la tribune sur le parcours d'Anthere fait polémique avant d'être dépubliée (WP:RAW/2022-07-01). En septembre, les éditeurs introduisent une section sur les pages à créer du mois (WP:RAW/2022-09-01#Articles_à_créer_du_mois).

Dans son édito du , Cantons-de-l'Est annonce son envie d'arrêter (WP:RAW/2023-01-01). Peu de temps après, c'est Simon Villeneuve qui éprouve le besoin de lever le pied (WP:RAW/2023-05-01).

Brèves modifier

IA et Wikipédia — Dans un long article (37 à 47 minutes de lecture) publié dans le New York Times, le journaliste Jon Gertner analyse le lien entre les grands modèles de langage (LLM) et Wikipédia.

« Wikipédia n'est plus une encyclopédie, ou du moins pas seulement une encyclopédie : Au cours de la dernière décennie, elle est devenue une sorte de filet factuel qui relie l'ensemble du monde numérique[2]. »

Dans le même temps, Wikipédia est une ressource fondamentale pour entraîner les grands modèles de langage.

« Bien que les estimations de son influence varient, Wikipédia est probablement la source la plus importante dans l'entraînement des modèles d'intelligence artificielle[3]. »

Mais les motivations de ceux qui développent les LLM sont bien différentes des motivations de la communauté.

« Wikipédia peut être considérée comme un mouton, pris dans les mâchoires d'un marché de la technologie où sévissent des loups. Un site gratuit créé en toute bonne foi est en train d'être dévoré par des entreprises dont les objectifs — comme faire payer des abonnements, comme l'a fait récemment OpenAI pour son dernier modèle — ne coïncident pas avec les siens[4]. »

À l'inverse des moteurs de recherche comme Google qui sont fortement complémentaires de Wikipédia, les grands modèles de langage génèrent des réponses sans citer leurs sources.

Le développement par la Fondation Wikimedia d'un plug-in Wikipédia pour ChatGPT constitue l'un des moyens pour Wikipédia pour se réinventer[5]. « C'est un moyen pour nous d'expérimenter l'idée de "à quoi ressemble Wikipédia en dehors du domaine du site web"[6]. » dit Chris Albon, le responsable de l'apprentissage automatique à la fondation.

Le développement des LLM risque aussi de rencontrer un certain nombre d'obstacles comme la législation sur l'intelligence artificielle ou encore la compatibilité des licences. Par ailleurs, le papier d'Ilia Shumailov et al. montre que les LLM entraînés sur des corpus générés par des IA donnent des résultats catastrophiques[7].

« En fin de compte, l'étude conclut que la valeur des données provenant d'"interactions humaines authentiques" sera de plus en plus précieuse pour les futurs LLM. Pour les wikipédiens d'aujourd'hui, cela semble être une nouvelle encourageante, dans la mesure où cela suggère que nos nouvelles machines auront besoin de nous, au moins pendant un certain temps, pour les garder honnêtes et fonctionnelles[8]. »

 
Logo de Wikifunctions
 
Page d'accueil de Wikifunctions

Wikifunctions est né — Dernier-né de la famille des projets Wikimédia, Wikifunctions, une bibliothèque collaborative de fonctions, est en ligne[9]. C'est le projet lié à la future Abstract Wikipedia.

Fonds de dotation — Créé en 2016, le fonds de dotation Wikimedia (Wikimedia Endowment) a pour objectif de garantir la pérennité des projets Wikimedia pour le futur. Le fonds est jusqu'à maintenant géré par la fondation Tides (en) et est en cours de transfert vers une structure ad hoc de type Organisation 501(c)(3). Dans le Signpost du 17 juillet, Andreas Kolbe s'inquiète du manque de transparence du fonds et surtout du fait que le transfert vers la nouvelle organisation prenne du temps et retarde la mise en œuvre de la transparence financière.

Défi photo sur le changement climatique — Sur Wikimedia Commons, le défi photo du mois de juillet porte sur le changement climatique.

Quelles sont les communes françaises les plus populaires sur Wikipédia ? — Dans La France sous nos yeux (2021) de Jérôme Fourquet et Jean-Laurent Cassely (d)  , on trouve une cartographie des communes françaises montrant la popularité des articles de la Wikipédia en français relatifs à des communes françaises réalisée par Mathieu Garnier. Récemment, Mathieu a enrichi son travail en ajoutant la popularité des articles dans d'autres versions linguistiques de Wikipédia.

« Globalement le trafic en langue étrangère sur-performe sur les grandes villes (Lyon, Strasbourg, Nice, Marseille…) et dans quelques communes très touristiques (Versailles, le Mont St-Michel, Chamonix…) et sous-performe en banlieue[10]. »

Problèmes d'ontologie dans Wikidata — L'équipe de développement de Wikidata pense que plus de personnes pourraient développer des applications en s'appuyant sur Wikidata. Elle a identifié un problème de qualité de données et au sein de ce problème, un problème particulier lié à l'ontologie de Wikidata. Pour faire simple, l'ontologie fait référence à la manière dont on classe les éléments dans Wikidata essentiellement avec les propriétés P31 et P279. En janvier dernier, l'équipe a diffusé un questionnaire auprès des réutilisateurs. Au mois de juin, l'équipe a diffusé une analyse du questionnaire[11]. Les participants ont souligné que le premier problème était l' « ambiguïté conceptuelle » suivi de la « modélisation incohérente ».

 
Wikidata-map-2023-06-26-items-intensity-100

Wikidata MapAddshore a mis à jour la Wikidata Map, une carte qui représente l'intensité du nombre d'éléments Wikidata géolocalisés. Les RAW la mentionnent dès 2015 (WP:RAW/2015-07-03#GeolocalisationArticles).

Les biographies manquantes des lauréates de la médaille d'argent du CNRS — À l’occasion du wikicamp de Narbonne de juillet 2023, Delphine Montagne, qui participe au projet de recherche « Wikipédia et les Femmes scientifiques » (Wikif)[12], a produit une liste de 740 personnes lauréates de la médaille d'argent du CNRS entre 1960 et 2010 avec Wikidata en utilisant le logiciel OpenRefine. Cela a permis de créer 200 nouvelles entrées sur Wikidata. Cette démarche permet de mieux connaître la population des médaillés d'argent, même s'il n'existe pour le moment aucune liste exhaustive.

« A la date de publication de ce billet de blog, parmi les 1001 scientifiques, on compte 22% de femmes médaillées, soit plus que certaines récompenses étudiées dans le cadre du projet. »

Cela permet aussi de détecter des liens de filiation entre personnes médaillées « comme la mathématicienne Yvonne Choquet-Bruhat, médaille d’argent en 1958, mère du neurobiologiste Daniel Choquet, qui obtient la même récompense en 2009. »

Cette démarche permet aussi d'identifier les biographies de femmes manquantes sur Wikipédia en français.

« Une rapide requête SPARQL permet ainsi d’obtenir les femmes médaillées qui n’ont pas de biographie sur Wikipédia en français mais une biographie disponible dans au moins une autre langue de l’encyclopédie. »

Il ne reste plus qu'à créer les articles de Juliette Ernst, Lucia Reining et Patricia Simpson[13].

Glitter, une librairie R pour interroger Wikidata — Lise Vaudor et Maelle Salmon développent une bibliothèque logicielle langage R pour interroger Wikidata et d'autres données en SPARQL comme data.bnf.fr ou HAL[14]. Pour information, il existe d'autres bibliothèques comme WikidataQueryServiceR[15], tidywikidatar[16] ou encore WikidataR[17].

Enfants de stars dans le cinéma — Pas de nouvelles analyses sur les enfants de star dans le cinéma ce mois-ci (WP:RAW/2023-03-01#cinema, WP:RAW/2023-05-01#cinemafrancais) mais les principales conclusions sont résumées dans un article du Signpost.

 
Photo de groupe des participants au Wikicamp. Photo de Mathilde Louis WMFr

Wikicamp à Narbonne — L'association Wikimédia France a organisé la troisième édition du Wikicamp à Narbonne du 7 au 9 juillet. Cette édition a réuni les contributeurs et contributrices bénévoles de toute la France qui participent aux projets soutenus par l’association (Wikipédia, Wikidata, Wikimedia Commons, Lingua Libre, Wikeys). Chacun a pu découvrir de nouveaux projets grâce aux 21 ateliers. Le Wikicamp s'est terminé par une wikicérémonie pour remercier les contributeurs et contributrices qui donnent de leur temps pour le mouvement.

 
Participants à la convention des sans pagEs

Convention des sans pagEs — En juillet, c'était aussi la convention des sans pagEs ( ) aux Diablerets en Suisse.

À écouterWikimedia Deutschland a lancé Wikimove, un podcast en langue anglaise dédié au mouvement Wikimédia et à la mise en œuvre de la Stratégie 2030 du Mouvement Wikimédia.

Connais-tu ton quartier ? — En utilisent les données d'OpenStreetMap, Adam Lynch a développé Back of your hand, un jeu en ligne qui consiste à trouver, dans un rayon de 1,1 km, 5 rues ou places sur un fond de carte OpenStreetMap. Le code source de l'application est disponible sur GitHub[18]. Adam Lynch a développé ce jeu pour faire un cadeau de Noël à son père[19],[20].

Insolite modifier

Le saviez-vous ?

  • D'après les calculs de Moebeus (d · c), Wikidata contient 36 000 albums de musique en langue anglaise et 1870 en langue française[21].

Événements modifier

 
Logo de la conférence 2023
  • Août 2023 : La conférence Wikimania aura lieu à Singapour et en ligne du 16 au 19 août 2023. La conférence a pour thème la diversité, la collaboration et l'avenir (diversity, collaboration, future). Wikimania 2023.
 
Conférence GLAM Wiki

Tribune modifier

Les RAW encouragent les membres de la communauté à s'exprimer sur différents enjeux liés à l'écosystème Wikimedia. N'hésitez pas à proposer vos textes pour cette section. N'hésitez pas non plus à réagir dans la section du courrier du lectorat.

 
Logo des RAW et du Modèle:Portail minorités.

Un nouveau logo pour les RAW ? — Le logo actuel des RAW est aussi celui utilisé par Modèle:Portail minorités. Si vous avez une âme de graphiste, n'hésitez pas à proposer un logo pour RAW.

Articles non reliés à Wikidata — D'après l'outil Duplicity, il y a près de 4800 articles de la Wikipédia en français qui ne sont pas reliés à Wikidata : https://wikidata-todo.toolforge.org/duplicity/#/list/frwiki ! Un beau défi à relever.

Ailleurs dans le Wikiverse modifier

La page Wikipédia:RAW/Découvrir recense les infolettres et blogs relatifs à Wikimedia.

  Contribuer au prochain numéro
Il existe plein de manières de contribuer à RAW. Voici quelques propositions :
  • Suggérer un lien, un sujet ou une idée en laissant un message dans la salle de rédaction.
  • Relire, corriger ou améliorer le prochain numéro.
  • Ajouter une brève dans le prochain numéro. Pour ce faire, on utilise généralement le modèle {{AncreRAW}}. Une brève reprend généralement une actualité relative au mouvement Wikimédia en un ou deux paragraphes. Les illustrations sont bienvenues.
  • Ajouter des informations insolites directement dans le prochain numéro.
  • Proposer une tribune ou une prise de position personnelle à publier pour le RAW. Dans ce cas, il est préférable de rédiger une première version dans son espace personnel et de laisser un message en salle de rédaction.
  • N'hésitez pas à proposer de nouvelles évolutions pour le RAW.

Courrier du lectorat modifier

(Il nous fera plaisir de lire les messages déposés ici et, si nécessaire, d'y répondre dans les plus brefs délais.)

Gertner, dans sa sortie contre les sociétés qui exploitent Wikipédia, ignore tous les services gratuits qui existent déjà et qui sont exploités par beaucoup de sociétés, y compris le New York Times. Voici des logiciels et des protocoles qui sont régulièrement utilisés par de nombreuses sociétés, peu ayant fait des dons, mêmes minimes, aux groupes qui les maintiennent :

— Cantons-de-l'Est p|d|d 🧹 1 août 2023 à 03:48 (CEST)[répondre]

@Cantons-de-l'Est, j'ai trouvé l'article de Gertner plutôt mesuré. Je ne l'ai pas lu comme une charge contre les entreprises qui réutilisent Wikipedia. Je pense qu'il y a un vrai sujet avec la manière dont les grands modèles de langage utilisent les données de Wikipédia ou d'autres sites de contenu de qualité pour paraphraser des réponses sans renvoyer de trafic vers le site original. C'est aussi ce qui arrive à Stackoverflow parce que les développeurs informatiques utilisent maintenant Github Copilot au lieu d'utiliser Stackoverflow (voir cette analyse https://observablehq.com/@ayhanfuat/the-fall-of-stack-overflow). Le danger pour Wikipedia me semble réel. PAC2 (discuter) 2 août 2023 à 23:24 (CEST)[répondre]
PAC2,
Je concède qu'il y a un danger de chute d'audimat pour Wikipédia. Quant à savoir si c'est mauvais pour l'encyclopédie, je l'ignore, même si on nous serine qu'il y a de moins en moins de contributeurs parce que les revenus augmentent d'année en année.
En passant, utiliser {{u-|Cantons-de-l'Est}} ou {{ping|Cantons-de-l'Est}} pour me dire que vous vous adressez à moi, et pas [[Cantons-de-l'Est]] (un wikilien vers une page d'homonymies).
Merci encore pour ce numéro.  
— Cantons-de-l'Est p|d|d 🧹 4 août 2023 à 23:24 (CEST)[répondre]

Bonjour,
Intéressant numéro, comme d'habitude ! Je ne savais pas qu'on commençait à parler du biais de genre dès 2011. Cela dit, les deux éditions qui l'évoquent alors ne parlent pas du biais dans les contenus mais dans les profils de contributeurs. Ce qui n'est pas la même chose ni forcément corrélé.
Quant à la baisse du nombre de contributeurs actifs, c'est tout de même un problème spécifiquement anglophone, et même de ce côté-là, depuis 2014 ça s'améliore. Côté francophone, le problème n'en a jamais vraiment été un, même s'il est clair que la progression est très faible depuis 2008. Si je peux me permettre une hypothèse : entre 2004 et 2007, énormément de monde s'est rué sur la version anglophone parce que les gens ayant d'autres langues maternelles (je pense notamment à l'Europe du Nord, centrale et orientale, à l'Asie du Sud-Est voire à certaines langues africaines) ne croyaient peut-être pas au potentiel de développement de leur propre version linguistique. Par la suite, il ont heureusement été détrompés et se sont partiellement ou totalement désintéressés de la version anglophone pour développer la leur. --Laurent Jerry (discuter) 1 août 2023 à 08:28 (CEST)[répondre]
Merci pour ton retour PAC2 (discuter) 2 août 2023 à 23:26 (CEST)[répondre]

 –
Rédigé/traduit par PAC2
Citations originales
Notes
Références
  1. https://design.wikimedia.org/style-guide/visual-style_colors.html
  2. Citation originale « Wikipedia is no longer an encyclopedia, or at least not only an encyclopedia: Over the past decade it has become a kind of factual netting that holds the whole digital world together », traduit avec l'aide de DeepL
  3. « While estimates of its influence can vary, Wikipedia is probably the most important single source in the training of A.I. models »
  4. « In this light, Wikipedia might be seen as a sheep, caught in the jaws of a wolfish technology marketplace. A free site created in achingly good faith (“Sharing knowledge is by nature an act of kindness,” Wikimedia noted in 2017, on a page devoted to its strategic direction) is being devoured by companies whose objectives — like charging for subscriptions, as OpenAI recently began doing for its latest model — don’t jibe with its own. »
  5. Voir cet article sur le nouveau plug-in : https://diff.wikimedia.org/2023/07/13/exploring-paths-for-the-future-of-free-knowledge-new-wikipedia-chatgpt-plugin-leveraging-rich-media-social-apps-and-other-experiments/
  6. « It’s a way for us to sort of experiment with the idea of ‘What does it look like for Wikipedia to exist outside of the realm of the website »
  7. https://arxiv.org/pdf/2305.17493.pdf
  8. « Ultimately, the study concluded that the value of data from “genuine human interactions” will be increasingly valuable for future L.L.M.s. At least for today’s Wikipedians, that seems like encouraging news, insofar as it suggests our new machines will need us, at least for a while, to keep them honest and functional — and dependent on us. »
  9. Découvert via https://wikis.world/@theresnotime/110781722323252623
  10. Source: https://mastodon.social/@mat@mapstodon.space/110604121485964174
  11. https://upload.wikimedia.org/wikipedia/commons/1/1b/Wikidata_ontology_issues_%E2%80%94_suggestions_for_prioritisation_2023.pdf
  12. https://wikif.hypotheses.org/date/2022/10
  13. Découvert via https://mapstodon.space/@dmontagne/110702065790961146
  14. https://mastodon.social/@maelle/110745998557093281
  15. https://github.com/wikimedia/WikidataQueryServiceR
  16. https://edjnet.github.io/tidywikidatar/
  17. https://github.com/TS404/WikidataR
  18. https://github.com/adam-lynch/back-of-your-hand
  19. "I made it as a Christmas present for my dad.", source: https://backofyourhand.com/learn-more?continue=%2Fgeo-lookup-done%3Flat%3D48.80880%26lng%3D2.22960#why-did-you-make-this-
  20. Découvert via https://mstdn.social/@OSM_Pontarlier/110620927014347431
  21. https://mastodon.online/@moebeus/110718630850122090