Voilà !
Mon bot a terminé de parcourir tous les articles de la biologie (ceux possédant une taxobox).

Voici donc un bilan de son activité, avec quelques remarques, et des perspectives pour le futur.

Statistiques des actions modifier

Voici les statistiques des traitements effectués :

à insérer

Bilan sur les actions modifier

En premier lieu environ 50% des articles ayant une taxobox ont subit une retouche.

En second lieu les modifications apportées portent (quantités non limités à un par article, donc avec une somme supérieure à 100%) :

  • en très grosse majorité (plus de la moitié des modifications) correction du titre de la taxobox (titre vernaculaire ou typo)
  • ensuite (plus du tiers des modifications) la suppression ou la modification de la légende (identique au NS, pas d'image…)
  • ensuite (plus du quart des modifications) l'ajout d'un sous-titre pour les articles titrés en vernaculaire
  • ensuite les mises à jour ou ajouts de données CITES et UICN (près d'un tiers des articles modifiés ont eu un ajout ou une mise à jour de ces éléments : un très bon point)
  • ensuite les déplacements de modèle ébauche

Après on tombe dans les très faibles pourcentages, avec en vrac les créations de redirections (gigogne), les créations de section « liens externes »…
On a aussi un peu plus de 5% d'articles avec « incohérence taxobox », que ce soit un rang ou une structure fausse (tous corrigés à la main).

Précautions sur la lecture des statistiques modifier

Ces statistiques sont globalement justes mais ont une certaine imprécision. Les imprécisions ont plusieurs sources :

  • le bot a évolué au fur et à mesure, surtout au début. Il y a donc des choses non détectées / corrigées au début, qui manquent
  • le bot avait certains bugs corrigés ensuite, il y a donc quelques actions invalides
  • le bot a ignoré certains articles suite à détection de problèmes. Ces articles n'ont pas été traités, ou ont été traités (partiellement) par des humains (dans les deux cas des corrections sont comptées à tord ou non comptés alors qu'elles ont été appliquées). Les principales raisons d'articles ignorés sont :
    • les erreurs de lecture : suite à problème réseau chez moi ou sur wikipédia des articles n'ont pu être lu, ils ont été abandonnés
    • les incohérences réelles ou pas : mon bot a détecter des problèmes trop importants dans certains articles pour oser y toucher (le plus fréquent est une incohérence sur le nom scientifique, clé des actions du bot)
    • certains articles ont été modifiés entre le moment ou le bot a listé les articles concernés et le moment où il les a traité (par ex. transformation en biohomonymie, transformation en redirection…)
  • certaines erreurs non détectées ont conduit à des actions (comptabilisés) erronées. Les plus fréquentes sont les erreurs de nom scientifique conduisant à ajouter un sous-titre (comme pour un article titré en vernaculaire) à tord, car il fallait en fait corriger la taxobox

Actions humaines modifier

La quasi-totalité des actions humaines a porté sur :

  • corriger des taxobox erronées : typo de nom scientifique, article renommé sans changer la taxobox, copier/coller conduisant à un rang invalide… (incluant l'ajout non opportun de sous-titres, ainsi que la création de redirection depuis des noms scientifiques qui n'en sont pas)
  • correction de taxobox gigognes mal faites (moyennant les discussions en cours à ce sujet)

Limites modifier

Clairement la plus grande limite du bot est son incapacité à différencier un nom scientifique différent du titre d'un nom vernaculaire (on ne peut le blâmer : même moi des fois j'ai du mal à faire la part des choses  )

Perspectives, futur modifier

En premier lieu ce qui se passera lors de la deuxième passe…

La deuxième passe modifier

Déjà un grand nombre d'articles ne sera plus modifié. Tous ceux qui avaient 1 ou 2 problèmes et ont été corrigés ne devraient plus subir de changement.
Il reste probablement nombre d'articles modifiés à la main qui ont encore quelques problèmes mineurs, ainsi que tous les articles où une erreur s'est produite (que ce soit suite à un problème de connexion ou suite à un renommage de l'article durant les traitements). À celà il faut ajouter certains articles du début de liste (alphabétique) qui n'ont pas été modifiés car certaines fonctionnalités sont apparues plus tard.
Enfin il y a tous les articles créés/modifiés entre-temps et qui peuvent contenir de nouvelles erreurs.

Le futur modifier

Le bot entre en maintenance. Je vais profiter de l'expérience acquise pour retoucher un certain nombre de choses. Dans les plus évidentes :

  • améliorer la robustesse : meilleure détection des erreurs (réseau, wikipédia), afin de re-traiter les articles plus tard (et éviter de générer des logs pour des articles non réellement modifiés)
  • clarifier certains points : gigognes, archéologie, incertae sedis… dont le traitement a varié
  • intégrer la gestion des sous-titres (et des noms vernaculaires) pour la création des redirections
  • ignorer les virus, dont la dénomination scientifique échappe pour le moment à ma compréhension  

Selon les discussions à venir je compte (éventuellement) aussi :

  • intégrer les autres liens externes (les seuls gérés actuellement sont UICN, CITES* et COI)
  • généraliser l'insertion d'une section « liens externes » (ou similaire)
  • généraliser l'insertion de « autres projets » si besoin
  • gérer / modifier les noms scientifiques ou auteurs « curieux », en particulier déplacer les références dans la taxobox vers l'introduction
  • valider le format de l'introduction (présence du ou des noms en formatage « cohérent »)
  • valider la présence des sections de base (introduction, liens externes)
  • intégrer la détection d'images à partir de commons et des interwikis (pour les articles n'ayant pas d'image)
  • éventuellement déplacer les images additionnelles dans le corps de l'article lorsque c'est possible
  • généraliser le plus possible les confirmations de classifications lorsqu'une classification est indiquée dans la taxobox (le taxon est-il bien dans celle indiquée ?) → sur ce point j'ai besoin des membres de chaque projets pour m'indiquer les critères et sources permettant de confronter l'existant au théorique : ça a très bien fonctionné pour les oiseaux, hein PurpleHz ?  

Problèmes non résolus modifier

Il reste un certain nombre de cas où mon bot ne sait pas quoi faire et moi non plus.
Dans le lot, et en vrac :

  • certains taxons sous-spécifiques (principalement en botanique, mais pas seulement), dont le titre/nom scientifique ne sont pas cohérents. Peut-on titrer « Xxxx yyy zzz » et mettre « Xxx yyy subsp. zzz » dans la taxobox ? Comment traite-t-on les sous-genres ? Quid des f. non répercutées en titre ? …
  • des titres qui décrivent des taxons… mais dont la taxobox parle d'un autre taxon qui existe déjà !
  • des articles qui parlent d'une sous-espèce… alors que l'espèce n'existe pas !
  • des articles qui parlent de taxons pour lesquels on n'a aucun lien externe

Je pense que si la biologie veut monter ses articles à un niveau de qualité minimale (c-à-d que les articles existants soient sourcés et en cohérence au moins avec leur contenu) il faudra un effort d'au moins un représentant de chaque sous-groupe pour valider/invalider les articles détectés comme ayant des problèmes.

On peut peut-être envisager (comme pour les projets) des listes de participants qui seraient intéressés par « gérer » les listes de problèmes.