Wikipédia:Utilisation des moteurs de recherche

Cette page est un essai.
N'étant pas une règle ou une recommandation, cette page ne représente pas nécessairement l'opinion de la communauté, mais avant tout l'opinion de ses auteurs.
N’hésitez pas à modifier cette page, ou à la commenter en page de discussion.

Raccourcis [+]

WP:GOO
WP:GOOGLE

En résumé : Lors de débats éditoriaux sur Wikipédia, analysez avec discernement les résultats fournis par les moteurs de recherche (Google, Yahoo, etc.)

Les moteurs de recherche sont des outils permettant de répertorier certaines pages web sur internet. Leur utilisation est un moyen rapide et efficace de vérifier l'existence, la pertinence et la notoriété de certains faits ou certaines informations. Cependant, les résultats fournis lors de ces recherches doivent être interprétés avec précaution.

Cette page vise à fournir quelques informations sur l'utilisation des moteurs de recherche. Google est utilisé comme référence mais d'autres moteurs de recherche suivent les mêmes règles.

Test du moteur de recherche

Utilisation d'un moteur de recherche

Les moteurs de recherches peuvent être utilisés dans différents buts :

Popularité - Permet d'évaluer le nombre d'occurrences (brutes ou pertinentes) sur le net ;
Utilisation - Permet d'identifier le ou les contextes dans lesquels un terme est utilisé ;
Notoriété - Permet de confirmer si un terme ou une notion est répandu ou si le terme est utilisé ;
Sources - Permet d'accéder à des sources « sérieuses » (universités, instituts, sites officiels) pouvant servir de référence ;
Violation de droit d'auteur - Permet d'identifier une portion de texte tirée d'un site et éventuellement sous copyright.

Moteurs de recherche les plus courants

Types de moteurs	Exemples
Moteur de recherche généraliste	Google, Yahoo!, etc.
Moteur de recherche généraliste (ne collectant pas de données sur ses utilisateurs)	Qwant, DuckDuckGo
Statistiques et popularité	Alexa Internet, Hitwise (en), Google Trends
Informations générales	About.com
Moteur de recherche professionnel	Medline (médecine), sciences, law, Google Scholar
Actualité	Google Actualités,
Archives du web	Archive.org, Google cache
Livres	Project Gutenberg, Google Books, Amazon.com

Ce qu'un moteur de recherche peut et ne peut pas faire

Un moteur de recherche peut :

donner de rapides informations sur un sujet ;
établir l'origine d'une citation (qui a dit quoi) ;
donner un ordre de grandeur de la popularité et de l'usage d'une expression ;
être utilisé pour une recherche spécifique sur un site particulier ou bien une recherche avancée imposant des conditions (recherche de type logique).

Un moteur de recherche ne peut pas :

donner accès à toute la documentation existant sur le Web à propos d'un sujet donné ;
assurer la pertinence des résultats (un moteur indexe tout site qui se trouve sur le net, que son contenu soit sérieux ou pas) ;
expliquer pourquoi un terme ou une expression est très présente sur le net et que ceci ne résulte pas d'une opération marketing, de spam ou d'auto-promotion ;
assurer que les occurrences trouvées par un moteur de recherche font bien référence à ce qui était initialement recherché (par exemple, la recherche Jacques Martin donnera toutes les pages contenant Jacques ou Martin ou bien un « Jacques Martin » homonyme).
assurer qu'une source pertinente n'a pas été manquée ;
assurer qu'un terme ou une information qui n'est pas ou peu référencé par un moteur de recherche n'existe pas ou n'a que peu de notoriété ;
donner accès aux connaissances qui ne sont publiées que dans des ouvrages anciens.

Un moteur de recherche ne pourra souvent pas :

donner des résultats dans un domaine particulier aussi à jour qu'un livre ou journal^[pas clair] ;
avoir un point de vue neutre.

Une requête sur un moteur de recherche ne dispense jamais du travail d'interprétation des résultats.

Moteurs de recherche et règles de Wikipédia

Vérifiabilité

Un moteur de recherche est le premier outil utilisable pour vérifier une information mais une requête peut donner des résultats faux, orientés ou partisans ou bien des canulars. Le crédit à apporter à ces informations doit dépendre du sérieux ou du statut officiel (journaux, sites gouvernementaux, universités, instituts, etc.) des sources. Des sources moins sérieuses (sites persos, blog, etc.) ne sont pas forcément à exclure mais doivent être considérées avec précaution et les informations rapportées doivent être correctement attribuées de façon que le lecteur puisse se faire une idée du crédit à leur accorder.

Neutralité

Google (et tout autre moteur de recherche) n'applique pas, contrairement à Wikipédia, de politique de neutralité de point de vue. Les résultats donnés par une requête peuvent provenir de sites personnels ou de médias qui n'appliquent pas une politique de neutralité.

Un résultat Google n'est donc pas une source neutre pour établir le titre d'un article mais renseigne seulement sur la popularité d'un terme.

Notoriété

Un résultat brut est une estimation grossière de l'importance d'un sujet. Certains sujets peu importants donneront beaucoup de résultats tandis que certains plus importants seront peu abordés sur le net (voir explication plus bas).

Le nombre de résultats bruts d'une requête ne peut que rarement, sans discussion, ni analyse, démontrer la notoriété.

Interprétation des résultats

Nombre de résultats en première page

En première page de résultats, le chiffre « environ X résultats » n'est qu'une estimation à partir de la fréquence des mots de la requête, et est donc inutilisable pour quelque calcul que ce soit^[1]. Le résultat voulu n'est pas cette estimation de la première page, mais la dernière page de résultats, obtenue en ajoutant à la fin de l'URL &start=990 car le nombre limite de résultats est 1 000 (mais significative seulement s'il y a moins de 1 000 résultats bruts : voir ci-après).

Le nombre de mots dans la recherche affecte le résultat : le pourcentage d’estimations correctes est réduit de moitié lorsque l’on passe d’une recherche sur un terme à une recherche sur deux termes : en augmentant le nombre de termes dans la recherche, l’erreur d’estimation augmente et le nombre d’estimations correctes diminue^[2].

Résultats les plus pertinents

Google affiche par défaut les résultats « les plus pertinents », qui sont à distinguer des résultats bruts que l'on peut afficher en ajoutant à la fin de l'URL &filter=0. Les résultats non pertinents au sens de Google, inclus dans les résultats bruts mais non dans les résultats par défaut, sont les résultats similaires à d'autres déjà affichés, notamment des copies automatiques du même contenu, comme un message sur un forum et les différentes réponses à ce message. Il est évident que le sens du mot « pertinent » dans ce paragraphe n'a rien à voir avec celui qu'il a sur Wikipédia ; les résultats « les plus pertinents » sont un moyen de corriger le biais provoqué par les vues multiples d'un même contenu, mais n'indiquent en aucun cas si les résultats correspondent à des sites internet réputés.

Pour des raisons qui lui sont propres, Google ne génère aucun résultat brut (« pertinent » ou non) au-delà du 1 000^e. Lorsqu'on ne demande pas explicitement à voir les résultats bruts, les résultats affichés par défaut sont donc les résultats « les plus pertinents » parmi les 1 000 premiers résultats bruts. Aller à la dernière page de résultats ne donne donc le nombre réel de résultats « les plus pertinents » que si le nombre total de résultats bruts est inférieur à 1 000.

Limite des moteurs de recherche

Le résultat d'une requête sur un moteur de recherche peut parfois donner des résultats ambigus :

confusion entre la partie et le tout : Google permet d'indexer une partie de la connaissance qui est éditée sur la Toile ; mais ce qui est indexé par Google n'est ni la totalité de la Toile, ni la totalité des connaissances présentes dans le monde ;
confusion entre la qualité et la quantité : on préfère le décomptage des réponses à l'évaluation de la qualité argumentative ;
confusion entre l'information et la réalité : les informations fournies par Google refléteraient le réel sans intermédiaire.

Exemples :

la requête « « suicide dans les prisons irlandaises » » dans Google ne donnait pas de lien le 18 octobre 2004, ce qui aurait permis à un sophiste de conclure que ce phénomène n'existait pas à cette date.
une requête Google avec Bravitude donne des dizaines de milliers de résultats tout comme la requête « Je suis aller » (avec une faute d'orthographe).

La présence ou l'absence d'un simple mot ou d'une expression sur un support quelconque n'a jamais influé sur la validité d'une idée. Un résultat brut donné par un moteur de recherche doit toujours être soigneusement analysé.

Notes et références

↑ Jonathan de Boyne Pollard, Google result counts are a meaningless metric, 2008.
↑ Ahmet Uyar (2009). Investigation of the accuracy of search engine hit counts, Journal of Information Science.

Voir aussi

Wikipédia:Ressources en ligne
Ngram Viewer, prenant en compte les livres scannés et montrant l'évolution au cours du temps

[1] Jonathan de Boyne Pollard, Google result counts are a meaningless metric, 2008.

[2] Ahmet Uyar (2009). Investigation of the accuracy of search engine hit counts, Journal of Information Science.

[1]

[2]