Pré-requis: Recherches sur le web I

Recherches sur le web II: moteurs de recherches & nouveaux développement internet

TODO

wikipedia
traducteurs update
directory.google.com
labs.google.com
http://scholar.google.com/
http://earth.google.com/
XML
rss
forums

Index

Introduction
Google
Altavista
HotBot
Métamoteurs
Pages dynamiques
XML
Divers
 
Conclusion

Introduction

Principes de bases des moteurs de recherche

Les moteurs de recherche sont des bases de données recensant des échantillons d'internet (qui constitue l'univers du point de vue statistique). Il ne représentent donc que la face visible du web, estimée à 8 à 12% d'internet. "The Dark Side of the Web" constitue le reste, inaccessible directement par un moteur. D'autre part, les échantillons des moteurs de recherche ne sont pas synchrones, et  donnent parfois des résultats obsolètes (des pages qui ne sont plus disponibles sur le web). Ils ne permettent en outre pas d'interroger des sites dynamiques (créés à partir de bases de données).

La plupart des moteurs sont une combinaison d'agents intelligents (robots brassant l'internet et alimentant la base de données + effectuant le désherbage) et d'agents humains (arpenteurs signalant des sites intéressants, employés du moteur de recherche). Les essais purement robotiques n'ont pas donné les résultats escomptés (ex. Altavista début 2000). Ceci s'explique facilement, étant donné qu'il est relativement facile de tromper un robot en utilisant des outils à des fins détournées (en donnant p. ex. des mots-clés dans les meta-balises -metatags- qui ne correspondent pas au contenu du site).

FAQ:
- comment les moteurs se financent-ils?

- pourquoi ce site qui me semble important n'est-il pas référencé?
Plusieurs possibilités: trop récent, ou le webmaster ne s'est pas inscrit auprès du moteur utilisé, les arpenteurs ne l'ont pas signalé, site dynamique, etc. Vous pouvez facilement référencer des sites, p. ex. par l'interface d'Abondance (http://www.abondance.com/docs/ref/referencement.html) ou chez Google à l'adresse http://www.google.com/intl/fr/addurl.html.

Recherches avancées

La plupart des moteurs proposent des options de recherche avancées, très souvent indispensables pour parvenir à des résultats de qualité. Il s'agit principalement d'un interface expliquant comment utiliser des recherches booléennes, ainsi que des catégories propres à chaque moteur. Il n'y a malheureusement pas - ou peu - d'homogénéité dans les grammaires de recherche, ce qui oblige à faire plusieurs recherches dans les différents moteurs ou à utiliser des métamoteurs (cf. infra).

Google

Google est aujourd'hui le moteur le plus performant, tant au niveau de la rapidité des résultats que de leur quantité et surtout de leur qualité. Cette qualité se base notamment sur le système original de Google dans le classement des résultats. La pondération se fait sur 2 critères: ATTENTION: malgré une renommée moins commerciale, Google, comme ses concurrents, propose à ses clients "d'acheter" une place dans sa hiérarchie. Moyennant paiement, vous pouvez contraindre la pondération en votre faveur et ainsi pousser le moteur à vous placer dans les premiers résultats.

Opérateurs spéciaux chez Google

Choisir en haut à droite "Recherche avancée" ou "Advanced Search". Vous disposez maintenant d'un formulaire vous facilitant la recherche avancée. Toutes les options sont aussi disponibles "manuellement", c'est-à-dire en tapant directement dans la fenêtre de recherche et la grammaire est spécifiée à http://www.google.com/help/operators.html.

Parmi les opérateurs intéressants, relevons:

cache: permet de visualiser le cache de Google (les archives de la base), très utile lorsque la ressource n'est plus ou pas disponible sur internet. On obtient le même résultat en clickant sur l'option "Cached" dans la liste de résultats d'une recherche Google standard.

link: permet de visualiser les pages recensées par google qui pointent sur l'adresse spécifiée

spell: lorsque vous n'êtes pas sûr de l'orthographe d'un terme, Google vous propose termes approchants

site: TRES utile, restreint la recherche au site spécifié

allintitle: permet de spécifier que l'on ne recherche que dans le titre de la page (ce qui apparaît tout en haut de la fenêtre de votre navigateur quand vous affichez la page); défaut: certains sites ne spécifient rien dans le titre. Avantage: discriminant.

filetype:pdf permet de limiter la recherche au fichiers PDF (portable document format), utile pour la recherche de texte intégral

Altavista

Altavista a longtemps été LE moteur de recherche académique. Après une période de disgrâce (fin 1999 - mi-2000), les responsables de cette société ont engagé plus d'un millier d'étudiants pour mettre à jour leur base de donnée. Depuis, on peut légitiment considérer qu'il s'agit à nouveau d'un bon moteur de recherche, même s'il est nettement plus pollué par les sites commerciaux que Google ou Hotbot. Jusqu'à l'an passé, Altavista proposait un moteur plus dépouillé (Raging Search), mais ce système a malheureusement été abandonné en 2001 au profit d'un système de recherche en texte seulement (utile si vous voulez des résultats très rapidement ou si vous utilisez un navigateur non graphique, genre Mosaic ou Lynx; on peut penser que cela appartient au passé, mais avec le développement d'interfaces miniaturisés - WAP, montres etc. - l'internet "Text-Only" a encore de beaux jours devant lui).

L'atout principal d'Altavista réside dans ses options de recherche avancées. Une fenêtre permet d'entrer directement des requêtes booléennes, qui satisferont les puristes. Attention, les opérateurs raccourcis "standards" (+ pour ET/AND, - pour SANS/AND NOT etc. ne fonctionnent pas en recherche avancée!!! Utiliser & pour AND, | pour OR, ! pour AND NOT, ~ pour NEAR). Notons au passage qu'Altavista utilise AND NOT et non NOT simplement...

L'opérateur sans doute le plus intéressant d'Altavista (non disponible sur Google p. ex.) est l'opérateur de proximité, NEAR. Voir à cet égard l'exemple du sang du christ.

D'autres fonctionnalités sont disponibles, notamment dans l'ordonnancement des résultats, les dates etc.

Le nombre de résultats par page est utile lorsque l'on se connecte depuis son domicile avec un modem lent, on a intérêt à réduire le nombre de réponses par page (et accélérer ainsi le chargement de chaque page). A l'inverse, il est utile de mettre un maximum de réponses par page si l'on est sur une ligne à haut débit (notamment pour rechercher DANS la page de résultats avec CTRL-F).

Attention: relativement à certaines de ces fonctionnalités, il faut savoir les choses suivantes (valable pour tout les moteurs de recherche):

HotBot (Lycos)

Excellent moteur de recherche relativement méconnu des jeunes générations, ses fonctions avancées sont très facile à utiliser et permettent une forte discrimination dans les requêtes - avec les réserves faites ci-dessus, notamment sur les dates, la géographie etc, qui restent valables. Certaines fonctions sont - de mon point de vue - mystérieuses, comme l'option "Personal Page" (je ne vois pas comment le moteur calcule cela). De nombreuses balises meta sont disponibles, permettant p. ex. de savoir si la page recherchée contient des balises de formulaires, des tableaux, des images etc. Il s'agit sans doute du moteur le plus complet au niveau des opérateurs disponibles - mais pas forcément du plus efficace, tout dépend du motif de recherche.

Métamoteurs Copernic

Plusieurs systèmes proposent des métamoteurs, à savoir des interfaces permettant d'interroger simultanément différents moteurs. La plus grande réserve s'impose ici: certains de ces métamoteurs n'interrogent manifestement pas en temps réel la base visée - il suffit pour cela de comparer les résultats entre le moteur X sur le métamoteur Y et le moteur X tout court, j'ai eu notamment des différences sensibles entre Metacrawler et Altavista. L'un des métamoteurs les plus performants est le logiciel Copernic, que vous pouvez installer gratuitement sur votre PC, et qui interroge en temps réel, en "traduisant" vos requêtes dans les différentes grammaires avec des résultats relativement bon, et une sauvegarde par défaut des liens recensés. Dans sa version "pro", disponible sur la machine du bibliothécaire en SR, il est possible (théoriquement, je n'ai jamais réussi à l'utiliser correctement) de faire de la veille, p. ex. en répétant un motif de recherche effectué préalablement et en affichant seulement les différences par rapport à la requête précédente. Un des points forts de Copernic: la quasi-absence de doublons (une des grandes faiblesses de Google, pour le moment toutefois car les concepteurs de ce service ont annoncé qu'ils travaillaient à résoudre ce problème).

Pages dynamiques

Par page dynamique, on entend 2 choses: soit du "dynamic HTML" - abrégé DHTML, qui permet notamment de faire des menus hiérarchiques (HierMenus) et diverses opérations graphiques. La nécessité de tenir compte du type et de la version du navigateur utilisé par l'arpenteur ont conduit, malheureusement, à une perte de vitesse du DHTML, pourtant très intéressant sur le plan de l'ergonomie et de la personnalisation.
L'autre acception des pages dynamiques - celle que nous retenons ici - est celle de pages générées par le serveur, à partir d'une base de données (p. ex. MySQL) et d'un langage de script (p. ex. Perl ou PHP). Vous pouvez prendre l'exemple des menus des ressources du SR: ici, voici les menus "traditionnels" (HTML simple), et ici, un prototype dynamique.

Les avantages des systèmes dynamiques sont:

Les désavantages des systèmes dynamiques sont:

XML

Pour eXtensible Markup Language, XML est l'héritier (simplifié) du projet SGML (80's) qui visait à permettre la création d'une infinité de grammaires pour la génération de documents électroniques.
XML constitue certainement l'avenir du web, avec les pages dynamiques (auquel il s'apparente partiellement); en attendant sa généralisation, il existe déjà une norme à cheval entre le "vieux" HTML et le XML, le XHTML.
En deux mots, XML est un langage dans lequel le concepteur de pages web peut générer ses propres balises, au lieu de se limiter aux balises HTML standard. On peut ainsi personnaliser à l'infini sa grammaire, selon ses besoins. Ensuite, il faut créer des "traducteurs" sous forme de feuilles de style, qui permettent de générer l'information selon différents formats (HTML, PDF etc.), avec différentes structures (p. ex. seulement les titres, ou les titres et les contenus. etc.). Il ne s'agit donc pas uniquement de styles (pour ce faire, on dispose déjà d'un outil très performant, les CSS - pour Cascading Style Sheets) mais d'une quasi-base de données, permettant notamment d'extraire d'une même "base" (le fichier XML) différentes présentations.

Avantage: très grande liberté, possibilité de créer des pages avec un simple éditeur de texte, plus simple à utiliser qu'une base de données et permettant pratiquement les mêmes libertés, notamment pour la recherche.
Désavantages: il n'existe en ce moment aucun "parser" (afficheur) XML dans les navigateurs standards, même les plus récents. Il faut donc prévoir des traducteurs dans des formats lisibles (HTML, PDF etc.), mais au vu du succès du XML, cela devrait changer dans un proche avenir; en outre, le système est encore parfois instable (ex.: un CV en différents formats, notamment PDF). En outre, la structure d'un fichier XML, si elle est simple pour un informaticien (parents-enfants) est difficile é manier pour un néophyte, notamment pour retrouver de l'information de manière structurée.
 

Divers

De très nombreuses informations se cachent aussi dans les news et les listes de diffusion, qui sont en général peu ou pas indexées par les moteurs de recherche. Heureusement, la plupart des news permettent une recherche interne dans la base de donnée, ou se présentent sous forme de longs fichiers organisés chronologiquement, permettant d'utiliser le CTRL-F pour y effectuer des recherches.
En outre, d'autres langages n'ont pas été évoqués, tout particulièrement le très puissant - et difficile - Java, développé par Sun.
 

Conclusion

Personne ne sait de quoi internet sera fait demain, ceux qui prétendent le contraire mentent - ou vont s'enrichir considérablement. On constate en tout cas un dilemme entre les innovations technologiques (bases de données, XML etc.) et la miniaturisation (WAP etc.), ainsi que la réduction prévisible de la bande passante, ainsi que les habitudes des arpenteurs (ex. avec les nouveaux plugins Java GUI - SWING - qui ne sont pas disponibles dans Netscape < 6.0, doivent donc être téléchargés en même temps que la page, ce qui rend la consultation de ce type de fichier quasi impossible depuis un modem privé).

De mon point de vue, il faut chercher à:



| F.Radeff