Recherches sur le web II: moteurs de recherches & nouveaux développement
internet
TODO
wikipedia
traducteurs update
directory.google.com
labs.google.com
http://scholar.google.com/
http://earth.google.com/
XML
rss
forums
Index
Introduction
Principes de bases des moteurs de recherche
Les moteurs de recherche sont des bases de données recensant des
échantillons
d'internet (qui constitue l'univers du point de vue statistique). Il ne
représentent donc que la face visible du web, estimée à
8 à 12% d'internet. "The Dark Side of the Web" constitue le reste,
inaccessible directement par un moteur. D'autre part, les échantillons
des moteurs de recherche ne sont
pas synchrones, et donnent
parfois des résultats obsolètes (des pages qui ne sont plus
disponibles sur le web). Ils ne permettent en outre pas d'interroger des
sites dynamiques (créés à partir de bases de données).
La plupart des moteurs sont une combinaison d'agents intelligents
(robots brassant l'internet et alimentant la base de données + effectuant
le désherbage) et d'agents humains (arpenteurs signalant
des sites intéressants, employés du moteur de recherche).
Les essais purement robotiques n'ont pas donné les résultats
escomptés (ex. Altavista début 2000). Ceci s'explique facilement,
étant donné qu'il est relativement facile de tromper un robot
en utilisant des outils à des fins détournées (en
donnant p. ex. des mots-clés dans les meta-balises -metatags- qui
ne correspondent pas au contenu du site).
FAQ:
- comment les moteurs se financent-ils?
-
bandeaux publicitaires
-
vente d'informations sur les pratiques des surfers au monde commercial,
souvent lié à...
-
vente d'informations personnelles sur les surfers, lorsque ceux-ci en donnent
(si vous ne donnez pas d'informations, vous restez anonymes; le serveur
ne peut savoir que l'adresse ip de votre fournisseur d'accès à
internet et l'adresse du dernier site que vous avez consulté. Pour
connaître votre email, il FAUT que vous le fournissiez)
-
vente aux entreprises de moteurs de recherche interne (Google p. ex. propose
d'excellents services, très cher - de l'ordre de plusieurs milliers
de SFR par mois pour organiser un moteur de recherche interne pour de grands
sites)
- pourquoi ce site qui me semble important n'est-il pas référencé?
Plusieurs possibilités: trop récent, ou le webmaster
ne s'est pas inscrit auprès du moteur utilisé, les arpenteurs
ne l'ont pas signalé, site dynamique, etc. Vous pouvez facilement
référencer des sites, p. ex. par l'interface d'Abondance
(http://www.abondance.com/docs/ref/referencement.html)
ou chez Google à l'adresse http://www.google.com/intl/fr/addurl.html.
Recherches avancées
La plupart des moteurs proposent des options de recherche avancées,
très souvent indispensables pour parvenir à des résultats
de qualité. Il s'agit principalement d'un interface expliquant comment
utiliser des recherches booléennes, ainsi que des catégories
propres à chaque moteur. Il n'y a malheureusement pas - ou peu -
d'homogénéité dans les grammaires de recherche, ce
qui oblige à faire plusieurs recherches dans les différents
moteurs ou à utiliser des métamoteurs (cf. infra).
Google est aujourd'hui le moteur le plus performant, tant au niveau
de la rapidité des résultats que de leur quantité
et surtout de leur qualité. Cette qualité se base notamment
sur le système original de Google dans le classement des résultats.
La pondération se fait sur 2 critères:
-
la popularité, comme c'est le cas sur la plupart des autres
moteurs, calculée en fonction de la demande des usagers pour tel
ou tel site. Revers de la médaille: des homonymes "grand public"
créent un bruit considérable dans la recherche académique,
exemple (toujours le même...) de Calvin & Hobbes pour le théologien
Calvin;
-
l'importance (qualité du contenu) est calculée de
manière intéressante, selon le principe suivant:
"Essentiellement, Google interprète un lien de la page A
vers la page B comme un vote, de la page A, en faveur de la page B. Google
détermine l'importance d'une page par les votes qu'elle reçoit.
Mais Google ne se limite pas à compter le nombre de votes, ou liens
; il analyse également la page qui émet le vote. Les votes
émis par des pages qui sont elles-mêmes "importantes" ont
plus de poids et contribuent à rendre d'autres pages "importantes".
(http://www.google.com/intl/fr/why_use.html).
ATTENTION: malgré une renommée moins commerciale, Google,
comme ses concurrents, propose à ses clients "d'acheter" une place
dans sa hiérarchie. Moyennant paiement, vous pouvez contraindre
la pondération en votre faveur et ainsi pousser le moteur à
vous placer dans les premiers résultats.
Opérateurs spéciaux chez Google
Choisir en haut à droite "Recherche avancée" ou "Advanced Search".
Vous disposez maintenant d'un formulaire vous facilitant la recherche avancée.
Toutes les options sont aussi disponibles "manuellement",
c'est-à-dire en tapant directement dans la fenêtre de recherche
et la grammaire est spécifiée à http://www.google.com/help/operators.html.
Parmi les opérateurs intéressants, relevons:
cache: permet de visualiser le cache de Google (les archives
de la base), très utile lorsque la ressource n'est plus ou pas disponible
sur internet. On obtient le même résultat en clickant sur
l'option "Cached" dans la liste de résultats d'une recherche Google
standard.
link: permet de visualiser les pages recensées par google
qui pointent sur l'adresse spécifiée
spell: lorsque vous n'êtes pas sûr de l'orthographe
d'un terme, Google vous propose termes approchants
site: TRES utile, restreint
la recherche au site spécifié
allintitle: permet de spécifier que l'on ne recherche
que dans le titre de la page (ce qui apparaît tout en haut de la
fenêtre de votre navigateur quand vous affichez la page); défaut:
certains sites ne spécifient rien dans le titre. Avantage: discriminant.
filetype:pdf permet de limiter la recherche au fichiers PDF (portable
document format), utile pour la recherche de texte intégral
Altavista a longtemps été
LE moteur de recherche académique. Après une période
de disgrâce (fin 1999 - mi-2000), les responsables de cette société
ont engagé plus d'un millier d'étudiants pour mettre à
jour leur base de donnée. Depuis, on peut légitiment considérer
qu'il s'agit à nouveau d'un bon moteur de recherche, même
s'il est nettement plus pollué par les sites commerciaux que Google
ou Hotbot. Jusqu'à l'an passé, Altavista proposait un moteur
plus dépouillé (Raging Search), mais ce système a
malheureusement été abandonné en 2001 au profit d'un
système de recherche en texte seulement (utile si vous voulez des
résultats très rapidement ou si vous utilisez un navigateur
non graphique, genre Mosaic ou Lynx; on peut penser que cela appartient
au passé, mais avec le développement d'interfaces miniaturisés
- WAP, montres etc. - l'internet "Text-Only" a encore de beaux jours devant
lui).
L'atout principal d'Altavista réside dans ses options de recherche
avancées. Une fenêtre permet d'entrer directement des requêtes
booléennes, qui satisferont les puristes. Attention, les opérateurs
raccourcis "standards" (+ pour ET/AND, - pour SANS/AND NOT etc. ne fonctionnent
pas en recherche avancée!!! Utiliser & pour AND, | pour OR,
! pour AND NOT, ~ pour NEAR). Notons au passage qu'Altavista utilise AND
NOT et non NOT simplement...
L'opérateur sans doute le plus intéressant d'Altavista
(non disponible sur Google p. ex.) est l'opérateur de proximité,
NEAR. Voir à cet égard l'exemple
du sang du christ.
D'autres fonctionnalités sont disponibles, notamment dans l'ordonnancement
des résultats, les dates etc.
Le nombre de résultats par page est utile lorsque l'on se connecte
depuis son domicile avec un modem lent, on a intérêt à
réduire le nombre de réponses par page (et accélérer
ainsi le chargement de chaque page). A l'inverse, il est utile de mettre
un maximum de réponses par page si l'on est sur une ligne à
haut débit (notamment pour rechercher DANS la page de résultats
avec CTRL-F).
Attention: relativement à certaines de ces fonctionnalités,
il faut savoir les choses suivantes (valable pour tout les moteurs de recherche):
-
linguistique / géographique: à moins d'être sur un
moteur régional qui devrait privilégier les résultats
dans la même langue ou nationaux (de par la constitution de sa base
de données), ce genre d'opérateurs doit être manié
avec prudence. En effet, si l'on choisit par exemple le web francophone
et que l'Université de la Louisiane propose des ressources en français
sur la requête retenue, il se peut que ces résultats ne soient
pas pris en compte. De très nombreux webmasters ne spécifient
pas dans leur meta-balises la langue du document.
-
dates: encore faut-il que les dates soient spécifiées! Si
elle n'est pas entrée "à la main", elle est souvent intégrée
automatiquement sur la base de l'horloge du serveur (unix stamp, le plus
courant), et il arrive parfois (j'ai eu l'expérience il y 2 semaines
avec un serveur de l'université de Sofia) que la date fournie par
le serveur soit fausse (le plus souvent: 1904 ou 1974 - 1974 est le début
du "temps Unix").
langage naturel: sans doute la plus grande arnaque du web. Citons notamment
Ixquick, qui m'a contacté pour que je le mentionne dans mes signets,
et qui prétend répondre à des requêtes en langage
naturel. Dans ses exemples,
il propose par exemple la phrase "Qui est le fils de Dark Vador?". J'ai
fait l'essai le 21.8.01 à 11h30 (soyons prudent, il se peut que
la même requête ne donne pas le même résultat
plus tard), et le moteur ne m'a renvoyé... aucun résultat!
Voir aussi, à cet égard, mon test
du moteur albert.
Excellent moteur de recherche relativement méconnu des jeunes générations,
ses fonctions avancées sont très facile à utiliser
et permettent une forte discrimination dans les requêtes - avec les
réserves faites ci-dessus, notamment sur les dates, la géographie
etc, qui restent valables. Certaines fonctions sont - de mon point de vue
- mystérieuses, comme l'option "Personal Page" (je ne vois pas comment
le moteur calcule cela). De nombreuses balises meta sont disponibles, permettant
p. ex. de savoir si la page recherchée contient des balises de formulaires,
des tableaux, des images etc. Il s'agit sans doute du moteur le plus complet
au niveau des opérateurs disponibles - mais pas forcément
du plus efficace, tout dépend du motif de recherche.
Plusieurs systèmes proposent des métamoteurs, à savoir
des interfaces permettant d'interroger simultanément différents
moteurs. La plus grande réserve s'impose ici: certains de ces métamoteurs
n'interrogent manifestement pas en temps réel la base visée
- il suffit pour cela de comparer les résultats entre le moteur
X sur le métamoteur Y et le moteur X tout court, j'ai eu notamment
des différences sensibles entre Metacrawler
et Altavista. L'un des métamoteurs les plus performants est le logiciel
Copernic,
que vous pouvez installer gratuitement sur votre PC, et qui interroge en
temps réel, en "traduisant" vos requêtes dans les différentes
grammaires avec des résultats relativement bon, et une sauvegarde
par défaut des liens recensés. Dans sa version "pro", disponible
sur la machine du bibliothécaire en SR, il est possible (théoriquement,
je n'ai jamais réussi à l'utiliser correctement) de faire
de la veille, p. ex. en répétant un motif de recherche effectué
préalablement et en affichant seulement les différences par
rapport à la requête précédente. Un des points
forts de Copernic: la quasi-absence de doublons (une des grandes faiblesses
de Google, pour le moment toutefois car les concepteurs de ce service ont
annoncé qu'ils travaillaient à résoudre ce problème).
Pages dynamiques
Par page dynamique, on entend 2 choses: soit du "dynamic HTML" - abrégé
DHTML, qui permet notamment de faire des menus hiérarchiques (HierMenus)
et diverses opérations graphiques. La nécessité de
tenir compte du type et de la version du navigateur utilisé par
l'arpenteur ont conduit, malheureusement, à une perte de vitesse
du DHTML, pourtant très intéressant sur le plan de l'ergonomie
et de la personnalisation.
L'autre acception des pages dynamiques - celle que nous retenons ici - est celle
de pages générées par le serveur, à partir d'une base
de données (p. ex. MySQL) et d'un langage de script (p. ex. Perl ou PHP).
Vous pouvez prendre l'exemple des menus des ressources du SR: ici,
voici les menus "traditionnels" (HTML simple), et ici,
un prototype dynamique.
Les avantages des systèmes dynamiques sont:
-
la possibilité de présenter les mêmes ressources de
différentes manières, et la mise à jour facilitée
(si l'on change p. ex. un URL dans la base, toutes les extractions prendront
compte de la modification)
- la possibilité de trier les informations de différentes manières
(p. ex., mes nouveaux
signets ou les nouvelles
ressources électroniques du SR)
-
la possibilité de créer un interface convivial et disponible
partout sur internet (éventuellement protégé par un
login + password) pour entrer des ressources et faire la mise à
jour, exemple ici
-
la possibilité de chercher de manière exhaustive et discriminée
dans la base, exemple ici;
attention, il ne s'agit pas de l'artifice souvent utilisé (p. ex.
sur le site web BCU ou sur www.admin.ch) consistant à faire appel
à un moteur de recherche externe en limitant la requête à
un signe spécifique. Dans ce cas, on ne maîtrise pas la grammaire
de recherche et on ne sait pas quel est l'échantillon retenu par
le moteur de recherche, à moins de le faire dans le cadre d'un système
payant, très onéreux (cf. supra). Les résultats ne
sont donc ni exhaustifs ni discriminés, on évite simplement
du bruit, mais pour peu que le site soit très riche on n'est pas
très avancé (typiquement sur ww.admin.ch).
Les désavantages des systèmes dynamiques sont:
-
beaucoup plus difficiles à mettre en place
-
relative rigidité (on ne peut introduire que ce qui est autorisé
par la base) - mais on peut "bricoler", notamment en indiquant dans la
base l'URL (uniform ressource locator) d'un fichier HTML "classique", dans
lequel on peut insérer des informations qui ne trouvent pas leur
place dans les "classeurs" de la base de données
-
pas indexé par les moteurs de recherche, à moins de faire
cohabiter des pages statiques et dynamiques (la solution la plus souvent
retenue)
-
nécessité de disposer d'outils sur le serveur (c'est rarement
le cas chez des fournisseurs d'accès privés)
-
un peu (imperceptiblement) plus lent, puisque le serveur doit mouliner
sa base de données avant d'afficher ses résultats
ne marche pas avec un proxy, dont le but est de rendre plus rapide
l'accès au cache d'un fournisseur d'accès (typiquement pour
www.unil.ch) pour les pages les plus fréquemment consultées;
la page est donc rechargée à chaque fois
XML
Pour eXtensible Markup Language, XML est l'héritier (simplifié)
du projet SGML (80's) qui visait à permettre la création
d'une infinité de grammaires pour la génération de
documents électroniques.
XML constitue certainement l'avenir du web, avec les pages dynamiques
(auquel il s'apparente partiellement); en attendant sa généralisation,
il existe déjà une norme à cheval entre le "vieux"
HTML et le XML, le XHTML.
En deux mots, XML est un langage dans lequel le concepteur de pages
web peut générer ses propres balises, au lieu de se limiter
aux balises HTML standard. On peut ainsi personnaliser à l'infini
sa grammaire, selon ses besoins. Ensuite, il faut créer des "traducteurs"
sous forme de feuilles de style, qui permettent de générer
l'information selon différents formats (HTML, PDF etc.), avec différentes
structures (p. ex. seulement les titres, ou les titres et les contenus.
etc.). Il ne s'agit donc pas uniquement de styles (pour ce faire, on dispose
déjà d'un outil très performant, les CSS - pour Cascading
Style Sheets) mais d'une quasi-base de données, permettant notamment
d'extraire d'une même "base" (le fichier XML) différentes
présentations.
Avantage: très grande liberté, possibilité de créer
des pages avec un simple éditeur de texte, plus simple à
utiliser qu'une base de données et permettant pratiquement les mêmes
libertés, notamment pour la recherche.
Désavantages: il n'existe en ce moment aucun "parser" (afficheur)
XML dans les navigateurs standards, même les plus récents.
Il faut donc prévoir des traducteurs dans des formats lisibles (HTML,
PDF etc.), mais au vu du succès du XML, cela devrait changer dans
un proche avenir; en outre, le système est encore parfois instable
(ex.: un CV en différents
formats, notamment PDF).
En outre, la structure d'un fichier XML, si elle est simple pour un informaticien
(parents-enfants) est difficile é manier pour un néophyte,
notamment pour retrouver de l'information de manière structurée.
Divers
De très nombreuses informations se cachent aussi dans les news et
les listes de diffusion, qui sont en général peu ou pas indexées
par les moteurs de recherche. Heureusement, la plupart des news permettent
une recherche interne dans la base de donnée, ou se présentent
sous forme de longs fichiers organisés chronologiquement, permettant
d'utiliser le CTRL-F pour y effectuer des recherches.
En outre, d'autres langages n'ont pas été évoqués,
tout particulièrement le très puissant - et difficile - Java,
développé par Sun.
Conclusion
Personne ne sait de quoi internet sera fait demain, ceux qui prétendent
le contraire mentent - ou vont s'enrichir considérablement. On constate
en tout cas un dilemme entre les innovations technologiques (bases de données,
XML etc.) et la miniaturisation (WAP etc.), ainsi que la réduction
prévisible de la bande passante, ainsi que les habitudes des arpenteurs
(ex. avec les nouveaux plugins Java GUI - SWING - qui ne sont pas disponibles
dans Netscape < 6.0, doivent donc être téléchargés
en même temps que la page, ce qui rend la consultation de ce type
de fichier quasi impossible depuis un modem privé).
De mon point de vue, il faut chercher à:
-
suivre l'actualité des développement, p. ex. sur des sites
comme slashdot.org afin de savoir quel
système à le vent en poupe, et lequel est moribond (permet
d'éviter de faire de grosses erreurs) et en prenant le café
avec des informaticiens de temps en temps (pas trop souvent sinon ça
donne des céphalées)
-
privilégier les langages et logiciels GPL (general public license)
et Open Source; internet ayant en effet été fondé
sur ce principe (la collaboration et la libre utilisation des ressources),
seuls ces systèmes peuvent bénéficier d'un développement
international; tous les autres systèmes demandent au moins l'achat
d'un logiciel capable de lire et comprendre les données, l'exemple
le plus répandu étant les pages dynamiques de Microsoft,
que l'on peut déceler par l'extension ".asp" (pour active server
page), très facile à réaliser mais demandant un serveur
Microsoft et des logiciels idoines.
| F.Radeff