Personal tools
Vous êtes ici : Accueil Documentation (CDI) Réseau et animation nationale Plan national de formation PNF 1997 Repérage de l'information sur Internet : Nouveaux outils, approches bibliothéconomiques et micro-structures

Repérage de l'information sur Internet : Nouveaux outils, approches bibliothéconomiques et micro-structures



Ghislaine Chartron, maître de conférences à l'URFIST de Paris
1- Internet : une intelligence collective en marche
   Internet est un fabuleux système de communication et d'information reliant des millions d'usagers d'origine culturelle, linguistique et sociale différentes. Plus de 15 millions de machines dans le monde sont actuellement connectées sur le réseau.

Ce système d'information et de communication est :
  • distribué, n'ayant pas de centre, pas de hiérarchie ;
  • hétérogène : des ressources très différentes coexistent ;
  • non certifié : l'information n'est pas toujours validée ;
  • public en grande partie : de nombreux espaces d'information et de communication sont accessibles par tous ;
  • en perpétuelle évolution et donc instable : les sites d'information évoluent, disparaissent, naissent quotidiennement...

Le pire et le meilleur : ainsi a-t-on souvent tendance à qualifier l'Internet car il est vrai que le système n'est pas à l'abri des dérives possibles (comme nous l'ont prouvé récemment les sites à propagande raciste) alors qu'il est aussi un fabuleux vecteur de diffusion des savoirs individuels généreusement partagés par de nombreux êtres humains dans un espace public. C'est la matérialisation de cette " intelligence collective " décrite par le philosophe Pierre Levy qui court-circuite en partie les schémas traditionnels de l'édition papier en soulevant inévitablement de très nombreuses résistances. Des phénomènes intéressants sont observables comme l'usage des bases de pré-publications scientifiques (par exemple celles de Paul Ginsparg ) où les chercheurs peuvent connaître et lire les derniers articles de leurs collègues visibles par tous comme le traduit la notion de "skywriting" introduite par Stevan Harnad.

Ce vecteur d'échange ne peut plus être ignoré et sa reconnaissance institutionnelle se construit progressivement.
2- Les outils généraux pour la recherche d'informations sur Internet
 La fragmentation des ressources nécessite plus que jamais des outils de repérage et d'aiguillage. Les approches et les acteurs se diversifient pour construire des clés d'accès performantes à ces ressources (sociétés informatiques ou spécialisées dans le multimédia, fournisseurs de connectivité internet, professionnels de l'information, chercheurs, enseignants et étudiants...)

L'offre est actuellement dominée par deux types d'approche:
  • la collecte automatique suivie de l'indexation également automatique de ressources (robots de type Alta Vista, Lycos, Excite ou Ecila) .
  • la constitution de répertoires organisés avec une validation, une classification humaine des ressources et une indexation automatique sur des zones particulières (répertoires de type Yahoo, Magellan, Nomade ou Urec).

Dans le premier cas, l'usager pose une requête sous forme d'une liste de mots séparés par des opérateurs implicites ou choisis. Dans le second cas, l'usager peut poser une requête sur un index limité, il peut aussi naviguer dans l'arborescence de la classification. La tendance est d'offrir à l'usager ces deux types d'approches sur un même service: c'est le cas de Lycos et d'Excite par exemple.

D'autre part, il faut préciser que le référentiel choisi peut être l'internet en entier ou un sous-ensemble particulier. On peut ainsi classer les outils de recherche selon la méthode utilisée et le référentiel ciblé.

Les robots
Les services comme Alta Vista ou Excite se décomposent en 3 modules majeurs : le module de collecte automatique des ressources (c'est un logiciel qui passe son temps à demander des copies de pages html), le module d'indexation (au sens constitution de fichiers inverses), le module de recherche d'information gérant aussi l'interface avec l'usager.
Choix des sites explorés : cette stratégie est variable mais très souvent on utilise les pages " What's new ", des classements de sites très demandés, les déclarations spontanées des auteurs mais également une exploration aléatoire en privilégiant les URL courts.
Contenus indexés : très variable. On peut indexer les pages entières (ex : Alta Vista), les titres html, les premiers paragraphes et les liens (ex : Lycos). L'exploration des liens en profondeur et en largeur peut varier également. Cette indexation est associée à une pondération des mots qui tient compte à la fois de critères de fréquence mais aussi de l'encodage html, ainsi les mots des titres (tag " title " en html) reçoivent des poids plus importants.
Il faut aussi souligner l'utilisation des méta-données d'indexation (tag html) fournis directement par l'utilisateur sous forme d'une liste de mots-clés et d'un résumé. Certains robots vont utiliser ces données pour indexer et surtout pour afficher le descriptif du site. Cette indexation laissée à l'auteur n'est absolument pas normalisée et peut subir des dérives facilement identifiables (du genre répéter x fois le même mot clé pour donner un poids très fort à la ressource en fonction de ce mot clé). Certains robots vérifient un minimum ce type de dérive (5).La production et l'analyse de ces champs méta-données ne sont cependant pas généralisées.
Exemple de meta-tags rajoutés dans le code html d'une ressource: meta-tags " description " et " keywords " : 

<HEAD>
<TITLE> SOLARIS </TITLE>
<META Name="description" Content="electronic journal SOLARIS, a french journal about Information science, revue électronique Solaris, une revue francaise en sciences de l'information.">
<META"Name="keywords" Content="information science, sciences de l'information, library, bibliothèque, scholarly journal, revue académique,  solaris, GIRSIC, noyer, fayet scribe, chartron">
</HEAD>
Utilisation : Pour utiliser les robots, il faut connaître la syntaxe du langage d'interrogation. Un guide en ligne est toujours disponible. Les interfaces présentent généralement 2 modes d'interactions :

  • un mode simple visant l'utilisateur final: on donne une liste de mots et le système retrouve des documents répondant "au mieux" à cette liste selon des algorithmes peu explicités mais qui tiennent compte de la localisation, de la proximité et de l'occurrence des termes. La troncature à droite est souvent implicite.
  • un mode "avancé" où l'utilisateur peut utiliser des opérateurs différenciés entre les termes de sa question et éventuellement orienter la pondération des documents retrouvés.

 L'utilisateur doit se rappeler quelques règles de base qui tendent à se généraliser :

  • utilisation des doubles quotes (") pour spécifier une expression
  • utilisation d'opérateurs de présence (+) ou l'exclusion (-) absolue de termes
  • tester la sensibilité ou non aux caractères accentués et à la casse majuscule/minuscule des caractères.

Avantages pour l'usager : Compte tenu de l'automatisation du processus, les robots sont les outils ayant la couverture la plus exhaustive de l'espace public Internet, la mise à jour est rapide. L'interaction est simplifiée. Mais les réponses sont hétérogènes, les doublons ne sont pas détectés, le bruit peut être considérable.

Les répertoires validés
Ce sont des inventaires thématiques de ressources organisées selon une classification : LC classification, Mesh, Dewey ou autres classifications improvisées. On peut citer, par exemple, Yahoo, Virtual Library...Ces ressources sont aussi indexées sur certaines zones. Ces répertoires couvrent de nombreuses thématiques.
Choix des sites explorés : la majorité des ressources recensées sont des ressources déclarées par les auteurs et validées par les responsables du répertoire. Des collectes automatiques peuvent assister éventuellement ce travail de recensement.
Contenus indexés : Contrairement à l'approche robots, on indexe ici des zones limitées (URL, titres, résumés éventuels fournis par l'auteur, commentaires des administrateurs, titres des rubriques thématiques de la classification).
Utilisation : L'utilisateur peut soit naviguer en empruntant la classification prévue, soit formuler des équations de recherche sur une partie de la classification. Il faut aussi comprendre la syntaxe des requêtes pour contrôler sa recherche.Avantages pour l'usager : L'intérêt majeur de cette approche est la valeur ajoutée humaine (contrôle, validation, organisation) qui limite ainsi le bruit des réponses. La classification des ressources permet de répondre à des requêtes de type exploratoire sur une thématique. Par contre, la couverture est moins exhaustive que celle des outils automatiques de type robots.

3- Le développement du processus de catalogage des ressources

 L'utilisateur mesure très vite les problèmes associés à ces outils généraux :

  • avant tout le bruit généré par une indexation informatique en texte intégral sur du texte non structuré sémantiquement. La notion de champ d'information n'existe pas ou seulement par rapport à la structure éditoriale html des ressources (Alta Vista permet ainsi d'interroger sur les champs title de la page html, les champs link, url...). Les algorithmes de pondération tendent à limiter la visibilité de ce bruit en présentant d'abord à l'usager les ressources où les termes de sa question apparaissent fréquemment et dans des zones telles que les champs title html.
  • instabilité des ressources : les adresses changent sans que les index soient mis à jour en conséquence.
  • Le manque d'identification des ressources : pas de date de création, pas de nom d'auteurs, pas de titre, pas d'information générique sur le contenu... Les répertoires thématiques offrent parfois un résumé de la ressource construit a posteriori mais guère plus, ces informations devraient être fournies à la création logiquement.
  • L'hétérogénéité des ressources trouvées : l’élément de base est un fichier html et l'utilisateur n'a aucun moyen de spécifier qu'il ne s'intéresse qu'à un certain type d'objet, par exemple uniquement à des cours ou à des articles.

 Pour pallier ces types de problèmes classiques en informatique documentaire, plusieurs solutions ont été envisagées :

  • Pour contrôler le bruit d'une indexation en texte intégral, certains robots proposent des algorithmes statistiques de regroupement des ressources pour fournir à l'utilisateur une certaine lecture des réponses : on présente des agrégats de ressources partageant de nombreux termes et l'utilisateur peut reformuler sa question en sélectionnant ou en éliminant des termes proposés dans ces agrégats. Alta Vista propose ce type de fonctionnalité automatique appelée " Live Topics ". Ceci ne résoud qu'en partie le problème du bruit et n'apporte pas de solutions aux autres points soulignés précédemment. La fonction est cependant appréciable comme aide à l'exploration d'une thématique, elle ne nécessite pas d'intervention humaine.
  • Une autre approche est l'élaboration par un être humain de descriptions des ressources qui sont appelées des metadata. Ces metadata sont plus complètes que les meta-tags que nous avons évoqués pour l'indexation effectuée par les robots et plus détaillés que les commentaires des administrateurs des répertoires de type Yahoo. On rejoint la fonction classique de catalogage effectuée par les bibliothèques.

Les metadata sont des données sur les données qui vont aider à l'identification, à la description et à la localisation des ressources sur le réseau. Ces metadata vont être insérées dans les pages html par des meta-tags particuliers .

A l'image d'Internet, il existe de nombreux formats de metadata en fonction des ressources pour lesquelles ils ont été développés. Mais pour assurer une utilisation possible par les outils de repérage comme les robots, une certaine standardisation minimum semble être adoptée le " Dublin Core Metadata ", standard adopté au premier " Workshop " sur les metadata qui s'est tenu à Dublin (Ohio) en Mars 1995 .

Les formats bibliothéconomiques traditionnels tels que les formats MARC sont en fait des metadata particulières, un projet mené par OCLC vise d'ailleurs à étendre le format MARC aux ressources électroniques en rajoutant certains champs (10). Dans une logique un peu similaire, les organismes de normalisation internationaux travaillent à l'extension des formats traditionnels bibliographiques pour intégrer les ressources électroniques, c'est le cas de la norme ISBD-ER (International Standard Bibliographic Description for Electronic Ressources, 1996).

Mais est-il vraiment réaliste de vouloir suivre le même modèle de repérage pour des sources papier et des sources Internet ? Le document Internet est accessible immédiatement par des clés d'accès diverses, il peut évoluer souvent et c'est un document qui doit circuler rapidement généralement. L'approche catalogage exhaustif de type MARC est intéressante pour des documents électroniques importants (un ouvrage, une revue, une base de données...) et durables dans le temps, on ne peut envisager ce type de repérage pour tous les types de ressources circulant sur l'Internet.

Le " Dublin Core Metadata " défend une approche plus simple du catalogage avec un nombre de champs limités qui visent à être fournis directement par l'auteur ou l'éditeur des ressources afin d'éviter les coûts d'un catalogage a posteriori et démesuré face à l'ampleur d'Internet. Les 15 champs prévus par le " Dublin Core " sont :

Titre : titre de la ressource donné par l'auteur
Auteur : la personne responsable du contenu intellectuel de la ressource
Sujet: thématique de la ressource (mots clés)
Description : résumé descriptif
Editeur : l'acteur responsable pour la mise en ligne de la ressource
Autre agent : autres personnes ayant apporté une contribution intellectuelle au travail
Date : date de mise en ligne
Type de la ressource : type du contenu (article, poème, dictionnaire...)
Format : format de la ressource (fichier PostScript, PDF...)
Identifieur : numéro ou chaîne de caractères identifiant de façon unique la ressource, par exemple l'URL, l'ISBN...
Liens : liens avec d'autres ressources
Source : ressources papier ou électronique dont est dérivée cette ressource
Langue : langue de publication
Champ spatial ou temporel : les données spatiales ou temporelles de la ressource
Droits : modalités juridiques d'utilisation de la ressource

 Exemples de catalogage respectant le "Dublin Core Data" :

 <html>
<head>
<title> revue Solaris, Solaris journal </title>
<meta name= "title" content="revue Solaris, Solaris journal" >
<meta name= "creator" content="GIRSIC, noyer, fayet-scribe, chartron" >
<meta name= "subject" content="information science, sciences de l'information, library, bibliothèque, scholarly journal, revue académique,  solaris, GIRSIC, noyer, fayet scribe, chartron"
<meta name= "description" content="electronic journal SOLARIS, a french journal about Information science, revue électronique Solaris, une revue française en sciences de l'information." >
<meta name= "publisher" content="Université de Caen" >
<meta name= "date" content="19960901" >
<meta name= "type" content= "revue scientifique" >
<meta name= "format" content="HTML" >
<meta name= "identifier" content= "URL: http://info.unicaen.fr/bnum/jelec/Solaris, ISSN: 1265-4876" >
<meta name= "language" content= "fr" >
...
</head>
<body>...

Différentes critiques ont été formulées suite à ce premier format minimum : la nécessité d'une syntaxe précise pour chacun des champs, la nécessité d'associer à ce format d'autres metadata accessibles séparément et orientées vers des besoins spécifiques (ex : les données de mises à jour des ressources...). De nouvelles mesures ont été adoptées lors du second "Workshop" consacré aux metadata à Warwick (UK) en avril 1996, une extension appelée " The Warwick Framework " définit une architecture technique pour agréger différents ensembles de metadata d'une même ressource (11). Un troisième "Worshop" vient de se tenir en Mars 97 à Canberra en Australie où il a été question essentiellement de définir des qualificatifs complémentaires applicables à certains champs : qualificatifs " language ", " type ", " scheme " notamment.

On peut se demander aussi si tout ceci sera réellement respecté et utilisé ?

Pour le moment, ces standards ne sont pas généralisés mais il est fort probable qu'ils puissent se généraliser assez vite. Les outils de recherche tels que les robots ne proposent pas à l'utilisateur d'exploiter ce type de données pour le moment mais  ils le feront certainement dans un proche avenir.

 Différents projets importants, commencent à utiliser cette standardisation " Dublin Core Data ", par exemple:

  • la bibliothèque nationale d'Australie et de Nouvelle Zélande: le " Dublin Core Data " est utilisé pour normaliser un ensemble de formats différents existants pour les ressources (MARC et autres).

  • " The Nordic Metadata Project " pour partager des ressources électroniques entre différents pays nordiques, des conversions entre les formats NORMARC et Dublin Core Data ont été développées.

 Certaines communautés ont aussi développé des metadata plus spécifiques à leurs besoins : c'est le cas pour les données géospatiales et pour les données gouvernementales.

  4- Les micro-structures : clôture de l'espace

D'autre part, on observe de nombreuses initiatives pour délimiter l'espace à un sous-ensemble de ressources utiles à une discipline, à une communauté d'usagers partageant les mêmes centres d'intérêt. L'espace s'auto-structure dans ces micro-structures. Chaque micro-structure construit ses clés d'accès correspondant aux demandes des utilisateurs et aux ressources disponibles. Cette logique prend en compte en priorité les besoins immédiats des utilisateurs contrairement à une vision patrimoniale associée à un catalogage détaillé.

Par exemple, dans le domaine des ressources éducatives, différents acteurs ont initié des recensements spécialisés de ressources utiles à l'enseignant et à l'élève, l'objectif majeur étant d'accroître l'efficacité et la richesse des recherches de l'utilisateur dans ce domaine. Très souvent, les ressources ont été évaluées et organisées par discipline et/ou par niveau de classe. Ces répertoires constituent des filtres permettant de guider au mieux l'utilisateur intéressé par ce type de ressources ; par contre aucune garantie d'exhaustivité et de plus il faudra tenir compte du biais linguistique et culturel. Parmi ces recensements :
Cyberscol : c'est un projet visant à favoriser l'exploitation des ressources éducatives d'Internet et le développement de ressources francophones. Le projet est d'origine québécoise et implique différents partenaires éducatifs. Le répertoire propose à la fois des sélections de sites et des scénarios pédagogiques utilisant ces ressources.
http://www.cyberscol.qc.ca/Accueil.html
Les carnets didactiques : L'idée de ce site est de mettre à disposition des enseignants francophones les meilleures réalisations pédagogiques de chacun et de proposer un but de navigation pour les jeunes. Le concepteur du projet est une association  belge à but  non lucratif, fondée en 1988 : Pragma-Soft qui regroupe des enseignants et des informaticiens.
http://www.arkham.be/pragma/pragma/index.htm
Ressources du réseau CNDP, CRDP : sur les sites web de ces organismes, on trouve déjà certains documents pédagogiques utilisables tels que ceux concernant l'Astronomie développés par le CNDP. Un projet national fédérateur est en cours, il s'agit d'Educasource piloté par la Direction de l'Information Scientifique, des Technologies Nouvelles et des Bibliothèques ; le projet s'appuie sur une collecte nationale des supports pédagogiques disponibles, l'objectif est de fournir aux enseignants une aide pour leurs recherches d'informations, leurs préparations de cours, l'animation des cours et les échanges d'expériences.
http://www.cndp.fr/
Un vaste projet américain dans ce domaine est le programme K-12  fédérant un ensemble de sites américains fournissant des ressources éducatives.

5- Filtrage d'informations et info-agents

Face à la quantité, à la diversité et au renouvellement continuel des informations disponibles sur Internet, le marché des services d'information personnalisée se développe également dans différents domaines, correspondant à un repérage automatique. Le principe est de filtrer les informations selon un profil personnalisé et de diffuser régulièrement et automatiquement les nouvelles informations collectées à l'utilisateur. Le filtre va être réalisé par un agent, c'est à dire un logiciel qui agit pour accomplir des tâches fixées par son utilisateur. Un agent va en fait être caractérisé par :

  • son architecture technique: technologie "server based", "client based", "multi-agents"...

  • son domaine d'application: courrier électronique, news, dépêches, presse, pages Web...

  • son " intelligence " : pour la définition du profil (mots fournis par l'utilisateur ou fonction d'auto-apprentissage), pour la stratégie de recherche (choix explicite des outils par l'usager ou auto-sélection).

Il existe encore très peu d'agents intelligents, c'est à dire capable de prendre des décisions pour l'usager avec des fonctions d'auto-apprentissage. On trouve, par contre, de nombreux programmes paramétrés par l'usager et effectuant ce travail de filtres dans des domaines variés :

filtrage des pages web : sélections de pages web en fonction d'un profil : The Informant,  Webfilter, Webcompass (robot local)
filtrage d'articles de revues et magazines: les services d'alerte des éditeurs scientifiques (Elsevier, Springer, Academic Press...), Uncover Reveal, Dialog Alert Service, les magazines: ex Zdnet pour l'informatique
filtrage des dépêches de presse :  My Yahoo! http://www.my.yahoo.com, NewsHound (San Jose Mercury) http://www.sjmercury.com/hound.htm
agent intégrant des fonctions d'auto-apprentissage: Autonomy(approche réseaux neuronaux)

Concernant le domaine éducatif, un filtrage important concerne la non-visualisation de sites problématiques : pornographie, violence, racisme... Rien ne garantit aujourd'hui qu'un élève utilisant un robot de recherche par exemple, ne puisse visualiser ce type de ressources. Des logiciels particuliers ont été développés et sont déjà utilisés en Amérique du nord. Ils permettent de bloquer certaines requêtes ou d'empêcher la visualisation de certains sites.
Des mesures internationales sont en cours de développement comme celles définies par le groupe PICS (Platform for Internet Content Selection) créé à l'initiative du World Wide Web Consortium et qui regroupe un ensemble d'industriels, d'associations d'utilisateurs et de groupes d'intérêt public. L'objectif est de développer des moyens de contrôle sur le contenu en vu de sélectionner notamment les ressources accessibles par des enfants.
Le principe repose sur l'établissement d'un " label " mesurant en particulier les niveaux de violence, nudité, sexe et correction de langage, ce label serait codé dans les ressources. Les visualiseurs seraient capables d'interpréter ce label et de filtrer les ressources à la demande (notamment à la demande des parents et des enseignants). Plusieurs labels pourraient être associés à une ressource car en fait plusieurs acteurs pourraient attribuer ces labels : le fournisseur de la ressource mais aussi des services extérieurs ayant un rôle d'évaluation des sites.

6- L'usager du CDI : Quels scénarios d'interactions ?

Quelles clés d'accès peut-on privilégier pour les utilisateurs des CDI ?
Le choix dépend des objectifs fixés lorsque l'on envisage d'ouvrir un poste de consultation Internet aux utilisateurs. Différents scénarios sont envisageables en fonction du degré de liberté laissé à l'utilisateur, par exemple:

1er scénario : laisser l'utilisateur découvrir la diversité des informations disponibles sur Internet en lui donnant la possibilité de rechercher des informations sur n'importe quel sujet.
Dans ce cas, il faudra lui expliquer le mode d'emploi d'un robot particulier (ex Alta Vista) et/ou d'un répertoire thématique(ex : Nomade). Lui montrer la différence entre les deux outils : les robots répondent mieux à une question précise, les répertoires thématiques sont plus adaptés à une navigation exploratoire sur un thème. L'avantage est alors l'auto-découverte, le rapport direct créé entre le gisement d'informations et la demande de l'utilisateur. Les inconvénients seront : la surcharge cognitive (impression d'avoir trop d'informations), la désorientation (à force de suivre des liens, on se perd) et le risque de dérive non contrôlée. L'installation d'un filtre tel que Surfwatch est recommandée pour éviter certains sites " non éducatifs ".
2ème scénario : guider l'exploration de l'utilisateur en ciblant notamment des répertoires de ressources éducatives.
Dans ce deuxième cas, l'utilisateur naviguera dans un espace construit et orienté mais avec un certain degré de liberté. On pourra construire une page d'accueil ciblant les différents répertoires jugés intéressants.
3ème scénario : construire une page de départ précise sur une problématique ciblée.
Dans ce cas, il s'agit de guider l'utilisateur de façon plus précise que dans le deuxième scénario. Le degré de liberté est volontairement très réduit. Cette démarche demande un travail de recherche et d'expertise au préalable pour le documentaliste ou l'enseignant qui va préparer cette page de départ. L'objectif suivi n'est pas l'auto-découverte de l'usager mais l'étude de contenus précis sélectionnés.
Notons cependant que, dans les deux derniers cas, le retour à une libre navigation reste sous-jacent à partir du moment où un pointeur peut amener l'utilisateur sur un site proposant d'autres types de ressources. C'est le côté fascinant de l'Internet !

Bibliographie 

LEVY, Pierre - Les technologies de l'intelligence- La Découverte, 1995.
GINSPARG, Paul.- First Steps Towards Electronic Research Communication- Computer in Physics, Volume 8, n°4, Jul/aug. 1994, pp. 390-396.
HARNAD, Stevan.- Scholarly Skywritting and the Prepublication Continuum of Scientific Inquiry- Psychological Science 1 :342-343, 1990 (reprint in Current Contents 45 :9-13, November 1991).
CHARTRON, Ghislaine (sous la direction de) - Mediations scientifiques et réseaux électroniques - SOLARIS vol. 3, Octobre 1996,
http://www.info.unicaen.fr/bnum/jelec/Solaris
CHARTRON, Ghislaine- Recherche d'informations sur Internet- in "La recherche d'informations sur les réseaux", cours INRIA, ADBS Editions, Octobre 96.
LAGOZE C., LYNCH C.A., DANIEL R. - The Warwick Framework, a Container Architecture for Aggregating Sets of Metadata - Juin 1996 -


Fichiers
Date de publication : 26/06/2007 10:22

© 2008- Ministère de l'Éducation Nationale,
Ministère de l'Enseignement Supérieur et de la Recherche