Passer au contenu

Indexation

Production de l’index informatique d’un ensemble de données permettant d’accéder directement à la partie voulue de l’ensemble par l’intermédiaire de mots-clefs.

L’index d’un livre est une liste de mots-clefs qui font gagner du temps dans la recherche d’informations en dirigeant le lecteur directement à une page du livre.L’index d’un ensemble de données informatiques obéit à un principe quasi identique, dans le même but.En informatique classique (traitement de listes de données), un fichier contient des fiches nommées ” enregistrements ” (une liste de produits, par exemple), toutes structurées de façon identique en un certain nombre de ” champs ” (par exemple, référence sur 15 caractères, nom sur 25 caractères, etc.).L’indexation consiste à sélectionner un ou plusieurs champs qui serviront à la recherche et à créer pour chacun d’eux un fichier index contenant une entrée d’index pour chaque enregistrement. Si nécessaire, l’ algorithme d’indexation assure l’unicité de chaque clef d’index. Le fichier index ne contient, pour chaque entrée, que le contenu d’un champ réduit à son minimum nécessaire par l’algorithme et un pointeur de quelques octets qui indique précisément à quel endroit, dans le fichier de données complet, se trouve l’enregistrement recherché.En informatique moderne structurée autour d’ Internet, le principe d’indexation prend encore plus d’importance et doit être toujours amélioré, car il s’agit désormais de faciliter l’accès non plus à un nombre relativement limité de grands fichiers listes, mais à des contenus de toutes sortes (texte, images, sons, etc.), dont la structure est plus souple que celle des fichiers classiques, et présents en quantité faramineuse sur Internet et les intranets (plusieurs milliards de documents).L’indexation et la recherche sont alors dites ” documentaires “. Ce n’est plus tel ou tel champ qui fait l’objet d’une indexation, ou plus seulement, mais potentiellement tous les mots d’un texte, par exemple, ou un sous-ensemble de mots pertinents dans le domaine considéré ou représentatifs de tout le contenu du document.Dans les moteurs de recherche d’Internet, les fonctionnalités de recherche sont ainsi conditionnées par la qualité et la stratégie d’indexation.L’indexation est donc un principe et une pratique dont la pérennité est garantie et qui devrait connaître constamment des améliorations à mesure que les contenus à indexer se rapprocheront de plus en plus de la totalité du savoir et de linformation universels.


Lionel Lumbroso