La recherche en texte intégral en arabe ?

Réponse apportée le 03/29/2010  par PARIS – Bibliothèque de l’Institut du Monde Arabe – Monde Arabe, Islam

La recherche en texte intégral peut s’effectuer aussi bien dans le document original que sur un résumé ou un document dérivé, tel que notice ou table des matières, et elle ne porte pas seulement sur un ensemble restreint de mots clés. – Équivalent étranger : full-text search.

Selon la définition donnée dans l’Encyclopédie Wikipedia :
« La recherche (en) plein texte (appelée aussi recherche en texte intégral ou recherche de texte libre) est une technique de recherche textuelle dans un document électronique ou une base de données, qui consiste pour le moteur de recherche à examiner tous les mots de chaque document enregistré et à essayer de les faire correspondre à ceux fournis par l’utilisateur.
Les techniques de recherche sont devenues fréquentes dans les bases de données bibliographiques en ligne dans les années 1970. La plupart des sites Web et des programmes applicatifs (tels que les logiciels de traitement de texte) fournissent des fonctionnalités de recherche plein texte. Des moteurs de recherche dans le Web, comme AltaVista, emploient des techniques de recherche plein texte, alors que d’autres n’indexent qu’une partie des pages Web examinées par son système d’indexation.
L’approche la plus fréquente dans la recherche plein texte est de générer un index complet ou une concordance pour tous les documents pouvant être recherchés. Pour chaque mot (sauf les mots qui sont trop fréquents pour être utiles) on fait une entrée qui liste la position exacte de chaque occurrence du mot dans la base de données de documents. Il est relativement simple de récupérer d’une telle liste tous les documents qui correspondent à une requête, sans avoir à scanner chaque document. Bien que pour des ensembles de très petits documents la recherche plein texte puisse être faite par scannage sériel, l’indexation est la méthode préférée pour presque toutes les recherches plein texte. »

Voir aussi l’article d’E. Bernès paru dans le Bulletin des Bibliothèques de France (BBF) sur les outils linguistiques et sémantiques appliqués aux moteurs de recherche sur le site de l’Enssib :
http://bbf.enssib.fr/consulter/bbf-2007-06-0005-001>

Dans le monde arabe la recherche plein texte est utilisée pour les sites d’actualité (presse en ligne) ainsi que pour des corpus de bibliothèque numérique.

La Biblioteca Alexandrina propose la recherche plein texte sur des corpus en arabe, par exemple :

www.nasser.org
En coopération avec la Fondation Nasser, le BA (Bibliotheca Alexandrina) a numérisé la collection du Président égyptien Gamal Abdel Nasser et l’a éditée avec un système de recherche intégré basé sur le web.
La collection a été numérisée, cataloguée, indexée et traité en OCR. Une base de données a été construite pour chaque matière stockant chaque document texte avec ses méta-données. La collection entière est présentée dans un interface WEB avec une recherche plein texte en arabe et en anglais tant dans les méta-données que dans contenu. Le site Web (www.nasser.org) facilite la lecture rapide de la collection en montrant les divers articles, fournissant à la fois le texte intégral et les clefs de recherche. Tous les différents supports d’information et médias sont intégrés, permettant de ce fait de trouver tous les documents, images, vidéos, timbres, articles, etc., concernant un champ de recherche en exécutant une recherche simple.

ou sur Sadate :
http://sadat.bibalex.org/>

Cordialement,

Pour posez une nouvelle question merci de remplir le formulaire :
http://www.imarabe.org/page-sous-section/poser-votre-question-un-bibliothecaire>

Eurêkoi – Bibliothèque de l’Institut du monde arabe
http://www.imarabe.org/page-sous-section/la-une>

Home A

Vous aussi vous avez une question ? 

POSEZ-NOUS VOTRE QUESTION

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *