Partenaires Logiciels Libres : LinuxGraphic .::. NuXo .::. Generation Libre.::. QuebecOS
Bienvenue sur Logiciel Libre . Net, première ressource francophone sur l'économie du Libre.
Que cherchez-vous ?     ::     Imprimer  ::  Contact  ::  A propos de...  ::  Accueil
 




DeepIndex, l'autre moteur de recherche Open Source

La sortie médiatisée en mai 2004 du moteur de recherche Mozdex, basé sur la technologie Open Source Nutch, a peut-être eclipsé le fait que d'autres technologies de recherche Open Source existent. Ainsi, DeepIndex est un moteur de recherche franco-tunisien exploitant le logiciel Open Source ASPSeek. LogicielLibre.Net vous propose cette semaine une interview de Gilbert Wayenborgh, directeur du projet DeepIndex.


Nutch et les technologies de recherche Open Source

L'annonce de la sortie du moteur de recherche Mozdex, basé sur la technologie Open Source Nutch, avait fait en mai 2004 le tour de la presse informatique [1]. Le site est aujourd'hui fermé, en maintenance depuis de longues semaines.

Le succès médiatique de Mozdex faisait perdre de vue l'existence d'autres projets ou prototypes de test basés sur Nutch, comme celui des Yahoo! Labs [8], et, plus encore, l'existence d'autres technologies de recherche Open Source. Ainsi, nous pouvons citer Grub, un fureteur distribué publié sous GPL en mars 2002 et aujourd'hui diffusé par Looksmart ; Grub est utilisé par le moteur de recherche Wisenut [5]. Quant à Mifluz [6], il s'agit d'un indexeur pouvant être couplé [7] à différents fureteurs Open Source comme Webbase (jadis utilisé par Ecila) ou Htdig. Cette autre solution Open Source est généralement utilisée pour des index de taille plus réduite. Nous pourrions en citer d'autres comme Swish-E ; une liste d'outils Open Source, parfois modestes, est notamment proposée sur SearchTools [9].

Mais aussi : ASPSeek et DeepIndex !

Surtout, il existe DeepIndex, qui a vu le jour en juin 2002 [2]. D'origine franco-tunisienne, le moteur de recherche DeepIndex est basé sur la technologie Open Source ASPSeek [3] (ASPSeek est également utilisé par le moteur thématique LaBanquise.Org [10]). DeepIndex a notamment été utilisé par le portail québecois Francité (il ne l'est plus depuis un an) [4].

LogicielLibre.Net vous propose cette semaine une interview de Gilbert Wayenborgh, directeur du projet DeepIndex.

Interview de Gilbert Wayenborgh (DeepIndex)

-> Pourquoi avoir choisir ASPSeek plutôt que d'autres solutions de recherche Open Source comme Webbase ?

Lorsque j'ai lancé le projet de DeepIndex il fallait trouver un applicatif correspondant à des critères spécifiques. J'ai donc en debut 2002 effectué des recherches d'applicatifs tant commerciaux que libres pour donner vie à un moteur de recherche qui devaient avoir des fonctionnalités similaires à Google. ASPSeek etait le plus proche de ces similitudes permettant de faire des recherches assez efficaces sur le Web. J'ai dû tester en tout et pour tout 4 logiciels (dont un commercial). Un autre facteur essentiel a mes yeux, c'est qu'il n'y avait pas d'argent à l'epoque pour monter un tel projet. Il fallait faire au moins cher et au plus efficace possible. Etant de formation informaticien, je me suis tourné donc en tout logique vers le monde libre et ASPSeek en particulier.

-> Comment avez-vous initié l'index de votre moteur ? Via l'annuaire open source Dmoz ? Par un autre biais ?

L'index de base a été généré à partir de plusieurs annuaires dont DMoz. Mais en réalité, l'index a été regénéré à plusieurs reprises afin de tester une matrice de sites à peu près correcte comme indexation de départ, la suite est un crawl massif de lien en lien.

-> Qu'est-ce que ce choix vous a apporté (par rapport à d'autres solutions Open Source ou des solutions propriétaires) ?

Une excellente machine pour la recherche et l'indexation d'autant qu'à l'epoque les utilisateurs d'ASPSeek etaient assez présent sur le forum ASPSeek et les deux développeurs principaux étaient encore très actifs.

-> Quelles difficultés avez-vous rencontrées en utilisant cette technologie Open Source (ASPSeek) ?

La difficulté dans l'Open Source, en général, ce sont les développeurs. Si techniquement ils font des merveilles, rares sont malheureusement les projets qui vont loin et qui perdurent dans le temps.

-> Avez-vous mis en place une collaboration avec les développeurs participant au développement d'ASPSeek ou le projet DeepIndex a-t-il pris la forme d'un fork interne ?

J'ai bien pris des contacts avec Kir, le développeur principal, mais dès que j'evoquais une collaboration, il evoquait les dollars. Aujourd'hui, je me débrouille en interne pour optimiser au mieux en attendant une prochaine version qui sera basée sur un système propriétaire (prévu 2005).

-> Pensez-vous que l'utilisation de technologies Open Source soit pénalisante en vue de la lutte contre de techniques frauduleuses comme le spam indexing, par exemple ?

Non, absolument pas. La difficulté est plus liée à l'utilisation d'une telle application et ses innombrables paramètres que la lutte contre le spamdexing. Le spamdexing est un problème de technique de promotion de sites et un problème pour les moteurs de recherche dans le sens où ces techniques de positionnement changent en permanence. C'est un peu la meme lutte que se livrent les sociétés editeurs d'antivirus et les programmeurs de virus...

-> Quel est votre avis sur la technologie Open Source Nutch, notamment utilisée par Mozdex.Com ? En quoi se distingue-t-elle de ASPSeek ?

Nutch est sorti bien après ASPSeek et, à sa sortie, je n'ai pas eu le temps matériel de faire de la veille dessus.

-> Qu'est-ce que l'Open Source peut encore apporter aujourd'hui à DeepIndex ? Et inversément, qu'est-ce que DeepIndex pourrait apporter à l'Open Source ?

Je m'intéresse actuellement beaucoup à la publication en ligne et je trouve pas mal de systèmes open source qui, pour certains, n'ont rien à envier aux logiciels commerciaux. Si je peux aider à les promouvoir, je le ferais avec grand plaisir.

-> Quels autres logiciels libres (serveurs Web, serveurs proxy, distributions Linux ou BSD, etc) utilisez-vous pour DeepIndex et pourquoi ?

ASPSeek oblige, toutes les plateformes tournent en Redhat 7.x patché avec 3 serveurs en frontal et dix serveurs pour héberger et traiter les recherches sur quelques 20.000.000 d'URLs. Je crois que Linux, Apache sont actuellement le must en la matière de techniques web ... et même pour une partie des traitements disons bureautiques, je reste sur de l'Open Source, simplement parce que ce sont des logiciels de bonne qualité.

Sources :
[1] http://www.logiciellibre.net/2004/news20040514.php
[2] http://www.revue-referencement.com/ACTUALITE/(...)
[3] http://www.webrankinfo.com/forums/viewtopic(...)
[4] http://www.neteconomie.com/perl/navig.pl/(...)
[5] http://www.grub.org/html/tools.php?op=wisenut
[6] http://www.alcove.com/fr/alcove/newsletter/(...)
[7] http://www.atrid.fr/technique/test_mifluz.html
[8] http://research.yahoo.com/demo/nutch/
[9] http://www.searchtools.com/robots/robot-code.html
[10] http://www.planetelibre.org/

Posté le 23 novembre 2004.


[Retour aux archives 2004]   ::   [Postez un commentaire]

 

LIENS COMMERCIAUX

 

AUTRES RUBRIQUES D'INTERET

Découvrez le sommaire des archives des news de LogicielLibre.Net


© Robert Viseur @ Ecocentric.be (2003-2024)