Interview de Gilbert Wayenborgh (DeepIndex)
-> Pourquoi avoir choisir ASPSeek plutôt que d'autres solutions de recherche Open Source comme Webbase ?
Lorsque j'ai lancé le projet de DeepIndex il fallait trouver un applicatif
correspondant à des critères spécifiques. J'ai donc en debut 2002 effectué
des recherches d'applicatifs tant commerciaux que libres pour donner vie à un
moteur de recherche qui devaient avoir des fonctionnalités similaires à
Google. ASPSeek etait le plus proche de ces similitudes permettant de faire
des recherches assez efficaces sur le Web. J'ai dû tester en tout et pour
tout 4 logiciels (dont un commercial). Un autre facteur essentiel a mes yeux,
c'est qu'il n'y avait pas d'argent à l'epoque pour monter un tel projet. Il
fallait faire au moins cher et au plus efficace possible. Etant de formation
informaticien, je me suis tourné donc en tout logique vers le monde libre et
ASPSeek en particulier.
-> Comment avez-vous initié l'index de votre moteur ? Via l'annuaire open source Dmoz ? Par un autre biais ?
L'index de base a été généré à partir de plusieurs annuaires dont DMoz. Mais
en réalité, l'index a été regénéré à plusieurs reprises afin de tester une
matrice de sites à peu près correcte comme indexation de départ, la suite
est un crawl massif de lien en lien.
-> Qu'est-ce que ce choix vous a apporté (par rapport à d'autres solutions Open Source ou des solutions propriétaires) ?
Une excellente machine pour la recherche et l'indexation d'autant qu'à
l'epoque les utilisateurs d'ASPSeek etaient assez présent sur le forum
ASPSeek et les deux développeurs principaux étaient encore très actifs.
-> Quelles difficultés avez-vous rencontrées en utilisant cette technologie Open Source (ASPSeek) ?
La difficulté dans l'Open Source, en général, ce sont les développeurs. Si
techniquement ils font des merveilles, rares sont malheureusement les projets
qui vont loin et qui perdurent dans le temps.
-> Avez-vous mis en place une collaboration avec les développeurs participant au développement d'ASPSeek ou le projet DeepIndex a-t-il pris la forme d'un fork interne ?
J'ai bien pris des contacts avec Kir, le développeur principal, mais
dès que j'evoquais une collaboration, il evoquait les dollars. Aujourd'hui, je me
débrouille en interne pour optimiser au mieux en attendant une prochaine
version qui sera basée sur un système propriétaire (prévu 2005).
-> Pensez-vous que l'utilisation de technologies Open Source soit pénalisante en vue de la lutte contre de techniques frauduleuses comme le spam indexing, par exemple ?
Non, absolument pas. La difficulté est plus liée à l'utilisation d'une telle
application et ses innombrables paramètres que la lutte contre le
spamdexing. Le spamdexing est un problème de technique de promotion de sites
et un problème pour les moteurs de recherche dans le sens où ces techniques
de positionnement changent en permanence. C'est un peu la meme lutte que se
livrent les sociétés editeurs d'antivirus et les programmeurs de virus...
-> Quel est votre avis sur la technologie Open Source Nutch, notamment utilisée par Mozdex.Com ? En quoi se distingue-t-elle de ASPSeek ?
Nutch est sorti bien après ASPSeek et, à sa sortie, je n'ai pas eu le temps
matériel de faire de la veille dessus.
-> Qu'est-ce que l'Open Source peut encore apporter aujourd'hui à DeepIndex ? Et inversément, qu'est-ce que DeepIndex pourrait apporter à l'Open Source ?
Je m'intéresse actuellement beaucoup à la publication en ligne et je trouve
pas mal de systèmes open source qui, pour certains, n'ont rien à envier aux
logiciels commerciaux. Si je peux aider à les promouvoir, je le ferais avec
grand plaisir.
-> Quels autres logiciels libres (serveurs Web, serveurs proxy, distributions Linux ou BSD, etc) utilisez-vous pour DeepIndex et pourquoi ?
ASPSeek oblige, toutes les plateformes tournent en Redhat 7.x patché avec 3
serveurs en frontal et dix serveurs pour héberger et traiter les recherches
sur quelques 20.000.000 d'URLs. Je crois que Linux, Apache sont
actuellement le must en la matière de techniques web ... et même pour une
partie des traitements disons bureautiques, je reste sur de l'Open Source,
simplement parce que ce sont des logiciels de bonne qualité.
|