[NEWS] Mozdex : l'Open Source investit le domaine de la recherche sur Internet
Alors que le marché des moteurs de recherche est dominé par des logiciels propriétaires et connaît une importante concentration économique, un moteur de recherche Open Source voit le jour : MozDex. Alimenté par l'annuaire DMoz, il intègre plusieurs logiciels Open Source, dont l'agent Nutch, présenté fin 2003 par Doug Cutting.
Avec plus de 50% de parts de marché, le moteur de recherche Google règne en maître absolu sur la recherche sur Internet [1]. Microsoft, avec son portail MSN, nourrit de grandes ambitions. Quant à Yahoo!, il est propriétaire des moteurs de recherche Inktomi, Altavista et All The Web [2, 3] ! Le domaine de la recherche sur Internet est donc dominé par trois acteurs : Google, Yahoo! et Microsoft. Ces trois entreprises se battent surtout pour le marché des liens publicitaires, sur lequel Google est également bien implanté (Adwords) [11].
Google, Yahoo! et Microsoft utilisent, pour l'indexation et le classement des pages Internet, des logiciels propriétaires. Pour Google, par exemple, nous savons que les pages sont classées en fonction de leur popularité (principe du PageRank [12]), évaluée par le nombre de liens (= votes) pointant vers elles. Le fonctionnement exact n'est cependant pas connu.
En août 2003 [4], nous vous avions parlé de Nutch [8], un agent de recherche (crawler Internet + interface de recherche) Open Source. Intégré à d'autres logiciels Open Source, tels que Tomcat (serveur d'applications) et Lucene (bibliothèque de moteur de recherche écrite en Java) [9], Nutch vient de donner naissance à Mozdex* [5], un moteur de recherche Open Source (le projet est hébergé sur SourceForge [6]).
L'intérêt d'un moteur de recherche Open Source comme Mozdex est double. D'une part, les règles d'indexation et de classement de l'information sont connues. Il y a dès lors une garantie que l'information ne soit pas manipulée, par exemple, à des fins mercantiles. D'autre part, la nature Open Source permet d'espérer -comme en cryptographie par exemple- la création d'algorithmes robustes aux tentatives de manipulation des résultats. Pour Google, ces techniques manipulatoires prennent notamment la forme de fermes de liens ou de Google bombing [10].
L'index de Mozdex est amorcé par la liste des pages référencées sur Dmoz [7], l'annuaire de sites collaboratif mis en place par Netscape, riche de plus de 4 millions de sites et géré par plus de 60.000 éditeurs volontaires. Des sites peuvent par la suite être ajoutés à la demande, via un formulaire de soumission.
Après avoir utilisé le moteur de recherche Mozdex, les résultats fournis nous ont parus pertinents. Le temps de réponse est faible. A l'instar de Google, les pages indexées sont aussi proposées en cache. Contrairement aux moteurs de recherche dominants (Google, Altavista, etc), Mozdex ne possède par contre pas -pour l'instant- d'un menu de recherche avancée. Mozdex n'indexe pas non plus les images ou les fichiers PDF. Small Productions, la société qui soutient ce projet, se rémunère par des donations et des liens publicitaires contextuels discrets (MozAds).
* Nutch est également testé par les Yahoo! Labs.
Sources :
[1] http://www.neteconomie.com/perl/(...)
[2] http://www.01net.com/article/215086.html
[3] http://www.01net.com/article/214206.html
[4] http://www.logiciellibre.net/2003/news20030821.php
[5] http://www.mozdex.com
[6] http://sourceforge.net/projects/mozdex/
[7] http://www.dmoz.org
[8] http://www.nutch.org/docs/en/
[9] http://jakarta.apache.org/lucene/docs/index.html
[10] http://np.www.lci.fr/news/(...)
[11] http://www.silicon.fr/click.asp?id=2095
[12] http://www.webmaster-hub.com/publication/(...)
[13] http://www.homo-numericus.net/(...)
Posté le 14 mai 2004.
|