octosearch.fr : embryon de moteur de recherche sur la biologie sous marine
Comme j'en ai raz la soucoupe de ne jamais trouver ce que je cherche sur les moteurs de recherche "classiques" lorsque j'enfile ma casquette de biologiste sous marin d'une part et que ça me gonfle de passer à tour de rôle sur les 10 sites que j'ai dans mes bookmarks pour trouver des infos je me suis lancé dans la mise en place d'un moteur de recherche spécifique !
C'est pas neuf, je tourne autour du pot depuis 2 ans ... mais là je pense avoir eu le petit déclic et je lance http://octosearch.fr/ qui est une grosse ruse comme j'aime (ou le résultat d'un assemblage style "architecte open source"):
- j'ai commencé avec un serveur de vocabulaire contrôlé (tematres, prototype sur http://e.garluche.fr/vocabio/) que j'ai utilisé pour indexer mes photos sous marines (gestion des synonymes, des mots latins etc.);
- puis j'ai continué avec searx (moteur de framabee par exemple), c'est un méta-moteur dont l'interface web me semble correspondre à ce qu'on attends d'un moteur de recherche "actuel";
- mais comme un méta moteur ne fait que poser des questions à d'autres moteurs j'ai aussi mis en place un aspirateur des sites de bio + indexation
- l'aspirateur a été wget dans une première version, puis htdig dans une seconde et actuellement c'est un panaché avec du dev spécifique selon les sites aspirés
- l'indexation est ensuite assurée par Xapian::Omega
- et les résultats délivrés par Omega (du projet Xapian)
Et tout ce petit monde est installé au dessus d'un serveur GNU/Linux utilisant Debian et des tonnes de logiciels libres forcément.
Et maintenant que j'ai terminé mon prototype avec octosearch on passe aux choses sérieuses avec les milliers de données et de sites d'AbulÉdu ?
Commentaires
Coolos voir super coolos l'architecte de l'open source !
didouMaintenant il faut que nous l'utilisions
Ciao
Didou