octosearch.fr : embryon de moteur de recherche sur la biologie sous marine

octosearch-logo.png Comme j'en ai raz la soucoupe de ne jamais trouver ce que je cherche sur les moteurs de recherche "classiques" lorsque j'enfile ma casquette de biologiste sous marin d'une part et que ça me gonfle de passer à tour de rôle sur les 10 sites que j'ai dans mes bookmarks pour trouver des infos je me suis lancé dans la mise en place d'un moteur de recherche spécifique !

C'est pas neuf, je tourne autour du pot depuis 2 ans ... mais là je pense avoir eu le petit déclic et je lance http://octosearch.fr/ qui est une grosse ruse comme j'aime (ou le résultat d'un assemblage style "architecte open source"):

  • j'ai commencé avec un serveur de vocabulaire contrôlé (tematres, prototype sur http://e.garluche.fr/vocabio/) que j'ai utilisé pour indexer mes photos sous marines (gestion des synonymes, des mots latins etc.);
  • puis j'ai continué avec searx (moteur de framabee par exemple), c'est un méta-moteur dont l'interface web me semble correspondre à ce qu'on attends d'un moteur de recherche "actuel";
  • mais comme un méta moteur ne fait que poser des questions à d'autres moteurs j'ai aussi mis en place un aspirateur des sites de bio + indexation
  • l'aspirateur a été wget dans une première version, puis htdig dans une seconde et actuellement c'est un panaché avec du dev spécifique selon les sites aspirés
  • l'indexation est ensuite assurée par Xapian::Omega
  • et les résultats délivrés par Omega (du projet Xapian)

Et tout ce petit monde est installé au dessus d'un serveur GNU/Linux utilisant Debian et des tonnes de logiciels libres forcément.

Et maintenant que j'ai terminé mon prototype avec octosearch on passe aux choses sérieuses avec les milliers de données et de sites d'AbulÉdu ?

QR code
Send to friend

Commentaires

13 fév. 2017 12:48

Coolos voir super coolos l'architecte de l'open source !
Maintenant il faut que nous l'utilisions :-)
Ciao
Didou

didou

Ajouter un commentaire

Le code HTML est affiché comme du texte et les adresses web sont automatiquement transformées.