Apache Lucène - Apache Lucene
Développeur(s) | Fondation logicielle Apache |
---|---|
Première version | 1999 |
Version stable | 8.10.1 / 18 octobre 2021
|
Dépôt | |
Écrit en | Java |
Système opérateur | Multiplateforme |
Taper | Rechercher et indexer |
Licence | Licence Apache 2.0 |
Site Internet | lucène |
Apache Lucene est une bibliothèque de logiciels de moteur de recherche gratuite et open source , écrite à l'origine en Java par Doug Cutting . Il est pris en charge par l' Apache Software Foundation et est publié sous la licence de logiciel Apache . Lucene est largement utilisé comme base standard pour les applications de recherche non liées à la recherche.
Lucene a été porté sur d'autres langages de programmation dont Object Pascal , Perl , C# , C++ , Python , Ruby et PHP .
Histoire
Doug Cutting a initialement écrit Lucene en 1999. Lucene était son cinquième moteur de recherche, après en avoir écrit deux chez Xerox PARC, un chez Apple et un quatrième chez Excite. Il était initialement disponible en téléchargement depuis sa maison sur le site Web de SourceForge . Il a rejoint la famille Jakarta de produits Java open source de l'Apache Software Foundation en septembre 2001 et est devenu son propre projet Apache de haut niveau en février 2005. Le nom Lucene est le deuxième prénom de la femme de Doug Cutting et le prénom de sa grand-mère maternelle.
Lucene comprenait auparavant un certain nombre de sous-projets, tels que Lucene.NET, Mahout , Tika et Nutch . Ces trois projets sont désormais des projets indépendants de haut niveau.
En mars 2010, le serveur de recherche Apache Solr s'est joint en tant que sous-projet Lucene, fusionnant les communautés de développeurs.
La version 4.0 est sortie le 12 octobre 2012.
En mars 2021, Lucene a changé de logo et Apache Solr est redevenu un projet Apache de haut niveau, indépendant de Lucene.
Caractéristiques et utilisation courante
Bien qu'il soit adapté à toute application nécessitant une indexation et une capacité de recherche de texte intégral , Lucene est reconnu pour son utilité dans la mise en œuvre de moteurs de recherche Internet et de recherche locale sur un seul site.
Lucene inclut une fonction permettant d'effectuer une recherche floue basée sur la distance d'édition .
Lucene a également été utilisé pour mettre en œuvre des systèmes de recommandation. Par exemple, la classe 'MoreLikeThis' de Lucene peut générer des recommandations pour des documents similaires. Dans une comparaison du terme approche de similarité vectorielle de « MoreLikeThis » avec des mesures de similarité de documents basées sur des citations, telles que l' analyse de proximité de co-citation et de co-citation, l'approche de Lucene a excellé dans la recommandation de documents présentant des caractéristiques structurelles très similaires et une relation plus étroite . En revanche, les mesures de similarité de documents basées sur les citations ont tendance à être plus adaptées pour recommander des documents plus largement liés, ce qui signifie que les approches basées sur les citations peuvent être plus adaptées pour générer des recommandations fortuites , tant que les documents à recommander contiennent des citations dans le texte.
Projets basés sur Lucene
Lucene lui-même n'est qu'une bibliothèque d'indexation et de recherche et ne contient pas de fonctionnalité d' exploration et d' analyse HTML . Cependant, plusieurs projets étendent les capacités de Lucene :
- Apache Nutch - fournit l'exploration Web et l'analyse HTML
- Apache Solr – un serveur de recherche d'entreprise
- Compass – le prédécesseur d' Elasticsearch
- CrateDB – base de données SQL distribuée open source construite sur Lucene
- DocFetcher - une application de recherche de bureau multiplateforme
- Elasticsearch - un serveur de recherche d'entreprise lancé en 2010
- Kinosearch – un moteur de recherche écrit en Perl et C et un port lâche de Lucene. Le logiciel wiki Socialtext utilise ce moteur de recherche, tout comme le wiki MojoMojo . Il est également utilisé par la base de données sur le métabolisme humain (HMDB) et la base de données sur les toxines et les cibles de toxines (T3DB).
- MongoDB Atlas Search – une application de recherche d'entreprise native du cloud basée sur MongoDB et Apache Lucene
- OpenSearch – un serveur de recherche d'entreprise open source basé sur un fork d'Elasticsearch 7
- Swiftype - une startup de recherche d'entreprise basée sur Lucene
Voir également
- Recherche d'entreprise
- Extraction d'informations
- Liste des bibliothèques de recherche d'informations
- Extraction de texte
Les références
Bibliographie
- Gospodnétique, Otis ; Erik Hatcher ; Michael McCandless (28 juin 2009). Lucene en action (2e éd.). Publications de Manning . ISBN 978-1-9339-8817-7.
- Gospodnétique, Otis ; Erik Hatcher (1er décembre 2004). Lucene en action (1ère éd.). Publications de Manning . ISBN 978-1-9323-9428-3.