DataparkSearch
DataparkSearch est un moteur de recherche open source écrit en C. Il est distribué sous la licence publique générale GNU et conçu pour effectuer des recherches dans un site web, un groupe de sites web, intranet ou sur un système en local.
Développé par | Maxim Zakharov |
---|---|
Dernière version | 4.53 () |
Dépôt | github.com/Maxime2/dataparksearch |
Assurance qualité | Intégration continue |
Écrit en | C |
Environnement | FreeBSD, GNU/Linux, Sun Solaris |
Type | Moteur de recherche |
Licence | licence publique générale GNU |
Site web | www.dataparksearch.org |
DataparkSearch peut indexer nativement des données text/plain, text/html et text/xml, et beaucoup d'autres types de données en utilisant des parsers externes.
Ce moteur est prêt à classer des sites webs multilingues: un large choix de jeux de caractères et des langues sont supportés et peuvent être détectés automatiquement, il utilise une technologie de négociation de contenu pour récupérer les versions de la même page dans différentes langues, il peut effectuer une recherche insensible à la casse (avec ou sans accent) accent et faire de la segmentation de phrases en chinois, japonais, coréen et thaï. Il est possible d'utiliser des synonymes, des acronymes et la lemmatisation (racine des mots) basée sur ispell pour étendre les résultats de la recherche.
Le Search Engine emploie la technologie basée du pays de réseau neurologique pour aider le rang des pages web. Cette méthode s'appelle le Néo-rang de popularité (en anglais : The Neo Popularity Rank). Les résultats peuvent être triés par pertinence, rang de popularité, dernière date de modification et par l'importance (une multiplication de pertinence et de popularité).
Le moteur de DataparkSearch peut construire automatiquement le sommaire pour chaque page indexée et employer ce sommaire pour ajuster le rang des pages webs (prétendues l'extraction récapitulative algorithm, en anglais : Summary Extraction Aalgorithm, SEA).
Liens externes
modifier- Site web officiel du projet
- Le page de projet dans Google Code
- Un port pour FreeBSD
- Un site de démo en utilisant DataparkSearch, vous pouvez examiner ceci qui recherche dans des langues Chinois, Japonais, Coréen et Thaï. En outre quelques pages dans d'autres langues ont été indexées.
- Newslookup.com, un site de recherche de nouvelles en utilisant DataparkSearch.