Blue ThemeGreen ThemeRed ThemeRed ThemeRed Theme
RSS Feeds:
Posts
Comments
Logiciels utiles et pratiques pour le TAL. Evitez les usines à Gaz!

Les logiciels
Dans le cadre de mes activités éditoriales ou de recherche, j'utilise des outils ou j'en conçois en Perl, Java ou C++. Vous trouverez leur description dans cette page avec éventuellement leur documentation. Mes outils sont réputés du domaine public : vous pouvez donc les utiliser librement et les modifier, sans supprimer les références de l'auteur. Attention, ces programmes sont des prototypes, et généralement  assez fastidieux à utiliser. Me contacter pour plus d'informations .
Mise à jour le  Vendredi  6 juillet 2007
Logiciel tiers
Outils TAL
TreeTagger / Catégorie: étiquetage / Lien
Treetagger est un étiqueteur morphosyntaxique multilingue. Il est aussi capable de réaliser les étiquetages de syntagmes.
Stanford Parser / Catégorie: analyse syntaxique / lien
Une des références en analyse syntaxique et en dépendances

Classification
CRF++ / Catégorie: classification / Lien
Cette édition de classifieur CRF est une des plus performantes et simple à utiliser
SVMLib / Catégorie:classification / Lien
La référence en matière de classifieurs à Support Vector Machine.

Logiciels personnels

Classifieur de texte
Langage : Java Documentation / article : (archive) Archive
Initialement conçu pour la classification de textes et la détection de langues, ce logiciel a été légèrement modifié pour participer à la campagne d'évaluation Deft 07. Il permet notamment de construire des classes puis de calculer des scores de précision, rappel et Fscore en utilisant une méthode cosine ou de cumul de poids TF.IDF. Les corpus de Deft doivent être prétraités pour lui être soumis (voir à ce sujet l'archive de Deft avec les convertisseurs Perl dédiés à cette tâche). Les exemples de démonstration fournis sont utilisés pour détecter la langue d'un document.
Prototypes d'un système de Questions Réponses
Langage : Perl Documentation / article:(archive) Archive
Ce système de question réponse utilise un corpus étiqueté pour mettre en rapport une question avec des "entités réponses candidates". L'algorithme repose sur le CWS (confidence weighted score).
Prototypes mis au point dans le cadre de Deft 07
Langage : Perl Documentation / article: http://deft07.limsi.fr Archive
Les utilitaires perl présentés ici ont été utilisés dans le cadre du défi Deft 07. Ils permettent de préparer les textes pour le classifieur de texte (mise au format des fichiers XML, lemmatisation, n grammes, etc.), dans le cadre de l'évaluation par similarité cosine. Le second jeu de programmes est utilisé pour étudier le système de question réponse inversé (lire l'article des actes de Deft pour plus d'informations)

www.echarton.com (c) E.Charton 2001-2010
Cette publication est conçue entièrement avec des outils logiciels Open Source.  Elle utilise les standards actuels du Web (CSS, XHTML)
Sauf avis contraire, les contenus proposés sur ce site peuvent être librement repris sous license Creative Commons

Contrat Creative Commons