Les
logiciels
|
Dans le cadre de mes activités
éditoriales
ou
de recherche, j'utilise des outils ou j'en conçois en
Perl, Java ou C++.
Vous trouverez leur description dans cette page avec éventuellement
leur
documentation. Mes outils sont réputés du domaine public
: vous
pouvez donc les utiliser librement et les modifier, sans supprimer les
références de l'auteur. Attention, ces programmes
sont
des prototypes, et généralement assez
fastidieux
à utiliser. Me contacter pour plus d'informations .
Mise à jour
le
Vendredi 6 juillet 2007
|
|
Logiciel tiers
Outils TAL
|
| TreeTagger / Catégorie:
étiquetage /
Lien |
Treetagger est un étiqueteur morphosyntaxique multilingue. Il est aussi
capable de réaliser les étiquetages de syntagmes.
|
Stanford Parser / Catégorie: analyse
syntaxique / lien
|
Une des références en
analyse syntaxique et en dépendances
|
Classification
|
| CRF++ / Catégorie:
classification / Lien |
Cette édition de classifieur CRF est une des plus performantes et
simple à utiliser
|
SVMLib / Catégorie:classification / Lien
|
La référence en matière de
classifieurs à Support Vector Machine.
|
Logiciels personnels
Classifieur de texte |
| Langage
: Java |
Documentation
/ article
: (archive) |
Archive |
Initialement conçu pour la classification de textes et la
détection de langues, ce logiciel a
été
légèrement modifié pour participer
à la
campagne d'évaluation
Deft
07.
Il permet notamment de construire des classes puis de calculer des
scores de précision, rappel et Fscore en utilisant une
méthode cosine ou de cumul de poids TF.IDF. Les corpus de
Deft
doivent être prétraités pour lui
être soumis
(voir à ce sujet l'archive de Deft avec les convertisseurs
Perl
dédiés à cette tâche). Les
exemples de
démonstration fournis sont utilisés pour
détecter
la langue d'un document. |
| Prototypes
d'un
système de Questions Réponses |
| Langage
: Perl |
Documentation
/
article:(archive) |
Archive |
| Ce
système de question
réponse utilise un corpus étiqueté
pour mettre en
rapport une question avec des "entités réponses
candidates". L'algorithme repose sur le CWS (confidence weighted
score). |
|
| Prototypes
mis au point dans le cadre de Deft 07 |
| Langage
: Perl |
Documentation
/ article: http://deft07.limsi.fr |
Archive |
| Les
utilitaires perl présentés ici ont
été utilisés dans le cadre du défi
Deft
07.
Ils permettent de préparer les textes pour le classifieur de
texte (mise au format des fichiers XML, lemmatisation, n grammes,
etc.),
dans le cadre de l'évaluation par similarité
cosine. Le
second jeu de programmes est utilisé pour étudier
le
système de question réponse inversé
(lire
l'article des actes de Deft pour plus d'informations) |
|