Blue Theme Green Theme Red Theme Red Theme Red Theme
Flux RSS:
Posts
Commentaires

Calendar

March 2010
M T W T F S S
« Feb    
1234567
891011121314
15161718192021
22232425262728
293031  

Si vous allez sur ce site d‘une candidate de l’UMP :

capture-bienvenue-francoise-grossetete-2010-aujourdhui-et-demain-ensemble-pour-rhone-alpes-mozilla-firefox.png

Vous constaterez que le joli train n’est pas un inconnu. Il vient d’ici :

capture.png

Le problème, c’est aussi le copyright  du site, ici, qui affirme, sans honte:

Propriété intellectuelle

Le contenu du site et notamment les textes et photographies, la mise en page et l’apparence graphique du site et les autres signes distinctifs qui apparaissent dans ce site sont protégés par la législation en vigueur en matière de propriété intellectuelle. Ils ne peuvent être utilisés pour un usage autre que strictement personnel qu’avec son autorisation préalable.

Ce qui est faux pour le document issu de Commons (puisque ce dernier peut être utilisé sans autorisation), et est par ailleurs d’une particulière mauvaise foi (puisque le site en ne créditant pas l’image de Commons, ne respecte pas sa licence, donc la légilsation). Si vous voulez vous amuser, vous pouvez surfer un peu partout sur le web, les candidats des régionales - particulièrement en île de france - ont puisé à foison sur Wikimedia Commons. On ne saurait les en blâmer : c’est fait pour ça. Ce qui est grave et malhonnête, c’est de ne pas respecter le droit des auteurs qui ont choisi de donner gratuitement et sans contrepartie leur œuvre en échange d’une seule chose: que le crédit soit porté à l’origine, à savoir Commons.

Encore trop cher…

Aujourd’hui, à part Marianne (le magazine) la quasi totalité des médias qui utilisent Commons (et font ainsi de substantielles économies) oublient de créditer leur source (la honte peut être d’avoir mis plus d’argent dans la voiture du patron que dans le crédit photo du journal ou de la chaîne de télé ?). Mais ce qui est franchement énervant,  c’est de constater que les pires détracteurs du média libre (reconnaissons que l’UMP et ses membres sont quand même un fer de lance de la répression en l’espèce),  puisent sans honte dans ses contenus quand ça les arrange, et sans en respecter les règles …

Si vous avez d’autres exemples donnez les moi en commentaire !

Note: J’ai récupéré un exemple intéressant: le site du conseil régional d’Ile de France (utilisateur actif de commons). Jusqu’à récemment, les références à commons étaient oubliées comme ici. Et bien figurez vous que sur une autre page, celle ci, la référence à commons est apparue  (avec le pseudo de l’auteur et un lien vers wikipedia, ce qui est vraiment sympa en plus d’être conforme à la licence, même moi je ne le met quasiment jamais). L’idée fait donc son chemin !

Note 2: chez Britannica on pompe aussi pas mal sur commons comme ici.  Ce qui est assez marrant, dans ce cas, c’est que la licence est respectée - un lien vers la licence cc commons - mais au plus strict, c’est à dire sans mettre de lien vers commons, origine incontestable de l’image. Chez Britannica, on ne mange pas de ce commons là ma bonne dame … Enfin si, mais après avoir tapé à bras raccourci sur wikipédia, on ne préfère pas se vanter d’avoir besoin de sa fondation !

Un peu marginale au cours des dernières décennies, la génération automatique de texte, un domaine du traitement automatique des langues dont l’objectif est de générer une forme linguistique à partir de données brutes,  non linguistiques, revient en force dans le monde de la science et de l’industrie. Ce retour se fait par le biais d’une demande croissante: celle de la presse. Ce que résume très bien cet article du Monde, intitulé  “L’ère des robots journalistes”.

Depuis des décennies, dans le monde, des ouvriers découvrent un beau matin qu’ils vont être remplacés par un robot. Si les journalistes se croyaient à l’abri de ce genre de mésaventure, ils avaient tort. Depuis quelques mois, ils peuvent aller à Evanston (Illinois), près de Chicago, pour voir et tester le système qui va peut-être bientôt les suppléer. Il est tapi dans un réseau d’ordinateurs appartenant au laboratoire d’information intelligente (Infolab), installé sur le campus de l’université du Northwestern.  C’est d’un système de génération automatique d’articles qu’il est évidemment question.

Il était  prévisible que cette technologie revienne sur le devant de la scène, comme l’expliquent très bien les professionnels interviewés par Le Monde :

“Dans tous les journaux, il y a des gens qui passent leur temps à écrire des comptes rendus de matches. J’espère que, si on leur en offre la possibilité, ils seront capables à l’avenir de faire autre chose.” . Et de citer Larry Birnbaum qui dit être conscient de l’impact de ses inventions : “Nous sommes en train de créer un paysage médiatique que nous ne comprenons pas encore, mais nous savons déjà que l’organisation économique des médias devra s’y adapter. Le défi sera d’intégrer les valeurs classiques du journalisme dans ces nouveaux outils.”

Nous y voilà. Ce nouveau paysage, qui implique beaucoup d’informations gratuites, et moins de budget pour les rédactions. Avec une conséquence: des journalistes et des blogueurs qui de plus en plus systématiquement se contentent de réécrire des nouvelles puisées sur Internet (Daniel Mermet intervient souvent sur ce sujet). On ne peut pas complètement leur en vouloir: le manque de moyens dans les rédactions de presse écrite, et l’absence quasi-totale de moyens pour la majorité rédactions en ligne, les contraint souvent à se restreindre à cette réécriture-synthèse. Moins pardonnables sont les excès qui conduisent parfois à de la recopie pure et simple (comme dans le cas des bios reprises in extenso de Wikipédia): tout journaliste dispose encore, quand même, d’un accès à une bibliothèque et à un téléphone pour vérifier ce qu’il écrit.

En tout cas, on pouvait se douter qu’une tâche sans intelligence et réflexe soit - à terme - prise en charge par une machine. Tout comme on peut imaginer que les journalistes pris dans ce marché de dupes de l’article à faible valeur ajoutée, voient progressivement, au cours des dix années à venir,  leurs emplois disparaître au profit de systèmes computationnels, exactement comme hier les ouvriers à la chaîne pratiquant des actions peu qualifiées furent remplacés par des robots.

Cette mécanisation va s’accompagner d’un formidable développement de l’intelligence artificielle et des systèmes de génération de texte. Depuis les années 50, des dizaines de système plus ou moins complexes sont conçus (voir la liste de référence sur ce wiki). Des universités telle que celle d’Aberdeen ont des groupes de pointe sur le sujet. Des startups naissent presque tous les mois.

Affaire à suivre !

PS: Oui, oui, c’est mon sujet de recherche ! Et ça m’a fait tout drôle de voir ce sujet si peu connu dans un article du Monde.

Vous avez dit ambigu (*) ?

Je travaille actuellement sur l’étiquetage sémantique. Il est un peu tôt pour en dire plus, mais disons que le système que je met au point (qui sera rapidement mis en ligne) sait créer un lien entre une entité dans un texte et sa représentation ontologique. C’est le principe de l’entité nommée, tel que décrit par Jean Véronis ici, mais un peu amélioré. Jean Véronis prend soin de préciser dans son post que l’étiquetage est une tâche difficile, et on peut le croire sur parole quand on lit son article de Computational Linguistics sur le sujet de l’ambiguïté dans le texte ( Introduction to the special issue on word sense disambiguation: the state of the art, 1998).

Donc je met au point un système d’étiquetage et je vous soumet l’exemple suivant qui est un monument d’ambiguité et qui illustre bien le problème de la difficulté de cette tâche:

(rdf) Paris [LOC] est une ville  (rdf) américaine [LOC] du  (rdf) comté [ORG] de
Henry [LOC] (  (rdf) Tennessee [LOC] ) . Elle comptait 9763 habitants [AMOUNT] en
2000 [TIME] pour une superficie de 28,3 km [AMOUNT] . Elle a été baptisée
(rdf) Paris [LOC] en hommage à  (rdf) La Fayette [PERS] , qui passa par le
(rdf) Tennessee [LOC] . La réplique de la  (rdf) tour Eiffel [LOC] qui orne
la ville fut inaugurée le 29 janvier 1993 [TIME] , en présence de représentants
de la ville de  (rdf) Paris [LOC] . Cette réplique mesure 18,30 m [AMOUNT] .

Explications: vous avez ici un exemple d’étiquetage de la fiche Wikipédia de Paris (Tenessee) réalisé avec mon système. Première étape, l’étiquetage simple (à droite des mots) : LOC par exemple signifie que l’on a affaire à une ville; TIME à une donnée temporelle, PERS à un humain. Jusque là, tout va bien, mon étiqueteur fonctionne plutôt bien (c’est la moindre des choses, puisqu’il recopie un système qui a obtenu des résultats honorables dans la Campagne ESTER).

Comme j’aime bien créer des liens partout et dans tous les sens, je me suis dit qu’il serait amusant de relier ces entités avec une ontologie telle que DBpedia (une copie sémantique de Wikipédia). Et là ça se corse!

Prenons Paris : il existe 19 Paris différents dans Wikipédia ! Un paquebot, un rapeur, une musique de film, un album de Supertramp …
Pas de panique : l’étiqueteur nous a préparé le travail, on sait que Paris (Tenessee) est une ville (étiquette LOC), ce qui réduit à … 10 le nombre des possibles. Ce qui fait finalement toujours beaucoup !

Passons sur les détails, une mesure de similarité nous permet finalement de relier Paris (Tenessee) à son instance exacte dans DBpedia. Les liens sémantiques sont ceux libellés RDF, affichés devant le mot étiqueté. Vous pouvez les vérifier, la sortie ci dessus est directement issue de mon prototype et fonctionnelle. Et là, patatra: regardez bien en bas. Il y a une Tour-Eiffel à Paris (Tenessee) et elle a été offerte par la Ville de Paris (France). Je vous offre les deux Tours Eiffel (issues de Commons Wikimédia) ci dessous pour bien montrer que c’est vrai …

tour_eiffel_wikimedia_commons.jpg

La Parisienne …

paristneiffel.jpg

Et l’Américaine.

Que va faire l’étiqueteur dans un tel cas ? Normalement, le dernier Paris du texte  ( en présence de représentants de la ville de (rdf) Paris [LOC]) doit être relié à Paris (France). On pourrait espérer que les termes Tour Eiffel utilisés dans la phrase suffisent à désambiguïser ce Paris. Oui, mais il existe aussi une Tour Eiffel à Paris (Tenessee) ( je viens de le dire, j’espère que vous me suivez). Donc ? L’algorithme se plante, et associe au dernier Paris (France) le lien vers Paris (Tenessee). On est ici confronté à une erreur quasiment inévitable pour un système, en l’état actuel de la recherche sur le Traitement Automatique des Langues (méthode statistique, je précise, évidemment avec une règle, il n’y a plus de problème).

Cet exemple est plutôt rare, je vous rassure. Mais il a un côté édifiant: il nous éclaire sur l’extraordinaire faculté de notre cerveau à traiter des processus linguistiques complexes. Dans la dernière phrase, sans même connaître Paris (Tenessee), n’importe lequel d’entre nous saura relier Paris à la ville de Paris sans se tromper ! On avance vite en traitement automatique des langues, mais ce tas de neurones carbonés qu’on appelle cerveau, quand même, quelle machine performante, non ?

(*) Je m’adapte depuis un mois au clavier français nord-américain ce qui est pour moi une véritable torture (ceux qui connaissent mon rythme de frappe au clavier d’ancien forçat de l’édition voient de quoi je parle). Je n’ai pas encore trouvé tous les caractères spéciaux, donc merci de votre indulgence pour l’absence de tréma sur quelques “ambigus”.

Trucs et astuces aériens

Si vous avez des proches qui prennent l’avion, essayez Flightstats. Un truc génial qui permet de suivre les vols en temps réel (retard pour grève compris).

capture-track-flight-status-for-qk-air-canada-jazz-8765-mozilla-firefox.png

Machine de course …

capture-moniteur-systeme.png

Ma petite station de travail à Poly … Juste pour faire enrager ceux qui courent après les clusters de l’autre côté de l’Atlantique (pour information elle sert à mener des expériences sur le traitement automatique des langues comme ceci et plus précisément sur ce projet).

Google vient de faire un don de deux millions de dollars à Wikipedia, et contribue à hauteur de 85% au budget de Firefox. Pourtant, il dispose de sa propre encyclopédie en ligne, Knol, et son propre navigateur, Chrome. Est-ce de la philanthropie ou un calcul commercial ? La suite à lire dans ce bon article d’analyse de Rue89.

Séminaire à l’UDM

Le RALI de l’Université de Montréal m’a gentiment invité à présenter mes travaux sur la Génération Automatique de Texte ce Mercredi à 11h30 lors d’un séminaire public. Si vous êtes dans le coin, passez dire bonjour !

Vous connaissez la Ferme Aux Célébrités ? Probablement si vous êtes en France (au Canada nous sommes préservés, le visionnage sur Internet est bloqué par TF1, probablement pour une histoire de droits d’auteurs). Cette émission - tournée en Afrique - atteint en ce moment des sommets du cliché, passons. Ce qui a attiré mon attention c’est le positionnement du site de l’émission sur Google :

fac2.JPG

Le site officiel n’apparaît qu’en huitième position dans Google avec les mots clés “ferme aux célébrités. Il est en deuxième position avec la suite complète de mots clés:

fac.JPG

Et oui dans tous les cas: la fiche Wikipédia est mieux placée que le site officiel. Tf1:0 / Wikipédia 2 : vainqueur par KO !

Ce phénomène de sur-référencement de Wikipédia avec les algorithmes de Google devient un cauchemar pour les agences de RP et de marketing en ligne: car si les pages de Wikipédia ont effectivement plus de notoriété que les autres, le site principal devrait rester la référence. En l’occurrence ici ce n’est pas le cas, et celui qui veut des informations sur l’émission en question sera en priorité dirigé sur une page neutre de Wikipédia (ce qui n’empêche pas une position critique si elle est argumentée et factuelle) plutôt que sur une publication commerciale et orientée ! Une calamité pour les producteurs !

Ce problème conjugué de la sur-représentation de Wikipédia, et de l’impossibilité pour les responsables des produits, les personnes et les entreprises décrites de contrôler ses contenus, avait déjà engendré un fort sentiment d’agacement chez les patrons et les entreprises du Cac 40. Et pourtant ce n’est pas faute d’essayer ! Le Wikiscanner avait révélé de nombreuses modifications mises en lignes par des organisations sur leurs propres fiches (voire celles de leurs concurrents). On parlait d’Aéroports de Paris, qui avait remplacé le titre « ADP et les nuisances aériennes » par « ADP et l’environnement ». On avait aussi évoqué l’activisme forcené de la Mairie de Levallois. D’autres exemples impliquent TF1, Air France ou le Ministère des finances.

Leurs clients démasqués, les agences de relation publiques n’ont plus pour dernier recours que de payer anonymement des utilisateurs connus de Wikipédia (donc moins surveillés par les autres et plus à même de corriger discrètement des informations) pour tenter - de guerre lasse - de maîtriser au moins (un peu) ce que l’on dit sur leurs clients.

On compte d’ailleurs régulièrement des exemples de fiches biographiques crées sur Wikipédia par les personnes qu’elles concernent (narcissisme quand tu nous tiens) et qui deviennent de véritables champs de bataille lorsque leurs auteurs constatent que ce qui y est dit leur échappe totalement (notamment lors d’affaires judiciaires) car tout le monde peut y écrire à peu près ce qu’il veut (tant que c’est sourcé). En ce moment d’ailleurs, ça bouge pas mal sur les fiches de candidats aux régionales …

Étonnant non ?

Le G7 à Iqaluit

Les ministres des Finances et banquiers centraux du G7 ont ouvert vendredi à Iqaluit, dans la neige du Grand Nord canadien, une réunion lors de laquelle ils sont invités à se parler franchement, à l’heure où les marchés financiers mondiaux s’inquiètent. (Liberation)

800px-iqaluit_st_jude_1995-06-08.jpg

Iqaluit (« les poissons » en inuktitut) est une ville canadienne et la capitale du territoire du Nunavut, le plus grand des territoires et provinces du Canada et aussi le moins peuplé. Elle se situe au sud-ouest de l’île de la Terre de Baffin, au bord de l’océan Arctique, dans la baie de Frobisher. La ville compte 7000 habitants, son climat est l’un des plus froids du monde, et il ne faut guère espérer y avoir plus de -30 en ce moment . La température la plus basse à y avoir été enregistrée est -45,6 °C, le 10 février 1967.

iqaluit-airport.jpg

Si cette ville compte un Aéroport de bonne qualité (ces infrastructures du grand nord sont très bien dotées par le Gouvernement Fédéral car essentielles au développement … et plus pratiques que la route), l’unique hôtel est loin des standings habituels des ministres des finances du G7. Les journalistes (en nombres dans ces réunions) seront même pour partie logés dans des dortoirs (eux aussi sont plutôt des habitués des 5 étoiles).

Le Canada veut des discussions sincères. Débarrassé de la charge de produire un communiqué, le G7 doit prendre une tournure moins formelle (Libération). Il a trouvé le bon endroit !

Sources images et texte Wikipédia et Commons

Hommage à Howard Zinn

L’historien Howard Zinn est décédé d’une crise cardiaque à 87 ans ce mercredi.

J’ai redécouvert l’Amérique à travers ses écrits, et notamment sa monumentale Histoire populaire des États-Unis qui décortique sur plus de trois siècles le rapport (complexe) de l’amérique à son industrie de l’armement, à son économie de guerre, à ses vétérans, à sa pauvreté, à sa bourgeoisie dominante et son establishment.

Agoravox nous rappelle que dans le Boston globe, Noam Chomsky a dit [de lui] un jour [que ses écrits] […] « ont changé la conscience d’une génération, et contribué à ouvrir de nouvelles voies pour la comprendre et son rôle crucial dans nos vies ». Plus loin, le cinéaste William Karel  raconte sa rencontre avec Zinn: “A près de 90 ans il a fait la campagne d’Obama. Il a traversé tout le siècle. Il s’est battu contre la guerre du Viet Nam, il a accompagné Martin Luther King, Lyndon Johnson lui a demandé de venir s’installer à la Maison Blanche pour lui écrire ses discours…  “.

Tout est dit sur ce personnage trop peu connu en Europe.

Le site de Howard Zinn: howardzinn.org


 zinnmain.jpg

Cette très belle image est non libre de droit et provient du site de Howard Zinn (j’espère qu’on ne m’en voudra pas pour sa reproduction ici)

Older Posts »