<?xml version="1.0" encoding="UTF-8"?>
<!-- generator="wordpress/2.2.1" -->
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	>

<channel>
	<title>Le technoblog d'Eric Charton</title>
	<link>http://www.echarton.com/blog</link>
	<description>Informations techniques, pratiques, rigolotes, sur l'actualité des sciences</description>
	<pubDate>Fri, 03 Feb 2012 17:19:24 +0000</pubDate>
	<generator>http://wordpress.org/?v=2.2.1</generator>
	<language>en</language>
			<item>
		<title>Richard Stallman à Avignon</title>
		<link>http://www.echarton.com/blog/2012/02/03/richard-stallman-a-avignon/</link>
		<comments>http://www.echarton.com/blog/2012/02/03/richard-stallman-a-avignon/#comments</comments>
		<pubDate>Fri, 03 Feb 2012 17:16:50 +0000</pubDate>
		<dc:creator>Eric</dc:creator>
		
		<category><![CDATA[Divers et avariés]]></category>

		<guid isPermaLink="false">http://www.echarton.com/blog/2012/02/03/richard-stallman-a-avignon/</guid>
		<description><![CDATA[Je découvre tous les jours que les personnages historiques de l&#8217;informatique et d&#8217;internet sont méconnus par les informaticiens eux mêmes. J&#8217;ai parlé dans ce blog de Turing, de Von Neuman, de Claude Shannon, et il faudra que j&#8217;écrive sur Vinton Cerf aussi un jour (question posée par un Lycéen la semaine dernière à trois docteurs [...]]]></description>
			<content:encoded><![CDATA[<p>Je découvre tous les jours que les personnages historiques de l&#8217;informatique et d&#8217;internet sont méconnus par les informaticiens eux mêmes. J&#8217;ai parlé dans ce blog de Turing, de Von Neuman, de Claude Shannon, et il faudra que j&#8217;écrive sur Vinton Cerf aussi un jour (question posée par un Lycéen la semaine dernière à trois docteurs en informatique, &#8220;qui est l&#8217;inventeur d&#8217;Internet&#8221;, la réponse était là mais de justesse).</p>
<p>Si vous aimez le libre, l&#8217;open source, l&#8217;abolition des frontières numériques, êtes anti-hadopi ou que sais-je encore je ne vois pas comment vous pouvez méconnaître Richard Stallman. Voici ce qu&#8217;en dit Wikipedia:</p>
<p><strong style="font-family: sans-serif; font-size: 13px; line-height: 19px">Richard Matthew Stallman</strong><span style="font-family: sans-serif; font-size: 13px; line-height: 19px"> (né à </span><span style="text-decoration: none; color: #0b0080; background-image: none; font-family: sans-serif; font-size: 13px; line-height: 19px">Manhattan</span><span style="font-family: sans-serif; font-size: 13px; line-height: 19px">, le </span><span style="text-decoration: none; color: #0b0080; background-image: none; font-family: sans-serif; font-size: 13px; line-height: 19px">16</span><span style="font-family: sans-serif; font-size: 13px; line-height: 19px"> </span><span style="text-decoration: none; color: #0b0080; background-image: none; font-family: sans-serif; font-size: 13px; line-height: 19px">mars</span><span style="font-family: sans-serif; font-size: 13px; line-height: 19px"> </span><span style="text-decoration: none; color: #0b0080; background-image: none; font-family: sans-serif; font-size: 13px; line-height: 19px">1953</span><span style="font-family: sans-serif; font-size: 13px; line-height: 19px">), connu aussi sous les initiales </span><strong style="font-family: sans-serif; font-size: 13px; line-height: 19px">rms</strong><span style="font-family: sans-serif; font-size: 13px; line-height: 19px"> (en minuscules, ainsi qu’il sied aux informaticiens des années 1970 pour qui l’avènement du bas de casse sur les écrans informatiques représenta une vraie conquête), est un programmeur et militant du </span><a href="http://fr.wikipedia.org/wiki/Logiciel_libre" style="text-decoration: none; color: #0b0080; background-image: none; font-family: sans-serif; font-size: 13px; line-height: 19px" title="Logiciel libre">logiciel libre</a><span style="font-family: sans-serif; font-size: 13px; line-height: 19px">. Il est à l’origine du projet </span><a href="http://fr.wikipedia.org/wiki/GNU" style="text-decoration: none; color: #0b0080; background-image: none; font-family: sans-serif; font-size: 13px; line-height: 19px" title="GNU">GNU</a><span style="font-family: sans-serif; font-size: 13px; line-height: 19px"> et de la </span><a href="http://fr.wikipedia.org/wiki/Licence_publique_g%C3%A9n%C3%A9rale_GNU" style="text-decoration: none; color: #0b0080; background-image: none; font-family: sans-serif; font-size: 13px; line-height: 19px" title="Licence publique générale GNU">licence publique générale GNU</a><span style="font-family: sans-serif; font-size: 13px; line-height: 19px"> connue aussi sous l’acronyme GPL, qu’il a rédigée avec l’avocat </span><a href="http://fr.wikipedia.org/wiki/Eben_Moglen" style="text-decoration: none; color: #0b0080; background-image: none; font-family: sans-serif; font-size: 13px; line-height: 19px" title="Eben Moglen">Eben Moglen</a><span style="font-family: sans-serif; font-size: 13px; line-height: 19px">. Il a popularisé le terme anglais </span><em style="font-family: sans-serif; font-size: 13px; line-height: 19px"><a href="http://fr.wikipedia.org/wiki/Copyleft" style="text-decoration: none; color: #0b0080; background-image: none" title="Copyleft">copyleft</a></em><span style="font-family: sans-serif; font-size: 13px; line-height: 19px"></span><sup style="line-height: 1em; vertical-align: text-top; position: relative; font-size: 0.8em; top: -5px; padding-left: 1px; white-space: nowrap; font-family: sans-serif" class="reference" id="cite_ref-0"><a href="http://fr.wikipedia.org/wiki/Richard_Stallman#cite_note-0" style="text-decoration: none; color: #0b0080; background-image: none"></a></sup><span style="font-family: sans-serif; font-size: 13px; line-height: 19px">. Programmeur renommé de la communauté informatique américaine et internationale, il a développé de nombreux logiciels dont les plus connus des développeurs sont l’éditeur de texte </span><a href="http://fr.wikipedia.org/wiki/GNU_Emacs" style="text-decoration: none; color: #0b0080; background-image: none; font-family: sans-serif; font-size: 13px; line-height: 19px" title="GNU Emacs">GNU Emacs</a><span style="font-family: sans-serif; font-size: 13px; line-height: 19px">, le </span><a href="http://fr.wikipedia.org/wiki/GNU_Compiler_Collection" style="text-decoration: none; color: #0b0080; background-image: none; font-family: sans-serif; font-size: 13px; line-height: 19px" title="GNU Compiler Collection">compilateur C de GNU</a><span style="font-family: sans-serif; font-size: 13px; line-height: 19px">, le </span><a href="http://fr.wikipedia.org/wiki/GNU_Debugger" style="text-decoration: none; color: #0b0080; background-image: none; font-family: sans-serif; font-size: 13px; line-height: 19px" title="GNU Debugger">débogueur GNU</a><span style="font-family: sans-serif; font-size: 13px; line-height: 19px"> mais aussi, en collaboration avec </span><a href="http://fr.wikipedia.org/wiki/Roland_McGrath" style="text-decoration: none; color: #0b0080; background-image: none; font-family: sans-serif; font-size: 13px; line-height: 19px" title="Roland McGrath">Roland McGrath</a><span style="font-family: sans-serif; font-size: 13px; line-height: 19px">, le </span><a href="http://fr.wikipedia.org/wiki/Moteur_de_production" style="text-decoration: none; color: #0b0080; background-image: none; font-family: sans-serif; font-size: 13px; line-height: 19px" title="Moteur de production">moteur de production</a><span style="font-family: sans-serif; font-size: 13px; line-height: 19px"> </span><a href="http://fr.wikipedia.org/wiki/GNU_Make" style="text-decoration: none; color: #0b0080; background-image: none; font-family: sans-serif; font-size: 13px; line-height: 19px" title="GNU Make">GNU Make</a><span style="font-family: sans-serif; font-size: 13px; line-height: 19px">.</span></p>
<p><span style="font-family: sans-serif; font-size: 13px; line-height: 19px"></span>Pas rien, non ?</p>
<p><a href="http://www.echarton.com/blog/2012/02/03/richard-stallman-a-avignon/400px-richard_stallman_and_audiencejpg/" rel="attachment wp-att-832" title="400px-richard_stallman_and_audience.jpg"><img src="http://www.echarton.com/blog/wp-content/uploads/2012/02/400px-richard_stallman_and_audience.jpg" alt="400px-richard_stallman_and_audience.jpg" height="501" width="336" /></a></p>
<p>J&#8217;ai <a href="http://www.echarton.com/blog/2011/08/30/linux-a-20-ans/">déjà raconté</a> que c&#8217;est un assidu des conférence Wikimania (le point de rencontre annuel des contributeurs de Wikipédia et des projets de la fondation Wikimania).</p>
<p>Et bien figurez vous qu&#8217;il va donner une conférence à l&#8217;<a href="http://lia.univ-avignon.fr/fileadmin/documents/Users/Intranet/chercheurs/torres/stallman/index.html">Université d&#8217;Avignon</a> (campus Sainte Marthe, Amphi AT02)  mardi 21 février sur le thème &#8220;Pour une société numérique libre&#8221; dont voici le résumé:</p>
<p><em>Dans cette conférence aux allures de slogan, Richard Stallman exposera ses pensées et réflexions sur la part grandissante qu&#8217;occupent les technologies numériques dans nos sociétés. A travers le monde, on constate la mise en place de politiques destinées à réduire, voire éliminer la fracture numérique en arguant que l&#8217;accès aux nouvelles technologies de l&#8217;information et de la communication est invariablement bénéfique et qu&#8217;il faut donc en garantir l&#8217;accès au plus grand nombre. Cela pourrait être indéniablement vrai si l&#8217;on s&#8217;en tenait à une réflexion de surface, notamment parce que les applications pratiques de ces technologies rendent des services autrement impossibles mais s&#8217;avère un peu plus hasardeux si l&#8217;on commence à aborder la question en terme de Droits de l&#8217;Homme et de Liberté : savoir si transformer notre société en société numérique constitue un progrès dépend largement du type de société numérique que l&#8217;on cherche à bâtir !</em></p>
<p>Évidemment, j&#8217;ai plein d&#8217;attaches avec cette université et je ne doute pas que tous les étudiants en <em>com</em> et en informatique seront de la partie !  Je ne pourrais pas y assister mais je le regrette.</p>
]]></content:encoded>
			<wfw:commentRss>http://www.echarton.com/blog/2012/02/03/richard-stallman-a-avignon/feed/</wfw:commentRss>
		</item>
		<item>
		<title>Les Geeks aiment la musique</title>
		<link>http://www.echarton.com/blog/2012/01/16/les-geeks-aiment-la-musique/</link>
		<comments>http://www.echarton.com/blog/2012/01/16/les-geeks-aiment-la-musique/#comments</comments>
		<pubDate>Mon, 16 Jan 2012 00:11:19 +0000</pubDate>
		<dc:creator>Eric</dc:creator>
		
		<category><![CDATA[Divers et avariés]]></category>

		<guid isPermaLink="false">http://www.echarton.com/blog/2012/01/16/les-geeks-aiment-la-musique/</guid>
		<description><![CDATA[ 

J&#8217;ai trouvé ce Rap Java assez tordant (thanks @baharSateli) et je ne résiste pas au plaisir de le partager ici 
]]></description>
			<content:encoded><![CDATA[<p> <object type="application/x-shockwave-flash" data="http://www.youtube.com/v/KC8lt--rEEo" width="425" height="350" wmode="transparent">
<param name="movie" value="http://www.youtube.com/v/KC8lt--rEEo" /></object></p>
<p>J&#8217;ai trouvé ce Rap Java assez tordant (thanks <a href="https://twitter.com/BaharSateli">@baharSateli</a>) et je ne résiste pas au plaisir de le partager ici <img src='http://www.echarton.com/blog/wp-includes/images/smilies/icon_smile.gif' alt=':-)' class='wp-smiley' /></p>
]]></content:encoded>
			<wfw:commentRss>http://www.echarton.com/blog/2012/01/16/les-geeks-aiment-la-musique/feed/</wfw:commentRss>
		</item>
		<item>
		<title>Un pas de plus vers le nano-espace</title>
		<link>http://www.echarton.com/blog/2012/01/03/un-pas-de-plus-vers-le-nano-espace/</link>
		<comments>http://www.echarton.com/blog/2012/01/03/un-pas-de-plus-vers-le-nano-espace/#comments</comments>
		<pubDate>Tue, 03 Jan 2012 15:48:32 +0000</pubDate>
		<dc:creator>Eric</dc:creator>
		
		<category><![CDATA[Open Space]]></category>

		<category><![CDATA[Actualités produits]]></category>

		<guid isPermaLink="false">http://www.echarton.com/blog/2012/01/03/un-pas-de-plus-vers-le-nano-espace/</guid>
		<description><![CDATA[Pour poursuivre la saga dont j&#8217;ai entamée la description dans ce post, un petit mot sur le lancement réussi par Amardilloaerospace début décembre.
Sur le site du Spaceport America au Nouveau Mexique ( celui qui devrait accueillir prochainement les voyages de Virgin Galactic ), la société a procédé au lancement de sa fusée Stiga ( STIG-A [...]]]></description>
			<content:encoded><![CDATA[<p>Pour poursuivre la saga dont j&#8217;ai entamée la description dans ce <a href="http://www.echarton.com/blog/2011/08/13/pronostique-sur-la-prochaine-revolution-technologique/">post</a>, un petit mot sur le lancement réussi par Amardilloaerospace début décembre.</p>
<p>Sur le site du <a href="http://fr.wikipedia.org/wiki/Spaceport%20America">Spaceport America</a> au Nouveau <a href="http://fr.wikipedia.org/wiki/Mexique">Mexique</a> ( celui qui devrait accueillir prochainement les voyages de <a href="http://fr.wikipedia.org/wiki/Virgin%20Galactic">Virgin Galactic</a> ), la société a procédé au lancement de sa fusée Stiga ( STIG-A ) à environ 43000 mètres d&#8217;altitude.</p>
<p><object type="application/x-shockwave-flash" data="http://www.youtube.com/v/VNtR5HIL3FM" width="425" height="350" wmode="transparent">
<param name="movie" value="http://www.youtube.com/v/VNtR5HIL3FM" /></object></p>
<p>La fusée a atteint son apogée en 2 minutes avant de se poser avec des dégâts mineurs 12 minutes plus tard, à quelques kilomètres du site de lancement.</p>
<p>D&#8217;après ses concepteurs, la fusée ( Amateur du type classe 3 de la <a href="http://fr.wikipedia.org/wiki/Federal%20Aviation%20Administration">FAA</a> [1]) possède un potentiel d&#8217;amélioration important, notamment en réduisant son poids et en augmenta sa capacité d&#8217;emport de propergol (actuellement de l&#8217;oxygène liquide et de l&#8217;alcool dénaturé). Amardilloaerospace considère que sa prochaine fusée sera en mesure d&#8217;atteindre l&#8217;espace et de satelliser une petite charge utile.</p>
<p>Côté nano-satellite, les pas sont aussi de géants. On a ainsi appris récemment qu&#8217;un groupe de Hackers souhaitait lancer son système de communication spatial pour<a href="http://www.bbc.co.uk/news/technology-16367042?tk=rel_news"> contrer la censure</a>. Le projet est plutôt bien avancé. Il répond au nom de &#8220;<a href="http://shackspace.de/wiki/doku.php?id=project:hgg">Hacker Space global Grid</a>&#8221; et est affilié au projet <a href="http://aerospaceresearch.net/constellation/">Constellation</a>. Ce projet prévoit d&#8217;utiliser les protocoles de calcul distribué sur Internet pour stimuler les sciences et l&#8217;ingéniérie en relation avec l&#8217;espace.</p>
<p>L&#8217;affaire suit son cours, et j&#8217;en profite pour ouvrir une nouvelle section <em>Open Space</em> sur ce blog !</p>
<p>(Semantics by <a href="http://www.wikimeta.com">Wikimeta</a>)</p>
<p><em>[1] La FAA a récemment publiée de nouvelles règles sur le lancement de fusées amateurs depuis le territoire des USA. Moyennant une procédure relativement légère et peu coûteuse, il est permis aux USA pour un particulier, un groupe ou une association, de lancer une fusée d&#8217;un peu moins de 900 000 N/S sur trajectoire sub-orbitale en ne dépassant pas une altitude de 150 km.  </em></p>
]]></content:encoded>
			<wfw:commentRss>http://www.echarton.com/blog/2012/01/03/un-pas-de-plus-vers-le-nano-espace/feed/</wfw:commentRss>
		</item>
		<item>
		<title>2012, l&#8217;année du Big Data</title>
		<link>http://www.echarton.com/blog/2011/12/31/2012-lannee-du-big-data/</link>
		<comments>http://www.echarton.com/blog/2011/12/31/2012-lannee-du-big-data/#comments</comments>
		<pubDate>Fri, 30 Dec 2011 23:09:51 +0000</pubDate>
		<dc:creator>Eric</dc:creator>
		
		<category><![CDATA[Internet, blogs, etc ...]]></category>

		<guid isPermaLink="false">http://www.echarton.com/blog/2011/12/31/2012-lannee-du-big-data/</guid>
		<description><![CDATA[Big data (« grosse donnée ») est une expression anglophone utilisée pour désigner des ensembles de données qui deviennent tellement gros qu&#8217;ils en deviennent difficiles à travailler avec des outils classiques de gestion de base de données. Dans ces nouveaux ordres de grandeur, la capture, le stockage, la recherche, le partage, l&#8217;analyse et la visualisation [...]]]></description>
			<content:encoded><![CDATA[<p><em>Big data (« grosse donnée ») est une expression anglophone utilisée pour désigner des ensembles de données qui deviennent tellement gros qu&#8217;ils en deviennent difficiles à travailler avec des outils classiques de gestion de base de données. Dans ces nouveaux ordres de grandeur, la capture, le stockage, la recherche, le partage, l&#8217;analyse et la visualisation des données doivent être redéfinis. Les perspectives du traitement des big data sont énormes, notamment pour l&#8217;analyse d&#8217;opinions ou de tendances industrielles, la génomique, l&#8217;épidémiologie ou la lutte contre la criminalité [<a href="http://fr.wikipedia.org/wiki/Big_data">wikipedia</a>].</em></p>
<p>2012 devrait être l&#8217;année des données. Des grosses masses de données. En un mot, du <strong>&#8220;Big Data&#8221;</strong>, terme que vous devez vous attendre à voir de plus en plus utilisé.</p>
<p>L&#8217;univers du Big Data n&#8217;est pas prospectif, il est à nos portes: les fabricants de disques durs et de solution d&#8217;archivage ne connaissent pas la crise. L&#8217;impact du big data aurait déjà fortement augmenté la demande de logiciels et de matériels de stockage. Certains fournisseurs tels qu&#8217;Oracle, IBM, Microsoft, SAP ont déjà dépensés plus de 15 milliards de dollars en rachat d&#8217;entreprise de logiciels de gestion et d&#8217;analyse de donnée [<a href="http://www.economist.com/node/15557443">1</a>]. On parle d&#8217;un marché de plus de 100 milliards de dollars croissant de 10% par an. Des perspectives de croissance que l&#8217;on n&#8217;avait pas vu dans le secteur de l&#8217;informatique depuis une bonne vingtaine d&#8217;années.  Voici une citation extraite d&#8217;<a href="http://semanticweb.com/ring-in-a-new-year-for-the-semantic-web_b25629">ici</a> (et de quelques milliers d&#8217;autres que vous trouverez un peu partout sur le web):</p>
<ul>
<li><strong><span style="outline-width: 0px; font-size: 13px; vertical-align: baseline; background-color: transparent; border-width: 0px; padding: 0px; margin: 0px"><em style="outline-width: 0px; font-size: 13px; vertical-align: baseline; background-color: transparent; border-width: 0px; padding: 0px; margin: 0px">Big Data is predicted by analysts to be the next “must have” competency in 2012 as the volume of digital content grows to 2.7 zettabytes. Over 90 percent of this information will be unstructured — full of rich information, but challenging to understand and analyze.</em></span></strong><span class="Apple-converted-space"> </span>–<span class="Apple-converted-space"> </span><em style="outline-width: 0px; font-size: 13px; vertical-align: baseline; background-color: transparent; border-width: 0px; padding: 0px; margin: 0px">Rebecca MacDonald, VP of marketing at<span class="Apple-converted-space"> </span><a href="http://www.attensity.com/" style="outline-width: 0px; font-size: 13px; vertical-align: baseline; background-color: transparent; text-decoration: none; border-width: 0px; padding: 0px; margin: 0px">Attensity</a></em></li>
</ul>
<p>On ne parle même plus de Terras-bytes, on est au <a href="http://en.wikipedia.org/wiki/Zettabyte">Zetta-byte</a> (<span style="color: #000000; font-family: sans-serif; font-size: 11px; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: 16px; orphans: 2; text-align: left; text-indent: 0px; text-transform: none; white-space: normal; widows: 2; word-spacing: 0px; background-color: #f9f9f9; display: inline !important; float: none" class="Apple-style-span">10</span><sup style="line-height: 1em; color: #000000; font-family: sans-serif; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; orphans: 2; text-align: left; text-indent: 0px; text-transform: none; white-space: normal; widows: 2; word-spacing: 0px; background-color: #f9f9f9">21 octets)</sup>, bientôt suivis par les <a href="http://en.wikipedia.org/wiki/Yottabyte">Yottabytes</a> (<span style="color: #000000; font-family: sans-serif; font-size: 11px; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: 16px; orphans: 2; text-align: left; text-indent: 0px; text-transform: none; white-space: normal; widows: 2; word-spacing: 0px; background-color: #f9f9f9; display: inline !important; float: none" class="Apple-style-span">10</span><sup style="line-height: 1em; color: #000000; font-family: sans-serif; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; orphans: 2; text-align: left; text-indent: 0px; text-transform: none; white-space: normal; widows: 2; word-spacing: 0px; background-color: #f9f9f9">24 octets)</sup> . En 2009, on estimait que la totalité des ordinateurs du monde contenaient 160 <a href="http://en.wikipedia.org/wiki/Exabyte">exabytes</a>  (<span style="color: #000000; font-family: sans-serif; font-size: 11px; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: 16px; orphans: 2; text-align: left; text-indent: 0px; text-transform: none; white-space: normal; widows: 2; word-spacing: 0px; background-color: #f9f9f9; display: inline !important; float: none" class="Apple-style-span">10</span><sup style="line-height: 1em; color: #000000; font-family: sans-serif; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; orphans: 2; text-align: left; text-indent: 0px; text-transform: none; white-space: normal; widows: 2; word-spacing: 0px; background-color: #f9f9f9">18 octets). </sup>On envisage en 2009, que le seul réseau internet contiendrait 500<a href="http://en.wikipedia.org/wiki/Exabyte"> exabytes</a> [<a href="http://www.guardian.co.uk/business/2009/may/18/digital-content-expansion">2</a>] En 2011, on ne sait plus très bien.</p>
<p>Voilà pourquoi l&#8217;année 2012 sera celle des données. Non pas parce ce que c&#8217;est à la mode, mais un peu comme pour l&#8217;énergie, le logement, la nourriture, par ce que tout le monde en a besoin.</p>
<p>Lorsque l&#8217;industrie s&#8217;est engagée dans la voie de la <a href="http://fr.wikipedia.org/wiki/M%C3%A9canisation">mécanisation</a> vers la fin du 18 ème siècle, son besoin en énergie (charbon, puis pétrole) n&#8217;a eu de cesse d&#8217;augmenter. Il ne fait guère de doute selon nombre d&#8217;analyste que le même mécanisme de prolifération d&#8217;une matière à traiter (la donnée) va faire émerger un énorme marché de la transformation de ces données: et le carburant de cette transformation, ce n&#8217;est plus le pétrole, ce sont les idées !  Analyseurs sémantiques, d&#8217;opinion, de la langue, tout sera bon à prendre pour les industriels de l&#8217;information.  Il va donc falloir des ingénieurs, des docteurs, des informaticiens, des linguistes, des mathématiciens, pour découvrir cette nouvelle énergie de la transformation qu&#8217;est l&#8217;intelligence transmise aux machines afin qu&#8217;elles traitent une marée de données.</p>
<p>Pour  <strong>Graham G. Rong,</strong> Chair du MIT Sloan CIO Symposium, <em>&#8220;la transformation digitale est l&#8217;un des impératifs des directions opérationnelles pour la prochaîne décennie&#8221;</em>. On sent assez nettement en Amérique du Nord le bruissement (ou le gazouillis) autour de cette question. En particulier en rapport avec le web sémantique et le traitement automatique de la langue. De nombreuses start-up se créent pour imaginer des produits originaux capables de fouiller intelligemment de grosses masses de données. Si ce défi passionnant vous intéresse en tant que chercheur, étudiant, entrepreneur,  à mon avis, c&#8217;est une des meilleures opportunités du moment.</p>
<p>Bonne année 2012, avec tout plein d&#8217;idées.</p>
]]></content:encoded>
			<wfw:commentRss>http://www.echarton.com/blog/2011/12/31/2012-lannee-du-big-data/feed/</wfw:commentRss>
		</item>
		<item>
		<title>Nettoyage express &#8230;</title>
		<link>http://www.echarton.com/blog/2011/12/22/nettoyage-express/</link>
		<comments>http://www.echarton.com/blog/2011/12/22/nettoyage-express/#comments</comments>
		<pubDate>Thu, 22 Dec 2011 18:19:36 +0000</pubDate>
		<dc:creator>Eric</dc:creator>
		
		<category><![CDATA[Divers et avariés]]></category>

		<guid isPermaLink="false">http://www.echarton.com/blog/2011/12/22/nettoyage-express/</guid>
		<description><![CDATA[

Je ne m&#8217;attendais pas à la fin 
]]></description>
			<content:encoded><![CDATA[<p><object type="application/x-shockwave-flash" data="http://www.youtube.com/v/RoQRdHF2qgI" width="425" height="350" wmode="transparent">
<param name="movie" value="http://www.youtube.com/v/RoQRdHF2qgI" /></object></p>
<p>Je ne m&#8217;attendais pas à la fin <img src='http://www.echarton.com/blog/wp-includes/images/smilies/icon_smile.gif' alt=':-)' class='wp-smiley' /></p>
]]></content:encoded>
			<wfw:commentRss>http://www.echarton.com/blog/2011/12/22/nettoyage-express/feed/</wfw:commentRss>
		</item>
		<item>
		<title>Ce que l&#8217;on peut faire avec la visualisation de données</title>
		<link>http://www.echarton.com/blog/2011/12/15/ce-que-lon-peut-faire-avec-la-visualisation-de-donnees/</link>
		<comments>http://www.echarton.com/blog/2011/12/15/ce-que-lon-peut-faire-avec-la-visualisation-de-donnees/#comments</comments>
		<pubDate>Thu, 15 Dec 2011 16:07:45 +0000</pubDate>
		<dc:creator>Eric</dc:creator>
		
		<category><![CDATA[Divers et avariés]]></category>

		<guid isPermaLink="false">http://www.echarton.com/blog/2011/12/15/ce-que-lon-peut-faire-avec-la-visualisation-de-donnees/</guid>
		<description><![CDATA[Cette animation est remarquable:






Elle montre le flux de message émis via tweeter depuis le japon au moment du tremblement de terre.  C&#8217;est une démonstration (parmi tant d&#8217;autres) de ce que l&#8217;analyse intelligente du flux d&#8217;information permet aujourd&#8217;hui de produire. L’évènement est mesurable quasiment en temps réel !
Évidemment ce type d&#8217;analyse à posteriori n&#8217;a qu&#8217;une vocation de démonstration,  en pratique, elle [...]]]></description>
			<content:encoded><![CDATA[<p>Cette animation est remarquable:</p>
<p><object type="application/x-shockwave-flash" data="http://www.flickr.com/apps/video/stewart.swf?v=109786" classid="clsid:D27CDB6E-AE6D-11cf-96B8-444553540000" height="225" width="400"></p>
<param name="flashvars" value="intl_lang=fr-fr&amp;photo_secret=8fb27274bc&amp;photo_id=5885172082"></param>
<param name="movie" value="http://www.flickr.com/apps/video/stewart.swf?v=109786"></param>
<param name="bgcolor" value="#000000"></param>
<param name="allowFullScreen" value="true"></param><embed src="http://www.flickr.com/apps/video/stewart.swf?v=109786" type="application/x-shockwave-flash" bgcolor="#000000" allowfullscreen="true" flashvars="intl_lang=fr-fr&amp;photo_secret=8fb27274bc&amp;photo_id=5885172082" height="225" width="400"></embed><br />
</object></p>
<p>Elle montre le flux de message émis via tweeter depuis le japon au moment du tremblement de terre.  C&#8217;est une démonstration (parmi tant d&#8217;autres) de ce que l&#8217;analyse intelligente du flux d&#8217;information permet aujourd&#8217;hui de produire. L’évènement est mesurable quasiment en temps réel !</p>
<p>Évidemment ce type d&#8217;analyse à posteriori n&#8217;a qu&#8217;une vocation de démonstration,  en pratique, elle n&#8217;apporte rien sur l&#8217;efficacité des secours (qui bénéficient eux aussi de flux d&#8217;informations en temps réel) dans une catastrophe naturelle puisqu&#8217;elle ne fait que la décrire. Mais imaginez tous les signaux et modèle qu&#8217;il est possible d&#8217;inventer pour de véritables applications et services inédits qui anticiperaient les crises: ça existe déjà avec la bourse (qui observe depuis des décennies avec des modèles mathématiques le flux d&#8217;information issu de la cotation).</p>
<p>On peut par exemple envisager de détecter les crises géo-politiques à venir rien que par l&#8217;analyse de l&#8217;opinion véhiculées sur les réseaux sociaux (il semblerait que de telles applications <a href="http://www.zdnet.fr/actualites/comment-la-cia-suit-facebook-et-twitter-39765400.htm">existent déjà</a>). Les crises alimentaires ou sanitaires voire écologique pourraient elles aussi être &#8220;prédites&#8221; par des signaux issus de réseaux sociaux.</p>
<p>L&#8217;exemple ci-dessous montre par exemple le développement de la conquête américaine par l&#8217;observation de la progression des bureaux de poste. Avec de telles données aujourd&#8217;hui il aurait été possible de visualiser dans quelles directions partaient les pionniers, quels obstacles ils rencontraient, en déduire les positions des ressources, des obstacles naturels !</p>
<p><iframe src="http://player.vimeo.com/video/27376376?title=0&amp;byline=0&amp;portrait=0" frameborder="0" height="225" width="400"></iframe></p>
<p><em><a href="http://vimeo.com/27376376">Posted: Visualizing US expansion through post offices.</a> from <a href="http://vimeo.com/derekwatkins">Derek Watkins</a> on <a href="http://vimeo.com">Vimeo</a>.</em></p>
]]></content:encoded>
			<wfw:commentRss>http://www.echarton.com/blog/2011/12/15/ce-que-lon-peut-faire-avec-la-visualisation-de-donnees/feed/</wfw:commentRss>
		</item>
		<item>
		<title>Google, les synonymes et la RI sémantique.</title>
		<link>http://www.echarton.com/blog/2011/12/14/google-les-synonymes-et-la-ri-semantique/</link>
		<comments>http://www.echarton.com/blog/2011/12/14/google-les-synonymes-et-la-ri-semantique/#comments</comments>
		<pubDate>Wed, 14 Dec 2011 16:04:12 +0000</pubDate>
		<dc:creator>Eric</dc:creator>
		
		<category><![CDATA[Linguistique computationnelle]]></category>

		<category><![CDATA[Sciences et technologies]]></category>

		<category><![CDATA[Internet, blogs, etc ...]]></category>

		<guid isPermaLink="false">http://www.echarton.com/blog/2011/12/14/google-les-synonymes-et-la-ri-semantique/</guid>
		<description><![CDATA[J&#8217;avais déjà spéculé dans ce post à propos de Google et LSA sur la capacité de ce moteur à déduire des synonymes de critères de recherche. L&#8217;exemple que j&#8217;avais trouvé avait fait l&#8217;objet d&#8217;une discussion âpre dans les commentaires. Il faut dire qu&#8217;il n&#8217;était pas évident.
Bref rappel du problème posé: le modèle théorique de base des moteurs [...]]]></description>
			<content:encoded><![CDATA[<p>J&#8217;avais déjà spéculé dans ce post à propos de <a href="http://www.echarton.com/blog/2009/04/07/google-et-le-lsa-demasque-enfin-presque/">Google et LSA</a> sur la capacité de ce moteur à déduire des synonymes de critères de recherche. L&#8217;exemple que j&#8217;avais trouvé avait fait l&#8217;objet d&#8217;une discussion âpre dans les commentaires. Il faut dire qu&#8217;il n&#8217;était pas évident.</p>
<p>Bref rappel du problème posé: le modèle théorique de base des moteurs de recherche modernes, dont Google fait partie, est dît <a href="http://fr.wikipedia.org/wiki/Mod%C3%A8le_vectoriel">vectoriel</a>. Il peut se résumer ainsi: un index géant contient tous les mots du vocabulaire contenu dans les documents indexés, un fichier dit <em>inverse </em>recense pour chaque mot de cet index sa présence dans les documents indexés (les pages html pour le web), et pour retrouver ces pages en fonction d&#8217;une requête, il est réalisé un calcul de similarité (généralement un cosinus d&#8217;angle) entre un vecteur de poids de mot correspondants à la requête et un autre correspondant au poids des mots contenus dans un document. Les scores obtenus pour chaque mesure de similarité servent ensuite à ordonner la liste de résultat (le meilleur site que je connaisse sur ce sujet est <a href="http://www.miislita.com/">mislita</a> accessible pour des étudiants moyens en maths appliquées et informatique).</p>
<p><a href="http://www.echarton.com/blog/wp-content/uploads/2011/12/vector_space_model.jpg" title="vector_space_model.jpg"><img src="http://www.echarton.com/blog/wp-content/uploads/2011/12/vector_space_model.jpg" alt="vector_space_model.jpg" /></a></p>
<p><em>Représentation schématique et simplifiée du modèle vectoriel. Q est le vecteur de requête et les d sont des documents. En pratique cet exemple ne donne qu&#8217;une représentation pour 2 mots (2 dimensions) mais plus il y a de mots, plus il existe de dimensions. Le modèle vectoriel exploite généralement des espace avec de très nombreuses dimensions</em>, <em>par exemple lorsqu&#8217;il est utilisé pour l&#8217;étiquetage sémantique (voir <a href="http://www.wikimeta.org">wikimeta</a>). Ce modèle est en effet applicable à toutes les activités de recherche d&#8217;information et pas seulement aux moteurs de recherche.<br />
</em></p>
<p>Peu importe qu&#8217;à ce modèle vectoriel soit souvent ajoutées des méthodes de normalisation (retrait d&#8217;accents, de mots outils), de classement (Page-Rank de Google), une once de probabilité, de profilage d&#8217;utilisateur (relevance feedback). À la base, dans les tréfonds de la machine (ou des 1 millions de machines pour Google), le modèle vectoriel est forcément là, tapi quelle part. Il existe des modèles alternatifs entièrement probabilistes mais à ma connaissance, ils sont tombés en désuétude faute de fournir des résultats aussi pertinents que ceux du modèle vectoriel.</p>
<p>Le problème intrinsèque de ce modèle est qu&#8217;il n&#8217;est pas sémantique: avec lui, si vous demandez les pages contenant les mots <em>Voiture </em>ou <em>Avion </em>via une requête, il ne peut pas vous être retourné les documents qui contiennent les mots <em>Mercédès</em>, <em>SUV</em> ou <em>Airbus A380, JET, planeur </em>qui sont pourtant pertinents<em>. </em><em> </em></p>
<p>Pour introduire de la sémantique dans un système de recherche d&#8217;information, plusieurs techniques ont été proposées. L&#8217;une, intitulée LSA (<a href="http://fr.wikipedia.org/wiki/Analyse_s%C3%A9mantique_latente">Latent Semantic Analysis</a>) qui n&#8217;est absolument pas sémantique mais totalement mathématique contrairement à ce que son nom indique (la base est une <a href="http://fr.wikipedia.org/wiki/D%C3%A9composition_en_valeurs_singuli%C3%A8res">décomposition en valeurs singulières</a>) permet d&#8217;identifier automatiquement quels mots sont <em>&#8220;<u>probablement</u> proches&#8221;</em> (et non pas <em>sémantiquement proches).</em> Quelle différence entre <em>probablement </em>et <em>sémantiquement ? </em>Pas compliqué:<em> Oiseau </em>est proche d&#8217;<em>aile</em> mais pas sémantiquement identique, contrairement à <em>Aigle</em> et <em>Oiseau</em>. Hors LSA - c&#8217;est son défaut - peut considérer que <em>Oiseau, Aile </em>et<em> Aigle</em> sont proches.</p>
<p>Ceci étant dit on glose donc depuis des années (à peu près 10) sur la capacité ou non de Google à traiter les objets textuels des requêtes par une approche sémantique. La discussion sur l&#8217;usage (ou non) de LSA a d&#8217;ailleurs fait rage pendant quelques mois.</p>
<p>Hors, récemment, l&#8217;un de mes correspondants (merci Antoine) a attiré mon attention sur cette recherche:</p>
<p><a href="http://www.echarton.com/blog/wp-content/uploads/2011/12/capture-supprimer-bruit-de-fond-garageband-recherche-google-google-chrome-1.png" title="capture-supprimer-bruit-de-fond-garageband-recherche-google-google-chrome-1.png"><img src="http://www.echarton.com/blog/wp-content/uploads/2011/12/capture-supprimer-bruit-de-fond-garageband-recherche-google-google-chrome-1.png" alt="capture-supprimer-bruit-de-fond-garageband-recherche-google-google-chrome-1.png" height="483" width="424" /></a></p>
<p>Ce qui nous intéresse ici, c&#8217;est que le critère de recherche &#8220;<strong>Supprimer&#8221;</strong> peut également produire un résultat de recherche avec des documents contenant le mot <strong>&#8220;Éliminer&#8221;</strong> et aucun <strong>&#8220;Supprimer&#8221;</strong> (j&#8217;ai vérifié). Hors <em>supprimer</em> est incontestablement un synonyme sémantiquement proche mais lexicalement différent de <em>éliminer</em>. Voici enfin une preuve que Google introduit des notions sémantiques dans ses méthodes de recherche.</p>
<p>Cette sortie ne nous dit rien sur la méthode utilisée (à vrai dire je penche de moins en moins pour le LSA mais plutôt pour une méthode lexicale), mais en revanche, montre que désormais, la Google Engine utilise à minima des synonymes pour améliorer les résultats de recherche.</p>
<p>Ceci ne clôt pas le débat car de nombreuses questions amusantes restent ouvertes. Car l&#8217;<em>Avocat</em> est synonyme de <em>fruit</em> mais peut aussi être parfois une <em>grosse légume</em>&#8230; Dans le prochain post, nous raffinerons donc le propos en abordant la question de la synonymie et de son rapport au contexte</p>
]]></content:encoded>
			<wfw:commentRss>http://www.echarton.com/blog/2011/12/14/google-les-synonymes-et-la-ri-semantique/feed/</wfw:commentRss>
		</item>
		<item>
		<title>Terre 2.0</title>
		<link>http://www.echarton.com/blog/2011/12/06/lautre-terre/</link>
		<comments>http://www.echarton.com/blog/2011/12/06/lautre-terre/#comments</comments>
		<pubDate>Mon, 05 Dec 2011 22:46:51 +0000</pubDate>
		<dc:creator>Eric</dc:creator>
		
		<category><![CDATA[Sciences et technologies]]></category>

		<guid isPermaLink="false">http://www.echarton.com/blog/2011/12/06/lautre-terre/</guid>
		<description><![CDATA[Drôle de titre, qu&#8217;on attend dans les millieux de l&#8217;astronomie depuis une vingtaine d&#8217;années.
Les premières planètes extrasolaires ont été découvertes en septembre 1990 par Aleksander Wolszczan ( du radiotélescope d&#8217;Arecibo ) qui l&#8217;a annoncé dans le journal Nature le 9 janvier 199212. Ces planètes entourent le pulsar PSR B1257 + 12.
Le 6 octobre 1995 Michel [...]]]></description>
			<content:encoded><![CDATA[<p>Drôle de titre, qu&#8217;on attend dans les millieux de l&#8217;astronomie depuis une vingtaine d&#8217;années.</p>
<p>Les premières planètes extrasolaires ont été découvertes en septembre 1990 par <a href="http://fr.wikipedia.org/wiki/Aleksander%20Wolszczan">Aleksander Wolszczan</a> ( du radiotélescope d&#8217;<a href="http://fr.wikipedia.org/wiki/Arecibo">Arecibo</a> ) qui l&#8217;a annoncé dans le <a href="http://fr.wikipedia.org/wiki/Nature%20(revue)">journal Nature</a> le 9 janvier 199212. Ces planètes entourent le pulsar PSR B1257 + 12.</p>
<p>Le 6 octobre 1995 <a href="http://fr.wikipedia.org/wiki/Michel%20Mayor">Michel Mayor</a> et <a href="http://fr.wikipedia.org/wiki/Didier%20Queloz">Didier Queloz</a> ( de l&#8217;<a href="http://fr.wikipedia.org/wiki/Observatoire%20(administration)">observatoire</a> de Genève ) ont annoncé la découverte de la première exoplanète en orbite autour d&#8217;une étoile de type solaire: 51 Pegasi, d&#8217;après des observations qu&#8217;ils ont réalisées à l&#8217;<a href="http://fr.wikipedia.org/wiki/Observatoire%20de%20Haute-Provence">observatoire de Haute-Provence</a> grâce à la méthode des vitesses radiales. L&#8217;étoile hôte est 51 Pegasi13, dans la constellation de <a href="http://fr.wikipedia.org/wiki/P%C3%A9gase_(constellation)">Pégase</a>, à environ 40 années-lumière de la <a href="http://fr.wikipedia.org/wiki/Terre">Terre</a>.  C&#8217;était une révolution car il était démontré la possibilité par un moyen détourné ( ici la mesure de vitesse radiale, mais il en existe bien d&#8217;autres ) de localiser une planète sans le voir.</p>
<p>Depuis cette découverte <a href="http://fr.wikipedia.org/wiki/Suisse">Suisse</a>, les astronomes ont utilisés de nombreux moyens pour découvrir des planètes et les caractériser. Et si jusqu&#8217;ici la plupart des découvertes concernait des planètes inhabitables ( trop chaudes, trop gazeuses, trop froides ), on se doutait bien qu&#8217;un jour ou l&#8217;autre, une planète tellurique de type &#8221; terre &#8221; ( puis probablement des milliers d&#8217;autres ) serait dénichée.  On s&#8217;en est d&#8217;ailleurs donné les moyens: les téléscopes spatiaux Corot, Képler, ou encore Spitzer sont des initiatives directes des agences spatiales pour détecter en masse des exo-planètes.</p>
<p>Et ça marche.</p>
<p>Mieux, des programmes spécifiques, et et encore plus ambitieux son lancés. Tel le <a href="http://fr.wikipedia.org/wiki/Darwin_(t%C3%A9lescope_spatial)">projet spatial Darwin </a>de l&#8217;<a href="http://fr.wikipedia.org/wiki/Agence%20spatiale%20europ%C3%A9enne">Agence spatiale européenne</a> qui devrait permettre, vers 2020, d&#8217;étudier de nouvelles exoplanètes et d&#8217;y découvrir d&#8217;éventuelles traces de vie primitive. Il s&#8217;agit d&#8217;un ensemble de cinq télescopes d&#8217;un nouveau type placé dans l&#8217;espace.</p>
<p>En attendant, ce Lundi 5 Décembre 2011 est à marquer d&#8217;une pierre blanche car la première Exo-Terre vient d&#8217;être identifiée par la mission Kepler, qui vient de découvrir pour la première fois l&#8217;existence d&#8217;une exoplanète semblable à la notre, située dans la &#8220;zone habitable&#8221; d&#8217;une étoile similaire à notre <a href="http://fr.wikipedia.org/wiki/Soleil">Soleil</a>.</p>
<p><a href="http://www.echarton.com/blog/wp-content/uploads/2011/12/607770main_kepler22bdiagram_946-710.jpg" title="607770main_kepler22bdiagram_946-710.jpg"><img src="http://www.echarton.com/blog/wp-content/uploads/2011/12/607770main_kepler22bdiagram_946-710.jpg" alt="607770main_kepler22bdiagram_946-710.jpg" style="width: 400px; height: 250px" /></a></p>
<p>D&#8217;après la <a href="http://fr.wikipedia.org/wiki/National%20Aeronautics%20and%20Space%20Administration">NASA</a>, Kepler-22b est de plus grande taille que la <a href="http://fr.wikipedia.org/wiki/Terre">Terre</a>, bien que légèrement plus petite et plus froide.</p>
<p><a href="http://www.echarton.com/blog/wp-content/uploads/2011/12/kepler22bartwork_946-710.jpg" title="kepler22bartwork_946-710.jpg"><img src="http://www.echarton.com/blog/wp-content/uploads/2011/12/kepler22bartwork_946-710.jpg" alt="kepler22bartwork_946-710.jpg" style="width: 400px; height: 250px" /></a></p>
<p>Et maintenant ?</p>
<p>Nul doute qu&#8217;une fois arrivé dans l&#8217;espace, Darwin s&#8217;occupera d&#8217;examiner cette planète. D&#8217;ici là, on peut imaginer que quelques radio-téléscopes vont s&#8217;orienter en direction de Kepler 22b. Pour découvrir quoi, là est la grande question &#8230;</p>
<p>Probablement rien dans l&#8217;immédiat, mais ce qui est fascinant dans tout cela, c&#8217;est qu&#8217;il y a encore 20 ans, la thèse prédominante était que notre système solaire était &#8220;vraisemblablement&#8221; le seul et l&#8217;unique. En moins de dix ans, cette théorie a été balayée, au point que 710 exo-planètes ait été découvertes ! Des applications pour I-Pad vous indiquent maintenant en temps réel les découvertes!</p>
<p>D&#8217;aucuns pensaient encore que les exo-terres étaient rares voire inexistantes: la première est là, et il est probable que des dizaines vont suivre!</p>
<p>Pour en savoir plus, visitez le site de la <a href="http://www.nasa.gov/mission_pages/kepler/news/kepscicon-briefing.html">Nasa</a>.</p>
<p>(Semantics by <a href="http://www.wikimeta.com">Wikimeta</a>)</p>
]]></content:encoded>
			<wfw:commentRss>http://www.echarton.com/blog/2011/12/06/lautre-terre/feed/</wfw:commentRss>
		</item>
		<item>
		<title>Job offer</title>
		<link>http://www.echarton.com/blog/2011/11/27/job-offer/</link>
		<comments>http://www.echarton.com/blog/2011/11/27/job-offer/#comments</comments>
		<pubDate>Sun, 27 Nov 2011 18:55:59 +0000</pubDate>
		<dc:creator>Eric</dc:creator>
		
		<category><![CDATA[Divers et avariés]]></category>

		<guid isPermaLink="false">http://www.echarton.com/blog/2011/11/27/job-offer/</guid>
		<description><![CDATA[

Une quinzaine de postes d&#8217;astronautes à temps complet ouverts à l&#8217;embauche, salaire entre 60 et 140 000 $ par an (selon expérience de Pilote de Chasse), diplôme d&#8217;études supérieures  exigé (avec majeure en mathématique, physique, ingéniérie ou science de préférence). A noter dans les conditions particulières qu&#8217;il sera procédé à des mesures anthropométriques pour vérifier votre compatibilité avec [...]]]></description>
			<content:encoded><![CDATA[<p><object type="application/x-shockwave-flash" data="http://www.youtube.com/v/C5gpu1sm-5A" width="425" height="350" wmode="transparent">
<param name="movie" value="http://www.youtube.com/v/C5gpu1sm-5A" /></object></p>
<p>Une quinzaine de postes d&#8217;astronautes à temps complet ouverts à l&#8217;embauche, salaire entre 60 et 140 000 $ par an (selon expérience de Pilote de Chasse), diplôme d&#8217;études supérieures  exigé (avec majeure en mathématique, physique, ingéniérie ou science de préférence). A noter dans les conditions particulières qu&#8217;il sera procédé à des mesures anthropométriques pour vérifier votre compatibilité avec les matériels russes de sortie extra-véhiculaire.</p>
<p>Vous pouvez candidater <a href="http://www.usajobs.gov/GetJob/ViewDetails/302967000">ici</a> (Il faut être citoyen des USA, aussi) &#8230;</p>
]]></content:encoded>
			<wfw:commentRss>http://www.echarton.com/blog/2011/11/27/job-offer/feed/</wfw:commentRss>
		</item>
		<item>
		<title>Le problème sémantique de Gustave le crocodile</title>
		<link>http://www.echarton.com/blog/2011/11/24/le-probleme-semantique-de-gustave-le-crocodile/</link>
		<comments>http://www.echarton.com/blog/2011/11/24/le-probleme-semantique-de-gustave-le-crocodile/#comments</comments>
		<pubDate>Thu, 24 Nov 2011 19:03:13 +0000</pubDate>
		<dc:creator>Eric</dc:creator>
		
		<category><![CDATA[Linguistique computationnelle]]></category>

		<category><![CDATA[Sciences et technologies]]></category>

		<guid isPermaLink="false">http://www.echarton.com/blog/2011/11/24/le-probleme-semantique-de-gustave-le-crocodile/</guid>
		<description><![CDATA[Au hasard d&#8217;une nouvelle sur un Hareng Géant,  j&#8217;en suis venu à me documenter sur les crocodiles géants (ne me demandez pas par quel méandre de surf). Je me suis intéressé en particulier à un crocodile du Nil célèbre, le dénommé Gustave, connu à la fois pour être très grand (dans les 7m50), et très gourmand (il [...]]]></description>
			<content:encoded><![CDATA[<p>Au hasard d&#8217;une nouvelle sur un <a href="http://www.lepost.fr/article/2010/05/12/2070944_un-hareng-geant-retrouve-en-suede-pourquoi-pas-une-sardine-de-12-metres.html">Hareng Géant</a>,  j&#8217;en suis venu à me documenter sur les<a href="http://www.dinosoria.com/crocodile.htm"> crocodiles géants</a> (ne me demandez pas par quel méandre de surf). Je me suis intéressé en particulier à un crocodile du Nil célèbre, le dénommé Gustave, connu à la fois pour être très grand (dans les 7m50), et très gourmand (il aurait mangé dans les 300 humains). Étant également très occupé à améliorer les modèles de <a href="http://www.wikimeta.com">Wikiméta</a> (étiqueteur pour le web sémantique) je me suis intéressé à ce que pourrait produire cet étiqueteur avec une telle créature.</p>
<p>Je vous livre ci-dessous la sortie proposée par Wikimeta pour ce texte:</p>
<p><em>C&#8217;est au <a href="http://fr.wikipedia.org/wiki/Burundi">Burundi</a>, sur les rives du <a href="http://fr.wikipedia.org/wiki/Lac%20Tanganyika">lac Tanganyika</a> et à proximité, qu&#8217;un crocodile géant a semé la terreur pendant 10 ans. Ce crocodile du <a href="http://fr.wikipedia.org/wiki/Nil">Nil</a>, <strong>surnommé <a href="http://fr.wikipedia.org/wiki/Gustave%20(crocodile)">Gustave</a> </strong>par les scientifiques, aurait tué environ 300 personnes. Un documentaire diffusé sur <a href="http://fr.wikipedia.org/wiki/France%203">France 3</a> nous a permis de découvrir ce monstre qui n&#8217;a pu d&#8217;ailleurs être capturé et est probablement mort aujourd&#8217;hui. Cette émission bien qu&#8217;intéressante ne nous délivre quasiment aucune information scientifique sur ce crocodile. S&#8217;agit-il d&#8217;un crocodile du <a href="http://fr.wikipedia.org/wiki/Nil">Nil</a> hors norme, de la même manière que certaines personnes ont des mensurations supérieures au standard? Possède t-il des caractéristiques particulières qui en feraient un crocodile d&#8217;une espèce non répertoriée? En comparant les images tournées au <a href="http://fr.wikipedia.org/wiki/Burundi">Burundi</a> et celles de crocodiles du <a href="http://fr.wikipedia.org/wiki/Nil">Nil</a>, nous pourrons peut-être répondre à ces questions.<br />
(Semantics by <a href="http://www.wikimeta.com">Wikimeta</a>)</em></p>
<p>Ce qui nous intéresse dans cet exemple, ce n&#8217;est pas tant que<u> l&#8217;étiquetage est parfait</u> (tous les liens vers Wikipédia mis en place par Wikimeta sont corrects, y compris celui de Gustave: gnark !) , mais surtout que Gustave qui existe dans les <a href="http://www.nlgbase.org">métadonnées</a> du système d&#8217;étiquetage est connu comme<a href="http://www.wikimeta.com/perl/display.pl?query=Gustave%20(crocodile)&amp;search=FR"> un &#8220;produit&#8221;</a>, et est reconnu par l&#8217;étiqueteur comme une personne (j&#8217;ai masqué les étiquettes de classes pour ce post mais vous pouvez <a href="http://www.wikimeta.com/perl/semtag.pl?contenu=C%E2%80%99est%20au%20Burundi%2C%20sur%20les%20rives%20du%20lac%20Tanganyika%20et%20%C3%A0%20proximit%C3%A9%2C%20qu%E2%80%99un%20crocodile%20g%C3%A9ant%20a%20sem%C3%A9%20la%20terreur%20pendant%2010%20ans.%0ACe%20crocodile%20du%20Nil%2C%20surnomm%C3%A9%20Gustave%20par%20les%20scientifiques%2C%20aurait%20tu%C3%A9%20environ%20300%20personnes.%0AUn%20documentaire%20diffus%C3%A9%20sur%20France%203%20nous%20a%20permis%20de%20d%C3%A9couvrir%20ce%20monstre%20qui%20n%E2%80%99a%20pu%20d%E2%80%99ailleurs%20%C3%AAtre%20captur%C3%A9%20et%20est%20probablement%20mort%20aujourd%E2%80%99hui.%0ACette%20%C3%A9mission%20bien%20qu%E2%80%99int%C3%A9ressante%20ne%20nous%20d%C3%A9livre%20quasiment%20aucune%20information%20scientifique%20sur%20ce%20crocodile.%20S%E2%80%99agit-il%20d%E2%80%99un%20crocodile%20du%20Nil%20hors%20norme%2C%20de%20la%20m%C3%AAme%20mani%C3%A8re%20que%20certaines%20personnes%20ont%20des%20mensurations%20sup%C3%A9rieures%20au%20standard%20%3F%20Poss%C3%A8de%20t-il%20des%20caract%C3%A9ristiques%20particuli%C3%A8res%20qui%20en%20feraient%20un%20crocodile%20d%E2%80%99une%20esp%C3%A8ce%20non%20r%C3%A9pertori%C3%A9e%20%3F%20En%20comparant%20les%20images%20tourn%C3%A9es%20au%20Burundi%20et%20celles%20de%20crocodiles%20du%20Nil%2C%20nous%20pourrons%20peut-%C3%AAtre%20r%C3%A9pondre%20%C3%A0%20ces%20questions.&amp;formx=Label">vérifier vous même</a> avec wikimeta).</p>
<p>Que l&#8217;étiqueteur détecte une personne pour Gustave est explicable: il est difficile d’entraîner le système statistique sous-jacent pour qu&#8217;il puisse définir que le contexte de l&#8217;expression &#8220;surnommé Gustave&#8221;, dans de très rares cas, fasse référence à un animal.</p>
<p>Que les métadonnées le définissent comme un produit est compréhensible (le processus de classification utilisé pour créer les métadonnées le veut ainsi).</p>
<p>Mais ce phénomène particulier est tout à fait passionnant car il résume en 1 <em>nom</em> la totalité des problèmes ardus que rencontrent les chercheurs - très nombreux - focalisés sur le web sémantique et l&#8217;analyse des grands volumes de données.</p>
<ul>
<li>Gustave n&#8217;est pas une personne, c&#8217;est clair (d&#8217;ailleurs il mange les personnes).</li>
<li>Gustave n&#8217;est pas un produit, c&#8217;est aussi très clair (même si il est célèbre comme un produit de divertissement, par exemple une souris aux grandes oreilles).</li>
<li>Gustave n&#8217;est plus uniquement un animal (de type crocodile) : il  a reçu un nom, il est individualisé, il est hors normes.</li>
<li>Gustave n&#8217;est pas uniquement un &#8220;<em>concept&#8221;: </em>contrairement aux autres crocodiles, il possède sa propre fiche encyclopédique. Il est <a href="http://fr.wikipedia.org/wiki/Gustave_(crocodile)">nommé</a>. Il est donc bien une<a href="http://fr.wikipedia.org/wiki/Entit%C3%A9s_nomm%C3%A9es"> entité nommée</a>.</li>
</ul>
<p>Alors quelle est la bonne étiquette de classe sémantique ou la bonne catégorisation pour Gustave ? Même <a href="http://dbpedia.org/page/Gustave_crocodile">DBPedia</a> a préféré (prudemment) ne pas traiter de cette question &#8230;</p>
]]></content:encoded>
			<wfw:commentRss>http://www.echarton.com/blog/2011/11/24/le-probleme-semantique-de-gustave-le-crocodile/feed/</wfw:commentRss>
		</item>
	</channel>
</rss>

