Blue Theme Green Theme Red Theme Red Theme Red Theme
Flux RSS:
Posts
Commentaires
Je hais les voyages et les explorateurs., Claude Levi Strauss, Tristes Tropiques, 1955.

Je découvre tous les jours que les personnages historiques de l’informatique et d’internet sont méconnus par les informaticiens eux mêmes. J’ai parlé dans ce blog de Turing, de Von Neuman, de Claude Shannon, et il faudra que j’écrive sur Vinton Cerf aussi un jour (question posée par un Lycéen la semaine dernière à trois docteurs en informatique, “qui est l’inventeur d’Internet”, la réponse était là mais de justesse).

Si vous aimez le libre, l’open source, l’abolition des frontières numériques, êtes anti-hadopi ou que sais-je encore je ne vois pas comment vous pouvez méconnaître Richard Stallman. Voici ce qu’en dit Wikipedia:

Richard Matthew Stallman (né à Manhattan, le 16 mars 1953), connu aussi sous les initiales rms (en minuscules, ainsi qu’il sied aux informaticiens des années 1970 pour qui l’avènement du bas de casse sur les écrans informatiques représenta une vraie conquête), est un programmeur et militant du logiciel libre. Il est à l’origine du projet GNU et de la licence publique générale GNU connue aussi sous l’acronyme GPL, qu’il a rédigée avec l’avocat Eben Moglen. Il a popularisé le terme anglais copyleft. Programmeur renommé de la communauté informatique américaine et internationale, il a développé de nombreux logiciels dont les plus connus des développeurs sont l’éditeur de texte GNU Emacs, le compilateur C de GNU, le débogueur GNU mais aussi, en collaboration avec Roland McGrath, le moteur de production GNU Make.

Pas rien, non ?

400px-richard_stallman_and_audience.jpg

J’ai déjà raconté que c’est un assidu des conférence Wikimania (le point de rencontre annuel des contributeurs de Wikipédia et des projets de la fondation Wikimania).

Et bien figurez vous qu’il va donner une conférence à l’Université d’Avignon (campus Sainte Marthe, Amphi AT02)  mardi 21 février sur le thème “Pour une société numérique libre” dont voici le résumé:

Dans cette conférence aux allures de slogan, Richard Stallman exposera ses pensées et réflexions sur la part grandissante qu’occupent les technologies numériques dans nos sociétés. A travers le monde, on constate la mise en place de politiques destinées à réduire, voire éliminer la fracture numérique en arguant que l’accès aux nouvelles technologies de l’information et de la communication est invariablement bénéfique et qu’il faut donc en garantir l’accès au plus grand nombre. Cela pourrait être indéniablement vrai si l’on s’en tenait à une réflexion de surface, notamment parce que les applications pratiques de ces technologies rendent des services autrement impossibles mais s’avère un peu plus hasardeux si l’on commence à aborder la question en terme de Droits de l’Homme et de Liberté : savoir si transformer notre société en société numérique constitue un progrès dépend largement du type de société numérique que l’on cherche à bâtir !

Évidemment, j’ai plein d’attaches avec cette université et je ne doute pas que tous les étudiants en com et en informatique seront de la partie !  Je ne pourrais pas y assister mais je le regrette.

Les Geeks aiment la musique

 

J’ai trouvé ce Rap Java assez tordant (thanks @baharSateli) et je ne résiste pas au plaisir de le partager ici :-)

Pour poursuivre la saga dont j’ai entamée la description dans ce post, un petit mot sur le lancement réussi par Amardilloaerospace début décembre.

Sur le site du Spaceport America au Nouveau Mexique ( celui qui devrait accueillir prochainement les voyages de Virgin Galactic ), la société a procédé au lancement de sa fusée Stiga ( STIG-A ) à environ 43000 mètres d’altitude.

La fusée a atteint son apogée en 2 minutes avant de se poser avec des dégâts mineurs 12 minutes plus tard, à quelques kilomètres du site de lancement.

D’après ses concepteurs, la fusée ( Amateur du type classe 3 de la FAA [1]) possède un potentiel d’amélioration important, notamment en réduisant son poids et en augmenta sa capacité d’emport de propergol (actuellement de l’oxygène liquide et de l’alcool dénaturé). Amardilloaerospace considère que sa prochaine fusée sera en mesure d’atteindre l’espace et de satelliser une petite charge utile.

Côté nano-satellite, les pas sont aussi de géants. On a ainsi appris récemment qu’un groupe de Hackers souhaitait lancer son système de communication spatial pour contrer la censure. Le projet est plutôt bien avancé. Il répond au nom de “Hacker Space global Grid” et est affilié au projet Constellation. Ce projet prévoit d’utiliser les protocoles de calcul distribué sur Internet pour stimuler les sciences et l’ingéniérie en relation avec l’espace.

L’affaire suit son cours, et j’en profite pour ouvrir une nouvelle section Open Space sur ce blog !

(Semantics by Wikimeta)

[1] La FAA a récemment publiée de nouvelles règles sur le lancement de fusées amateurs depuis le territoire des USA. Moyennant une procédure relativement légère et peu coûteuse, il est permis aux USA pour un particulier, un groupe ou une association, de lancer une fusée d’un peu moins de 900 000 N/S sur trajectoire sub-orbitale en ne dépassant pas une altitude de 150 km.  

Big data (« grosse donnée ») est une expression anglophone utilisée pour désigner des ensembles de données qui deviennent tellement gros qu’ils en deviennent difficiles à travailler avec des outils classiques de gestion de base de données. Dans ces nouveaux ordres de grandeur, la capture, le stockage, la recherche, le partage, l’analyse et la visualisation des données doivent être redéfinis. Les perspectives du traitement des big data sont énormes, notamment pour l’analyse d’opinions ou de tendances industrielles, la génomique, l’épidémiologie ou la lutte contre la criminalité [wikipedia].

2012 devrait être l’année des données. Des grosses masses de données. En un mot, du “Big Data”, terme que vous devez vous attendre à voir de plus en plus utilisé.

L’univers du Big Data n’est pas prospectif, il est à nos portes: les fabricants de disques durs et de solution d’archivage ne connaissent pas la crise. L’impact du big data aurait déjà fortement augmenté la demande de logiciels et de matériels de stockage. Certains fournisseurs tels qu’Oracle, IBM, Microsoft, SAP ont déjà dépensés plus de 15 milliards de dollars en rachat d’entreprise de logiciels de gestion et d’analyse de donnée [1]. On parle d’un marché de plus de 100 milliards de dollars croissant de 10% par an. Des perspectives de croissance que l’on n’avait pas vu dans le secteur de l’informatique depuis une bonne vingtaine d’années.  Voici une citation extraite d’ici (et de quelques milliers d’autres que vous trouverez un peu partout sur le web):

  • Big Data is predicted by analysts to be the next “must have” competency in 2012 as the volume of digital content grows to 2.7 zettabytes. Over 90 percent of this information will be unstructured — full of rich information, but challenging to understand and analyze.  Rebecca MacDonald, VP of marketing at Attensity

On ne parle même plus de Terras-bytes, on est au Zetta-byte (1021 octets), bientôt suivis par les Yottabytes (1024 octets) . En 2009, on estimait que la totalité des ordinateurs du monde contenaient 160 exabytes  (1018 octets). On envisage en 2009, que le seul réseau internet contiendrait 500 exabytes [2] En 2011, on ne sait plus très bien.

Voilà pourquoi l’année 2012 sera celle des données. Non pas parce ce que c’est à la mode, mais un peu comme pour l’énergie, le logement, la nourriture, par ce que tout le monde en a besoin.

Lorsque l’industrie s’est engagée dans la voie de la mécanisation vers la fin du 18 ème siècle, son besoin en énergie (charbon, puis pétrole) n’a eu de cesse d’augmenter. Il ne fait guère de doute selon nombre d’analyste que le même mécanisme de prolifération d’une matière à traiter (la donnée) va faire émerger un énorme marché de la transformation de ces données: et le carburant de cette transformation, ce n’est plus le pétrole, ce sont les idées !  Analyseurs sémantiques, d’opinion, de la langue, tout sera bon à prendre pour les industriels de l’information.  Il va donc falloir des ingénieurs, des docteurs, des informaticiens, des linguistes, des mathématiciens, pour découvrir cette nouvelle énergie de la transformation qu’est l’intelligence transmise aux machines afin qu’elles traitent une marée de données.

Pour  Graham G. Rong, Chair du MIT Sloan CIO Symposium, “la transformation digitale est l’un des impératifs des directions opérationnelles pour la prochaîne décennie”. On sent assez nettement en Amérique du Nord le bruissement (ou le gazouillis) autour de cette question. En particulier en rapport avec le web sémantique et le traitement automatique de la langue. De nombreuses start-up se créent pour imaginer des produits originaux capables de fouiller intelligemment de grosses masses de données. Si ce défi passionnant vous intéresse en tant que chercheur, étudiant, entrepreneur,  à mon avis, c’est une des meilleures opportunités du moment.

Bonne année 2012, avec tout plein d’idées.

Nettoyage express …

Je ne m’attendais pas à la fin :-)

Cette animation est remarquable:


Elle montre le flux de message émis via tweeter depuis le japon au moment du tremblement de terre.  C’est une démonstration (parmi tant d’autres) de ce que l’analyse intelligente du flux d’information permet aujourd’hui de produire. L’évènement est mesurable quasiment en temps réel !

Évidemment ce type d’analyse à posteriori n’a qu’une vocation de démonstration,  en pratique, elle n’apporte rien sur l’efficacité des secours (qui bénéficient eux aussi de flux d’informations en temps réel) dans une catastrophe naturelle puisqu’elle ne fait que la décrire. Mais imaginez tous les signaux et modèle qu’il est possible d’inventer pour de véritables applications et services inédits qui anticiperaient les crises: ça existe déjà avec la bourse (qui observe depuis des décennies avec des modèles mathématiques le flux d’information issu de la cotation).

On peut par exemple envisager de détecter les crises géo-politiques à venir rien que par l’analyse de l’opinion véhiculées sur les réseaux sociaux (il semblerait que de telles applications existent déjà). Les crises alimentaires ou sanitaires voire écologique pourraient elles aussi être “prédites” par des signaux issus de réseaux sociaux.

L’exemple ci-dessous montre par exemple le développement de la conquête américaine par l’observation de la progression des bureaux de poste. Avec de telles données aujourd’hui il aurait été possible de visualiser dans quelles directions partaient les pionniers, quels obstacles ils rencontraient, en déduire les positions des ressources, des obstacles naturels !

Posted: Visualizing US expansion through post offices. from Derek Watkins on Vimeo.

J’avais déjà spéculé dans ce post à propos de Google et LSA sur la capacité de ce moteur à déduire des synonymes de critères de recherche. L’exemple que j’avais trouvé avait fait l’objet d’une discussion âpre dans les commentaires. Il faut dire qu’il n’était pas évident.

Bref rappel du problème posé: le modèle théorique de base des moteurs de recherche modernes, dont Google fait partie, est dît vectoriel. Il peut se résumer ainsi: un index géant contient tous les mots du vocabulaire contenu dans les documents indexés, un fichier dit inverse recense pour chaque mot de cet index sa présence dans les documents indexés (les pages html pour le web), et pour retrouver ces pages en fonction d’une requête, il est réalisé un calcul de similarité (généralement un cosinus d’angle) entre un vecteur de poids de mot correspondants à la requête et un autre correspondant au poids des mots contenus dans un document. Les scores obtenus pour chaque mesure de similarité servent ensuite à ordonner la liste de résultat (le meilleur site que je connaisse sur ce sujet est mislita accessible pour des étudiants moyens en maths appliquées et informatique).

vector_space_model.jpg

Représentation schématique et simplifiée du modèle vectoriel. Q est le vecteur de requête et les d sont des documents. En pratique cet exemple ne donne qu’une représentation pour 2 mots (2 dimensions) mais plus il y a de mots, plus il existe de dimensions. Le modèle vectoriel exploite généralement des espace avec de très nombreuses dimensions, par exemple lorsqu’il est utilisé pour l’étiquetage sémantique (voir wikimeta). Ce modèle est en effet applicable à toutes les activités de recherche d’information et pas seulement aux moteurs de recherche.

Peu importe qu’à ce modèle vectoriel soit souvent ajoutées des méthodes de normalisation (retrait d’accents, de mots outils), de classement (Page-Rank de Google), une once de probabilité, de profilage d’utilisateur (relevance feedback). À la base, dans les tréfonds de la machine (ou des 1 millions de machines pour Google), le modèle vectoriel est forcément là, tapi quelle part. Il existe des modèles alternatifs entièrement probabilistes mais à ma connaissance, ils sont tombés en désuétude faute de fournir des résultats aussi pertinents que ceux du modèle vectoriel.

Le problème intrinsèque de ce modèle est qu’il n’est pas sémantique: avec lui, si vous demandez les pages contenant les mots Voiture ou Avion via une requête, il ne peut pas vous être retourné les documents qui contiennent les mots Mercédès, SUV ou Airbus A380, JET, planeur qui sont pourtant pertinents

Pour introduire de la sémantique dans un système de recherche d’information, plusieurs techniques ont été proposées. L’une, intitulée LSA (Latent Semantic Analysis) qui n’est absolument pas sémantique mais totalement mathématique contrairement à ce que son nom indique (la base est une décomposition en valeurs singulières) permet d’identifier automatiquement quels mots sont probablement proches” (et non pas sémantiquement proches). Quelle différence entre probablement et sémantiquement ? Pas compliqué: Oiseau est proche d’aile mais pas sémantiquement identique, contrairement à Aigle et Oiseau. Hors LSA - c’est son défaut - peut considérer que Oiseau, Aile et Aigle sont proches.

Ceci étant dit on glose donc depuis des années (à peu près 10) sur la capacité ou non de Google à traiter les objets textuels des requêtes par une approche sémantique. La discussion sur l’usage (ou non) de LSA a d’ailleurs fait rage pendant quelques mois.

Hors, récemment, l’un de mes correspondants (merci Antoine) a attiré mon attention sur cette recherche:

capture-supprimer-bruit-de-fond-garageband-recherche-google-google-chrome-1.png

Ce qui nous intéresse ici, c’est que le critère de recherche “Supprimer” peut également produire un résultat de recherche avec des documents contenant le mot “Éliminer” et aucun “Supprimer” (j’ai vérifié). Hors supprimer est incontestablement un synonyme sémantiquement proche mais lexicalement différent de éliminer. Voici enfin une preuve que Google introduit des notions sémantiques dans ses méthodes de recherche.

Cette sortie ne nous dit rien sur la méthode utilisée (à vrai dire je penche de moins en moins pour le LSA mais plutôt pour une méthode lexicale), mais en revanche, montre que désormais, la Google Engine utilise à minima des synonymes pour améliorer les résultats de recherche.

Ceci ne clôt pas le débat car de nombreuses questions amusantes restent ouvertes. Car l’Avocat est synonyme de fruit mais peut aussi être parfois une grosse légume… Dans le prochain post, nous raffinerons donc le propos en abordant la question de la synonymie et de son rapport au contexte

Terre 2.0

Drôle de titre, qu’on attend dans les millieux de l’astronomie depuis une vingtaine d’années.

Les premières planètes extrasolaires ont été découvertes en septembre 1990 par Aleksander Wolszczan ( du radiotélescope d’Arecibo ) qui l’a annoncé dans le journal Nature le 9 janvier 199212. Ces planètes entourent le pulsar PSR B1257 + 12.

Le 6 octobre 1995 Michel Mayor et Didier Queloz ( de l’observatoire de Genève ) ont annoncé la découverte de la première exoplanète en orbite autour d’une étoile de type solaire: 51 Pegasi, d’après des observations qu’ils ont réalisées à l’observatoire de Haute-Provence grâce à la méthode des vitesses radiales. L’étoile hôte est 51 Pegasi13, dans la constellation de Pégase, à environ 40 années-lumière de la Terre. C’était une révolution car il était démontré la possibilité par un moyen détourné ( ici la mesure de vitesse radiale, mais il en existe bien d’autres ) de localiser une planète sans le voir.

Depuis cette découverte Suisse, les astronomes ont utilisés de nombreux moyens pour découvrir des planètes et les caractériser. Et si jusqu’ici la plupart des découvertes concernait des planètes inhabitables ( trop chaudes, trop gazeuses, trop froides ), on se doutait bien qu’un jour ou l’autre, une planète tellurique de type ” terre ” ( puis probablement des milliers d’autres ) serait dénichée. On s’en est d’ailleurs donné les moyens: les téléscopes spatiaux Corot, Képler, ou encore Spitzer sont des initiatives directes des agences spatiales pour détecter en masse des exo-planètes.

Et ça marche.

Mieux, des programmes spécifiques, et et encore plus ambitieux son lancés. Tel le projet spatial Darwin de l’Agence spatiale européenne qui devrait permettre, vers 2020, d’étudier de nouvelles exoplanètes et d’y découvrir d’éventuelles traces de vie primitive. Il s’agit d’un ensemble de cinq télescopes d’un nouveau type placé dans l’espace.

En attendant, ce Lundi 5 Décembre 2011 est à marquer d’une pierre blanche car la première Exo-Terre vient d’être identifiée par la mission Kepler, qui vient de découvrir pour la première fois l’existence d’une exoplanète semblable à la notre, située dans la “zone habitable” d’une étoile similaire à notre Soleil.

607770main_kepler22bdiagram_946-710.jpg

D’après la NASA, Kepler-22b est de plus grande taille que la Terre, bien que légèrement plus petite et plus froide.

kepler22bartwork_946-710.jpg

Et maintenant ?

Nul doute qu’une fois arrivé dans l’espace, Darwin s’occupera d’examiner cette planète. D’ici là, on peut imaginer que quelques radio-téléscopes vont s’orienter en direction de Kepler 22b. Pour découvrir quoi, là est la grande question …

Probablement rien dans l’immédiat, mais ce qui est fascinant dans tout cela, c’est qu’il y a encore 20 ans, la thèse prédominante était que notre système solaire était “vraisemblablement” le seul et l’unique. En moins de dix ans, cette théorie a été balayée, au point que 710 exo-planètes ait été découvertes ! Des applications pour I-Pad vous indiquent maintenant en temps réel les découvertes!

D’aucuns pensaient encore que les exo-terres étaient rares voire inexistantes: la première est là, et il est probable que des dizaines vont suivre!

Pour en savoir plus, visitez le site de la Nasa.

(Semantics by Wikimeta)

Job offer

Une quinzaine de postes d’astronautes à temps complet ouverts à l’embauche, salaire entre 60 et 140 000 $ par an (selon expérience de Pilote de Chasse), diplôme d’études supérieures  exigé (avec majeure en mathématique, physique, ingéniérie ou science de préférence). A noter dans les conditions particulières qu’il sera procédé à des mesures anthropométriques pour vérifier votre compatibilité avec les matériels russes de sortie extra-véhiculaire.

Vous pouvez candidater ici (Il faut être citoyen des USA, aussi) …

Au hasard d’une nouvelle sur un Hareng Géant,  j’en suis venu à me documenter sur les crocodiles géants (ne me demandez pas par quel méandre de surf). Je me suis intéressé en particulier à un crocodile du Nil célèbre, le dénommé Gustave, connu à la fois pour être très grand (dans les 7m50), et très gourmand (il aurait mangé dans les 300 humains). Étant également très occupé à améliorer les modèles de Wikiméta (étiqueteur pour le web sémantique) je me suis intéressé à ce que pourrait produire cet étiqueteur avec une telle créature.

Je vous livre ci-dessous la sortie proposée par Wikimeta pour ce texte:

C’est au Burundi, sur les rives du lac Tanganyika et à proximité, qu’un crocodile géant a semé la terreur pendant 10 ans. Ce crocodile du Nil, surnommé Gustave par les scientifiques, aurait tué environ 300 personnes. Un documentaire diffusé sur France 3 nous a permis de découvrir ce monstre qui n’a pu d’ailleurs être capturé et est probablement mort aujourd’hui. Cette émission bien qu’intéressante ne nous délivre quasiment aucune information scientifique sur ce crocodile. S’agit-il d’un crocodile du Nil hors norme, de la même manière que certaines personnes ont des mensurations supérieures au standard? Possède t-il des caractéristiques particulières qui en feraient un crocodile d’une espèce non répertoriée? En comparant les images tournées au Burundi et celles de crocodiles du Nil, nous pourrons peut-être répondre à ces questions.
(Semantics by Wikimeta)

Ce qui nous intéresse dans cet exemple, ce n’est pas tant que l’étiquetage est parfait (tous les liens vers Wikipédia mis en place par Wikimeta sont corrects, y compris celui de Gustave: gnark !) , mais surtout que Gustave qui existe dans les métadonnées du système d’étiquetage est connu comme un “produit”, et est reconnu par l’étiqueteur comme une personne (j’ai masqué les étiquettes de classes pour ce post mais vous pouvez vérifier vous même avec wikimeta).

Que l’étiqueteur détecte une personne pour Gustave est explicable: il est difficile d’entraîner le système statistique sous-jacent pour qu’il puisse définir que le contexte de l’expression “surnommé Gustave”, dans de très rares cas, fasse référence à un animal.

Que les métadonnées le définissent comme un produit est compréhensible (le processus de classification utilisé pour créer les métadonnées le veut ainsi).

Mais ce phénomène particulier est tout à fait passionnant car il résume en 1 nom la totalité des problèmes ardus que rencontrent les chercheurs - très nombreux - focalisés sur le web sémantique et l’analyse des grands volumes de données.

  • Gustave n’est pas une personne, c’est clair (d’ailleurs il mange les personnes).
  • Gustave n’est pas un produit, c’est aussi très clair (même si il est célèbre comme un produit de divertissement, par exemple une souris aux grandes oreilles).
  • Gustave n’est plus uniquement un animal (de type crocodile) : il  a reçu un nom, il est individualisé, il est hors normes.
  • Gustave n’est pas uniquement un “concept”: contrairement aux autres crocodiles, il possède sa propre fiche encyclopédique. Il est nommé. Il est donc bien une entité nommée.

Alors quelle est la bonne étiquette de classe sémantique ou la bonne catégorisation pour Gustave ? Même DBPedia a préféré (prudemment) ne pas traiter de cette question …

Older Posts »