ELI, le web sémantique et l'Open Data

Vision du web sémantique de Tim Berners-Lee, l'inventeur du world wide web

J'ai fait un rêve pour le web [dans lequel les ordinateurs] deviennent capables d'analyser toutes les données sur le Web - le contenu, les liens et les transactions entre les personnes et les ordinateurs. Un "web sémantique", qui devrait rendre cela possible, n'a pas encore émergé, mais quand ce sera fait,les mécanismes d'échange au jour le jour, de bureaucratie et de nos vies quotidiennes seront traités par des machines dialoguant avec d'autres machines. Les "agents intelligents" qu'on nous promet depuis longtemps vont enfin se concrétiser.

Le Web sémantique

Le but principal du Web sémantique est d'orienter l'évolution du Web pour permettre aux utilisateurs de trouver, partager et combiner l'information plus facilement. Le Web sémantique est une vision de l'information qui permet d'être lisible par les humains et par les machines. Cela permettra d'effectuer les travaux fastidieux et répétitifs dans le domaine de la recherche d'information par des machines tout en améliorant et consolidant l'information sur le Web pour ses utilisateurs.

Le Web sémantique est un système qui permet aux machines de « comprendre » et de répondre aux demandes complexes de l'homme en fonction du sens de ces demandes. Une telle « compréhension » exige que les sources d'information pertinentes aient été sémantiquement structurées au préalable.

Le Web sémantique est considéré comme une passerelle pour accéder aux données entre différentes applications et systèmes. Les applications sont nombreuses dans l'édition, les blogs, et de nombreux autres domaines.

Le « Web sémantique » manipule les concepts de « sémantique », « métadonnées » et « ontologie ».

Les fichiers documents d’un ordinateur peuvent être classés en deux catégories : les documents lisibles par l'homme et les données lisibles par la machine. Des documents comme des courriers électroniques, rapports ou brochures sont lisibles par les humains. Par contre, les données contenues dans des calendriers, carnets d'adresses, listes de lecture ou feuilles de calcul sont lisibles à condition d'utiliser une application qui permet de les lire, les fouiller et les transformer de différentes manières.

Actuellement, le World Wide Web est basé principalement sur des documents écrits en un langage de balisage hypertexte (HTML), c'est-à-dire une convention de balisage qui est utilisée pour coder un texte parsemé d'objets multimédias tels que des images et des formulaires interactifs. Les balises de métadonnées fournissent une méthode par laquelle les ordinateurs peuvent catégoriser le contenu des pages web ; par exemple :

						<meta name="keywords" content="computing, computer studies, computer" />
<meta name="description" content="Cheap widgets for sale" />
<meta name="author" content="John Doe" />

Avec le HTML et un outil pour l'afficher (typiquement, un navigateur web), on peut créer et présenter une page qui affiche une page de catalogue de produits.

Le HTML d'une page d'un catalogue peut se faire simplement, le document contenant des informations telles que « le titre de ce document est “Supermarché de Gadgets” », mais le code HTML est incapable de définir sans ambiguïté que, par exemple, l'article numéro X586172 est une table avec un prix de 199 €, ni qu'il s'agit d'un produit de consommation.

Le HTML peut seulement dire que la plage de texte « X586172 » est quelque chose qui doit être positionné à proximité de « Meuble » et de « 199 € », etc. Il n'y a pas moyen de dire que « ceci est une page de catalogue », ni encore de dire que « Meuble » est une sorte de titre, ni même de savoir que « 199 € » est un prix. Il n'y a aucun moyen d'exprimer que ces morceaux d'information sont liés entre eux pour décrire un élément discret, distinct des autres articles qui peuvent être listés sur une même page.

Le HTML sémantique fait référence à l'utilisation de balises HTML pour insérer des informations supplémentaires dans le document. Par exemple, l'utilisation de l'élément HTML « del » désignant un contenu supprimé plutôt que « strike » qui se contente d'afficher un texte barré et qui ne spécifie que sa mise en forme. Le HTML sémantique laisse la mise en page au navigateur en y ajoutant des feuilles de style. Mais cette pratique atteint ses limites quand il s'agit de spécifier la sémantique des objets tels que des produits à vendre.

Les microformats sont des tentatives officieuses visant à étendre la syntaxe HTML pour qu'une machine puisse lire le balisage sémantique à propos d'objets dans un document tels que des articles à vendre ou des contacts (exemple avec « hcard »).

Le Web sémantique propose des langages spécialement conçus pour les données : RDF (Resource Description Framework), OWL (Ontology Web Language), etXML (eXtensible Markup Language). HTML décrit les documents et les liens entre eux. RDF, OWL, et XML, en revanche, peuvent décrire également des choses, comme des personnes, des réunions, ou des pièces d'avion.

Ces technologies sont combinées afin de fournir des descriptions qui complètent ou remplacent le contenu des documents Web. Ainsi, le contenu peut se manifester sous forme de données descriptives stockées dans des bases de données accessibles sur le Web ou à travers des balises dans les documents. Ces données peuvent être alors entrecoupées de XML, ou parfois publiées uniquement en XML, avec une mise en page et des données stockées séparément. Les descriptions lisibles par une machine permettent aux gestionnaires de contenu d'ajouter du sens à leurs contenus, c'est-à-dire de décrire la structure des connaissances au sein du contenu. De cette manière, une machine peut :

  •  traiter la connaissance elle-même,au lieu du texte, en utilisant des procédés similaires à un raisonnement déductif humain et de l'inférence,
  •  obtenir des résultats plus significatifs tout en aidant les ordinateurs à effectuer de la collecte d'informations automatisée et ainsi faciliter la recherche.

Voici un exemple de balise qui serait utilisée dans une page web non sémantique :

						<item>cat</item>
					

Le codage d'informations similaires dans une page web sémantique pourrait ressembler à ceci :

						<item rdf:about=”http://dbpedia.org/resource/Cat”>Cat</item>
					

Les piliers du Web Sémantique

Tim Berners-Lee pousse à l'émergence d'un réseau de données liées (linked data, en anglais), ou Web des données (en français), pour obtenir le « Graphe Globale Géant », contrairement à la « Toile » (Web) mondiale basée sur des pages HTML. Tim Berners-Lee pose comme principe que si, par le passé, on partageait des documents, alors, dans l'avenir, nous partagerons des données.

Sa réponse à la question « comment ? » repose sur trois piliers.

  • Un, une URL doit pointer vers les données.
  • Deux, n’importe qui accédant à l'URL doit pouvoir récupérer des données.
  • Trois, les relations dans les données doivent pointer vers d'autres URL avec des données.

Les défis de la sémantique

Quelques-uns des défis du Web sémantique sont l'immensité, l'imprécision, l'incertitude, l'incohérence, et la tromperie. Les systèmes de raisonnement automatisé devront faire face à toutes ces questions, afin d'être à la hauteur de la promesse du Web sémantique.

Le World Wide Web contient plusieurs milliards de pages. L'ontologie de la terminologie médicale SNOMED CT contient à elle seule 370 000 noms de classes, et aucune technologie existante n'a été encore en mesure d'éliminer tous les doublons du point de vue sémantique de cette ontologie. À l’avènement du Web sémantique, tous les systèmes de raisonnement automatisé devront alors gérer une quantité de paramètres vraiment énorme.

Il existe des notions imprécises comme « jeune » ou « grand ». Ceci découle de l'imprécision des requêtes des utilisateurs qui s'alignent sur les termes utilisés par les fournisseurs de contenu. Les fournisseurs ayant des bases de connaissances qui se chevauchent, recréent cependant différents concepts avec des différences subtiles. La logique floue est la technique la plus courante pour faire face à l'imprécision.

Ce sont des concepts précis avec des valeurs incertaines. Par exemple, un patient peut présenter un ensemble de symptômes qui correspondent à un certain nombre de diagnostics différents, chacun avec une probabilité différente. Les techniques de raisonnement probabiliste sont généralement employées pour traiter l'incertitude.

Ce sont des contradictions logiques qui surgiront inévitablement au cours du développement des grandes ontologies, et quand les ontologies à partir de sources distinctes seront combinées. Le raisonnement déductif échouera face à cette incohérence parce que d'une contradiction on peut en déduire n'importe quoi (principe d'explosion). Le raisonnement révisable (en) et le raisonnement paraconsistant (en) sont deux techniques qui peuvent être utilisées pour faire face à l'incohérence.

Cela arrive quand le producteur d'une information désire volontairement tromper le consommateur de ce type d'information. les techniques decryptographie sont actuellement utilisées pour remédier à cette menace et ainsi veiller à l'intégrité des données.

Cette liste de défis est plus illustrative qu'exhaustive car elle se concentre sur les défis de la couche de « logique d'unification » et de « preuve » pour la mise en œuvre du Web sémantique. La plupart des techniques mentionnées ici devront étendre le langage OWL (Web Ontology Language) par exemple pour annoter la probabilité conditionnelle d'une information. Il s'agit d'un domaine de recherche actif.