ELI, das semantische Web und Open Data

Die Vision des semantischen Webs von Tim Berners-Lee, Begründer des World Wide Web

Ich hatte einen Traum für das Web. Darin erlangten Computer die Fähigkeit, alle Daten im Web zu analysieren – Inhalte, Verbindungen und Transaktionen zwischen Menschen und Computern. Ein „semantisches Web“, das dies ermöglichen sollte, gibt es derzeit noch nicht. Wenn dies jedoch eines Tages der Fall sein wird, dann werden unsere täglichen Austauschmechanismen in der Bürokratie und in unserem Alltag über Maschinen verarbeitet, die miteinander im Dialog stehen. Die „intelligent Agents“, die man uns seit langem schon verspricht, werden dann zur Wirklichkeit.

Das semantische Web

Ziel des semantischen Webs ist es, die Entwicklung des Webs dahingehend voranzubringen, dass die Nutzer Informationen einfacher finden, teilen und kombinieren können. Das semantische Web ist eine Vision der Information, die sowohl vom Menschen als auch von den Maschinen lesbar sind. Auf diese Weise werden künftig aufwendige und repetitive Arbeitsabläufe im Bereich der Informationsrecherche von Maschinen durchgeführt werden und gleichermaßen auch die Informationen für den Benutzer im Web verbessert und konsolidiert.

Das semantische Web ist ein System, das den Maschinen ermöglicht, zu „verstehen“ und auf komplexe Abfragen des Menschen sinngemäß zu antworten. Ein solches «Verständnis» setzt voraus, dass die relevanten Informationsquellen zuvor eine semantische Struktur erhalten haben.

Das semantische Web wird dabei als eine Art Brücke bezeichnet, über die der Zugang zu den Daten unterschiedlicher Applikationen und Systeme erfolgt. Applikationen finden zahlreiche Anwendungen in Editionen, Blogs und in vielen anderen Bereichen.

Das „semantische Web“ verarbeitet „semantische“ Konzepte, „Metadaten“ und „Ontologien“.

Die Dokumentendateien eines Computers sind nach zwei Kategorien klassifizierbar: Dateien, die für den Menschen lesbar sind und jene, die von der Maschine gelesen werden können. Dokumente wie E-Mails, Berichte und Broschüren sind für den Menschen lesbar. Demgegenüber sind die Daten in Kalendern, Adressbüchern, Playlisten oder in Tabellenblättern maschinenlesbar, vorausgesetzt, es wird eine Applikation benutzt, die das Lesen, Durchsuchen oder Verändern der Daten in unterschiedlicher Art und Weise ermöglicht.

Derzeit basiert das World Wide Web hauptsächlich auf Dokumenten die im Hypertext-Format geschrieben sind (HTML – Hypertext Markup Language), das heißt, ein Markierungsformat zur Kodierung von Texten reich an multimedialen Objekten wie Bilder und interaktive Formulare. Metadaten-Markierungen ermöglichen eine computergestützte Methode der Katalogisierung der Inhalte von Webseiten, zum Beispiel:

						<meta name="keywords" content="computing, computer studies, computer" />
<meta name="description" content="Cheap widgets for sale" />
<meta name="author" content="John Doe" />

Mit Hilfe des HTML-Formats und einem Anzeigetool (geeignet hierfür ist der Web-Browser) kann eine Seite erzeugt und dargestellt werden, die einen Produktkatalog anzeigt.

Das HTML-Format einer Katalogseite ist zwar einfach erstellt, das Dokument ist dann versehen mit Informationen wie „die Überschrift dieses Dokuments lautet Supermarkt der Gadgets”, jedoch kann mit Hilfe des HTML-Kodes beispielsweise weder eindeutig definiert werden, dass das Produkt mit der Nummer X586172 ein Tisch zum Preis von 199 € ist, noch dass es sich hierbei um einen Verbrauchsgegenstand handelt.

Das HTML-Format ermöglicht lediglich die Aussage, dass die Textabfolge „X586172“ einer Sache gleichkommt, die in der Nähe von „unbeweglicher Gegenstand“ und „199 €“ einzustufen ist. Allerdings ist es weder möglich, anzuzeigen „dies ist eine Katalogseite“ noch das Wort „Möbel“ als eine Art Überschrift zu kennzeichnen, oder dass „199 €“ einen Preis darstellt. Es besteht keine Möglichkeit zum Ausdruck zu bringen, dass diese einzelnen Informationsbestandteile so miteinander verknüpft sind, dass sie ein einzelnes Element oder ein unterscheidendes Merkmal in Bezug auf die anderen Produkte auf derselben Webseite beschreiben.

Im semantischen HTML-Format werden HTML-Tags benutzt, um Zusatzinformationen in das Dokument einzufügen. Der HTML-Tag „del“ wird zum Beispiel genutzt, um einen gelöschten Inhalt zu bezeichnen, anstelle von „strike“, der lediglich einen durchgestrichenen Text anzeigt und nur die Formatierung festlegt. Das semantische HTML-Format überlässt die Seiteneinrichtung der Suchmaschine, indem Stylesheets hinzugefügt werden. Jedoch stößt diese Vorgehensweise an ihre Grenzen, wenn es darum geht, Objekte semantisch zu bestimmen, wie zum Beispiel Verkaufsprodukte.

Mikroformate sind inoffizielle Versuche, die Syntax im HTML-Format zu erweitern, damit die Suchmaschine die semantischen Tags von Gegenständen in Dokumenten, wie Verkaufsartikel oder Kontakte (beispielsweise mit „hcard“), lesen kann.

Das semantische Web schlägt eigens für Daten konzipierte Sprachen vor: RDF (Resource Description Framework), OWL (Ontology Web Language), eXML (eXtensible Markup Language). Das HTML-Format beschreibt die Dokumente und deren Verknüpfungen miteinander. RDF, OWL und eXML können demgegenüber auch Dinge, Personen, Besprechungstermine oder Flugzeugteile beschreiben.

Diese Technologien werden miteinander kombiniert, um Bezeichnungen bereitzustellen, welche den Inhalt der Web-Dokumente ergänzen oder ersetzten. Somit kann der Inhalt in Form von bereits im Web abrufbaren Datenbanken gespeicherten Datenbeschreibungen auftreten oder ausgedrückt durch Dokumenten-Tags. Diese Daten können folglich durch XML-Formate unterbrochen sein oder teilweise ausschließlich im XML-Format veröffentlicht werden, und zwar mit einer Seiteneinrichtung und getrennt gespeicherten Daten. Die maschinenlesbaren Beschreibungen ermöglichen dem Inhaltsmanager den unterschiedlichen Inhalten Sinneinheiten hinzuzufügen, das heißt, die Wissensstruktur im Inhalt zu beschreiben. Auf diese Weise gelingt es einer Maschine:

  •  Wissen eigenständig zu verarbeiten anstatt lediglich den Text, indem ähnliche Vorgänge abgerufen werden, wie bei der deduktiven Analyse durch den Menschen und der Schlussfolgerung;
  •  Eindeutigere Ergebnisse zu erzielen, indem das computergestützte automatisierte Sammeln von Informationen gefördert und somit die Recherche vereinfacht wird.

Hier ein Tag-Beispiel für eine nicht semantische Webseite:

						<item>cat</item>
					

Die Verschlüsselung für ähnliche Informationen für eine semantische Webseite könnte wie folgt aussehen:

						<item rdf:about=”http://dbpedia.org/resource/Cat”>Cat</item>
					

Die Säulen des semantische Web

Tim Berners-Lee fördert die Entstehung eines verknüpften Datennetzes (oder linked data im Englischen) um das weltweite Netz Giant Global Graph (oder Linked Open Data) im Gegensatz zum World Wide Web, das auf HTML-Seiten basiert, ins Leben zu rufen. Tim Berners-Lee stellt den Grundsatz auf, der besagt, dass wenn wir in der Vergangenheit Dokumente ausgetauscht haben, wir in der Zukunft Daten miteinander teilen werden.

Seine Antwort auf die Frage, wie dies „funktioniert“ ist auf drei Grundvoraussetzungen gestützt:

  • Erstens, eine URL-Adresse muss stets auf Daten verweisen.
  • Zweitens, Daten müssen für jeden, der über einen URL-Zugang verfügt, abrufbar sein.
  • Drittens, bestehende Verknüpfungen zwischen den Daten müssen auf andere URLs mit Daten verweisen.

Die Herausforderungen der Semantik

Zu den Herausforderungen des semantischen Webs gehören die Unbegrenztheit des Webs, die Ungenauigkeit, Ungewissheit, Widersprüchlichkeit und die Täuschung. Automatisierte Argumentationssysteme sollten sich all diese Fragen stellen, um das Versprechen des semantischen Webs einlösen zu können.

Das World Wide Web besteht aus Milliarden von Internetseiten. Die Ontologie der medizinischen Fachterminologie SNOMED CT umfasst allein 370.000 Klassenbezeichnungen und bislang ist es technisch noch nicht gelungen, die semantischen Doppelbedeutungen dieser Ontologie herauszufiltern. An der Schwelle zum Zeitalter des semantischen Webs werden sämtliche automatisierten logischen Systeme in der Lage sein müssen, eine überwältigende Vielzahl an Parametern zu verarbeiten.

Es gibt ungenaue Bedeutungen wie „jung“ oder „groß“. Dies ergibt sich aus der Ungenauigkeit der Benutzerabfragen, die sich wiederum an der von den Textinhaltsgestaltern vorgegebenen Terminologie ausrichtet. Anbieter mit sich überschneidenden Grundkenntnissen schöpfen demgegenüber diverse Konzepte mit feinen Unterschieden. Um der Ungenauigkeit entgegen zu wirken, bedient sich der Mensch meistens der sog. Fuzzy-Logik (verschwommene, unbestimmte Logik).

Hierbei handelt es sich um präzise Konzepte mit ungewissen Wahrheitswerten. Beispielsweise beschreibt ein Patient eine Reihe von Krankheitssymptomen, die jeweils unterschiedlichen Diagnosen verschiedener Wahrscheinlichkeitsgrade zugeordnet werden können. Die Verarbeitung von Ungewissheit erfolgt im Allgemeinen auf der Grundlage probabilistischer Rückschlüsse.

Es sind die logischen Widersprüchlichkeiten, die bei der Aufstellung umfassender Ontologien unweigerlich zu Tage treten bzw. wenn Ontologien, die ihre Begriffe aus unterschiedlichen Quellen beziehen, kombiniert werden. Beim Auftreten von Widersprüchlichkeit stößt die deduktive Analyse jedoch an ihre Grenzen, da vom Widerspruch unzählige Ableitungen vorgenommen werden können (Grundsatz der scholastischen Logik „aus Falschem folgt Beliebiges“). Anfechtbare Logik und parakonsistente Logik sind zwei Techniken, um der Widersprüchlichkeit entgegenzuwirken.

In diesem Fall sucht der Erzeuger, einer Information wissentlich den Konsumenten dieser Information zu täuschen. Um derartige Täuschungsgefahren abzufangen, werden derzeit Verschlüsselungstechniken eingesetzt, wodurch auch die Datensicherheit gewährleistet werden soll.

Die oben dargelegten Herausforderungen dienen vielmehr als Beispiel und können noch beliebig ergänzt werden, da sie sich ausschließlich mit den Herausforderungen auf der Ebene der „logischen Verknüpfungen“ und „Beweisführung“ zwecks Einführung des semantischen Webs beschäftigen. Die meisten der hier dargestellten Techniken müssten zu einer Erweiterung der Beschreibungssprache von Verknüpfungen OWL (Web Ontology Language) führen, beispielsweise um die bedingte Wahrscheinlichkeit einer Information anzuzeigen.

Semantic Web . ( 3. September 2014 ) . In Wikipedia, der freien Enzyklopädie . Abgerufen 00.45 , 22 September 2014, von http://de.wikipedia.org/wiki/Semantisches_Web