"Wir leben in einer Informationsgesellschaft" – dieser banale Satz hat für jeden von uns ganz konkrete Konsequenzen. Nicht mehr der Informationsmangel, sondern das Übermaß an Information ist für uns zum Problem geworden. Die Antwort sind Suchmaschinen. Aber gehen die auch „im Kleinen“?
Tatsächlich wäre die Informationsflut, die uns überrollt, ohne Google, Bing, DuckDuckGo und andere Suchmaschinen kaum noch zu bewältigen. Dabei hat sich die Technologie in den letzten Jahren rasant weiterentwickelt. Statt nur eine gewichtete Ergebnisliste zu präsentieren, gehen Anbieter wie Google zunehmend dazu über, Fragen ihrer User nach Möglichkeit direkt zu beantworten. So erhalte ich auf die Frage, wieviel denn 49 US-Dollar in Euro sind oder wer der Bundeskanzler von Deutschland ist, bereits direkt die Antwort. Ohne überhaupt eine weitere Website anklicken zu müssen. Das Suchfeld im Browser wird damit für viele zu einer Art direktem Kommunikationskanal, um mit der Schwarmintelligenz des weltweiten Internets zu chatten. Und wer kennt nicht die Anekdoten von hilflosen Großeltern, die auch auf die Frage "Warum funktioniert mein WLAN nicht?" noch eine Antwort von Google erwarten?
Woher weiß die Suchmaschine was ich will?
Diese ungemein praktische Technologie stützt sich wesentlich auf neue und neueste Forschungsergebnisse im Bereich der Künstlichen Intelligenz. Das sogenannte "Question Answering" – also die direkte Beantwortung von Fragen – ist ein wichtiges Forschungsgebiet im Schnittfeld zwischen Suchmaschinentechnologien und maschineller Verarbeitung von natürlicher Sprache. Zunächst muss die Frage korrekt verstanden werden. Dabei ist mir schnell klar, dass eine knappe, präzise Eingabe wie "49 USD in EUR" verarbeitet werden kann. Dass die Frage "Wieviel sind 49 Dollar?" aber ebenso zum gewünschten Ergebnis führt, ist dagegen schon deutlich spannender. Hier muss die Maschine natürlich verstehen, dass das Fragewort "Wieviel" einen Betrag anfordert und "49 Dollar" eine Geldmenge in einer bestimmten Währung bezeichnet. Darüber hinaus muss massiv Kontextwissen einfließen, damit die Maschine versteht, dass diese auf Deutsch gestellte Frage sich höchstwahrscheinlich auf US-Dollar bezieht und eine Antwort in Euro erwartet. Eine äquivalente Frage auf Englisch in Australien oder Neuseeland gestellt, hätte mit Sicherheit eine andere Antwort zur Folge. Ist die Frage schließlich hinreichend verstanden, so muss immer noch die korrekte Antwort generiert werden. Auch hier ist wieder Kontextwissen notwendig und es muss gegebenenfalls aus mehreren Möglichkeiten die passende ausgewählt werden. Die Umrechnung von Euro in Dollar will ich zum tagesaktuellen Kurs haben, und als Bundeskanzlerin bzw. Bundeskanzler sollte die Suchmaschine in Deutschland Angela Merkel, in Österreich hingegen Sebastian Kurz benennen.
Ist doch klar – wo ist das Problem?
Für uns Menschen scheint dies oft trivial, da wir es gewohnt sind, automatisch unseren ganzen Erfahrungsschatz als Kontext in Gespräche mitzubringen. Einer Maschine muss dieses Kontextwissen erst mühsam beigebracht werden. Google greift dabei einerseits auf neueste KI-Algorithmen wie das BERT Sprachmodell zurück. Andererseits kann sich Google auf einen irrsinnig großen Datenschatz an Webseiten und vergangenen Suchanfragen stützen.
THD erforscht Realisierung von internen Suchmaschinen
Aktuell besteht die Herausforderung darin, diese Ergebnisse auch in andere, kleinere Bereiche zu übertragen. Ist ja schön, wenn Google das kann – aber kann ich in einer unternehmensinternen Suchmaschine nicht ähnliche Erfolge erzielen? Auch die TH Deggendorf ist an diesen Forschungen beteiligt: Im neuen Projekt SEMIARID erforscht die THD zusammen mit den beiden Projektpartnern DATEV und IntraFind wie eine semantische unternehmensinterne Suchmaschine realisiert werden kann. Dabei geht es dann weniger um die Umrechnung zwischen Euro und US-Dollar. Eine interessante Beispielfrage wäre vielmehr: "Wieviel Kindergeld kriege ich für meine zwei Töchter?" Wenn die Suchmaschine darauf die aktuelle Antwort "438 Euro pro Monat" direkt liefern könnte, ganz ohne Kopfrechnen... das wäre schon ziemlich praktisch!
Andreas Fischer
Prof. Dr. Andreas Fischer ist CIO der TH Deggendorf und Professor an der Fakultät für Angewandte Informatik. Er forscht im Bereich der künstlichen Intelligenz an der semantischen Interpretation natürlichsprachiger Texte.