Automatische Textzusammenfassung: Das Wichtigste im Überblick

04.03.2020

Die Menge an Texten, die uns heute über digitale Medien zur Verfügung steht, ist schier unendlich groß. Mit ihr wächst auch der Wunsch nach Verdichtung und Personalisierung relevanter Informationen.

Diese Flut an Informationen führt dazu, dass eine manuelle Zusammenfassung in zunehmendem Maße nicht mehr möglich ist und automatisierte Verfahren sich zu einer der populärsten und wichtigsten Teildisziplinen des Natural Language Processing (NLP) entwickelt haben. Im Zentrum steht dabei, den Inhalt eines Texts, sei es ein Zeitungsartikel, eine Studie oder ein historischer Roman, automatisch auf die wichtigsten Kernaussagen zu reduzieren.

Textmarker vs. Kugelschreiber

Uns Menschen fällt es in der Regel nicht schwer, einen Text zu lesen, zu verarbeiten und die wichtigsten Kernbotschaften in einer Zusammenfassung wiederzugeben. Für Maschinen gehört diese Aufgabe zu den komplexesten überhaupt. Man unterscheidet dabei zwei grundsätzliche Herangehensweisen.

Extractive Summarization

Häufig greift der Mensch einfach zum Textmarker und markiert die Sätze, die ihm wichtig erscheinen. Im NLP heißt diese Methode „Extractive Summarization“. Dabei verarbeitet die Maschine den gesamten Text und identifiziert z.B. anhand der Häufigkeit von bestimmten Worten mithilfe statistischer Methoden wichtige Sätze. Diese werden dann priorisiert und wortgetreu wiedergegeben. Die jeweils wichtigsten Sätze aus einem Text werden auf diese Weise zu einer kurzen Zusammenfassung zusammengesetzt.

Alternativ oder ergänzend können Sätze nach semantischer Ähnlichkeit gruppiert und für jedes dieser „Themen“ der Satz zurückgegeben werden, der es am besten repräsentiert. Dadurch wird verhindert, dass sinnverwandte Sätze doppelt vorkommen und das volle Spektrum der im Text vorkommenden Informationen abgedeckt wird.

Während dieser Ansatz bereits ausreicht, um für manche Textarten (z.B. News-Artikel oder Sachtexte) beeindruckende Ergebnisse zu produzieren, weist er doch für andere Anwendungen gravierende Mängel auf. So wirken die selektierten Sätze am Ende meist etwas aus dem Zusammenhang gerissen und bieten kein flüssiges Leseerlebnis. Zudem ist die spezielle Schreibform eines Textes nicht immer geeignet um aus einzelnen Bestandteilen eine Zusammenfassung zusammenzusetzen. Die Zusammenfassung eines Romans, der aus der Ich-Erzähler Perspektive geschrieben wurde, würde auf diese Weise schnell zu einem unlesbaren Kauderwelsch.

Zusätzlich gilt: Je komplexer die Sprache eines Quelltexts und je mehr Interpretation nötig ist, um ihn zu verstehen, desto eher versagt dieser einfache Ansatz. Eine Zusammenfassung von Hesses Siddharta á la „Nach Phasen religiöser, asketischer und hedonistischer Lebensweisen, findet Buddha schließlich zur Erleuchtung“ wird sich über eine reine Zusammenfügung einzelner wichtiger Sätze aus dem Buch nicht generieren lassen.

Abstractive Summarization

Die zuvor beschriebenen Schwächen der Extractive Summarization beruhen auf der Tatsache, dass die extrahierten Sätze aus ihrem Kontext gerissen werden. Um solche Fallstricke zu umgehen, werden bei der sog. „Abstractive Summarization“ die Sätze vom Algorithmus selbst erzeugt und nicht auf Sätze des Originaltexts zurückgegriffen. Diese Methode wird deshalb im Vergleich zur vorher genannten „Textmarker Methode“ auch als „Kugelschreiber Methode“ bezeichnet.

Eine Architektur aus neuronalen Netzen lernt anhand vieler Beispiele automatisch die Zusammenhänge zwischen Originaltexten (z.B. Zeitungsartikel) und deren von Menschen geschriebene kürzere Zusammenfassungen. Dadurch ist das System in der Lage, für einen neuen Text automatisch eine passende Zusammenfassung zu schreiben. Die Art der Texte, mit denen der Algorithmus trainiert wird, entscheidet schlussendlich über die Tonalität oder den Stil in welcher die Zusammenfassungen generiert werden. Daher sollte ein Datensatz mit Textpaaren aus jeweils der langen Version und der dazugehörigen Zusammenfassung vorliegen. Für diesen Datensatz gilt wie immer: Je größer, desto besser.

Um grammatikalisch korrekte und ansprechende Sätze zu erzeugen, muss der Algorithmus zusätzlich semantische Inhalte und Zusammenhänge zwischen Wörtern und Sätzen verstehen. Dank großer Fortschritte in den letzten Jahren, existieren nun Sprachmodelle, die vor unseren Abstractive Summarization Algorithmus geschaltet werden können und damit die sprachliche Qualität der Ergebnisse verbessern.

Die Technologie wird in Zukunft eine große Rolle spielen

Trotz der teils beeindruckenden Ergebnisse muss betont werden, dass der Algorithmus zwar bestehende Muster erkennt, aber keinen eigenen Content erzeugen kann. Eine künstliche kreative Intelligenz existiert also nicht und ist nach wie vor Zukunftsmusik.

Und doch sind die Anwendungsgebiete sehr zahlreich: Warum zigtausende Amazon oder Hotel-Reviews lesen, wenn ich auch eine einzige Meta-Review mit den wichtigsten Vor- und Nachteilen lesen kann? Oder warum nicht den täglichen Content meiner Mitbewerber automatisch beobachten, ohne alles in Gänze lesen zu müssen? So könnte gerade in diesem Moment irgendwo eine Nachricht aufpoppen, dass bei Burda gerade dieser Artikel geteilt wurde, mit einem Zweizeiler als Zusammenfassung – wundern sollte uns das heute jedenfalls nicht mehr.

Kommen Sie gerne auf uns zu, wenn Sie das Thema näher interessiert, oder wenn Sie einen Anwendungsfall haben, für den wir die passende Lösung bauen können!

Zurück zur Übersicht