Automatisierte Bilderkennung: Das Wichtigste im Überblick

31.07.2019

Künstliche Intelligenz ist für manch einen nur ein Buzzword und überzogener Hype. Insbesondere die Fähigkeit der Maschinen, zu lernen, setzt jedoch unbestritten täglich neue Maßstäbe. Neben zahlreichen Unterdisziplinen wie etwa dem Erkennen komplexer Zusammenhänge in strukturierten Daten für Vorhersagen oder der Verarbeitung menschlicher Sprache, hat unter anderem die automatisierte Bilderkennung in letzter Zeit bemerkenswerte Fortschritte gemacht.

Mit dem Lösen einzelner Grundaufgaben fängt es an

Typischerweise werden aktuell drei Grundaufgaben mit der so genannten Image Recognition gelöst.

Bei der einfachen „Klassifizierung“ wird ein Bild automatisch einer oder mehreren Kategorien zugeordnet, also etwa einer speziellen Tierart oder einer Konsumgütergruppe. Ermöglicht wird das, indem man einem künstlichen neuronalen Netz sehr viele Bilder unterschiedlicher Kategorien zeigt, wobei es die einschlägigen Muster einer Kategorie lernt. Der Algorithmus identifiziert dann diese Muster in einem neuen Bild und gibt die am besten passende Kategorie zurück. Im folgenden Beispielbild gibt ein Klassifizierungsalgorithmus etwa die Kategorie „Vogel“ aus, ohne es je vorher gesehen zu haben:

Die „Objekterkennung“ findet alle Objekte in einem Bild und klassifiziert jedes einzeln, um ein Bild etwa automatisch mit Hashtags versehen zu können. Im Beispielbild wären das die tags „Vogel“, „Tier“ und „Blume“:

Die sogenannte „Instance Segmentation“ geht einen Schritt weiter und lokalisiert die gefundenen Objekte im Bild pixelgenau – um sie zum Beispiel im Anschluss ausschneiden zu können (die Pixel des Vogels in türkis und die der Blume in pink):

Vielfältige Anwendungsgebiete: „Welcher Specht sitzt da in meiner Muschelzypresse und ist das überhaupt eine Muschelzypresse?“

Ein klassischer Use Case für Bilderkennung ist die automatische Moderation von User Generated Content. Hier bemühen sich Betreiber von Onlinediensten, ihre Seiten von unerwünschtem Inhalt ihrer Nutzer sauber zu halten. Dabei kann über Klassifizierung und Objekterkennung ein Bild entweder schon beim Upload (Stichwort Uploadfilter) oder spätestens vor der Veröffentlichung automatisch als „not safe for work“ klassifiziert und automatisch abgefangen werden.

Um beim obigen Beispiel zu bleiben, könnte mit der Technologie z.B. auch ein Vogelklassifikator gebaut werden, der zunächst erkennt, ob im hochgeladenen Bild überhaupt ein Vogel abgebildet ist (Objekterkennung). Anschließend könnte er mit Instance Segmentation ausgeschnitten werden. Ohne die störenden weiteren Informationen auf dem Bild tut sich ein darauffolgender Klassifizierungsalgorithmus für den nun isolierten Vogel leichter, ihn etwa in eine der ca. 40 häufigsten heimischen Gartenvogelarten zu kategorisieren. Im Beispielfall täte er sich da freilich schwer, weil wir der Ästhetik halber einen Kolibri verwendet haben.

Natürlich gibt es unzählige weitere Anwendungsgebiete, wie z.B. das Erkennen bestimmter Personen oder Landschaften auf Bildern oder die Analyse von Gesichtszügen vor und nach dem Verlassen eines Geschäfts. Auch die bahnbrechenden Fortschritte bei der automatischen Tumorerkennung auf Röntgenbildern sind mit automatisierter Bilderkennung möglich geworden.

Welcher Algorithmus ist der Beste für meinen Use Case?

Für die Lösung eines konkreten Use Cases kommen grundsätzlich drei Möglichkeiten in Betracht, die abhängig von den individuellen Rahmenbedingungen unterschiedlich relevant sein können. Natürlich können Modelle immer von Grund auf neu gebaut werden. Häufig bietet es sich jedoch an, ein passendes frei verfügbares Modell als Grundgerüst zu verwenden und per sogenanntem transfer-learning (Ergänzen einzelner tieferer Kategorie-Ebenen) auf den spezifischen Use Case hin zu individualisieren. In unserem Vogel-Beispiel könnte man als Grundlage etwa ein vortrainiertes Modell verwenden, das einen Vogel bereits sicher von anderen Objekten unterscheiden kann. Für die feingranulare Unterkategorisierung des einzelnen Tieres kann man das bestehende Modell dann mit eigenen Trainingsbildern weiterentwickeln.

Kommt im jeweiligen Business-Kontext die Verwendung von Cloud-Diensten in Frage, kann auch auf vorgefertigte Cloud-Infrastrukturen aufgesetzt werden. Hier werden häufig verschiedenste Algorithmen kombiniert, um spezifische und häufig vorkommende Bilderkennungsaufgaben lösen zu können. Dabei spielt auch die individuelle Domänenexpertise des jeweiligen Anbieters eine wichtige Rolle.

Grundsätzlich gilt: Je spezifischer das Problem und der Einfluss auf den Geschäftserfolg, desto individueller sollten die Algorithmen gebaut werden. Im Zweifel wenden Sie sich einfach gerne an uns und wir finden gemeinsam mit Ihnen die beste Lösung für Ihren Anwendungsfall und implementieren sie in der technischen Infrastruktur, die am besten zu Ihnen passt.

Zurück zur Übersicht