Bilderkennung - Was ist das eigentlich?
Bei der Bilderkennung geht es darum, dass Computer mit Hilfe einer Kamera, Objekte identifizieren können. Auch wenn das uns Menschen schon früh sehr leichtfällt, ist es ein höchst komplexes Vorhaben, diese Fähigkeit auf Maschinen zu übertragen. Durch immer leistungsstärkere Computer, ist es inzwischen aber möglich, dass mit Hilfe von künstlicher Intelligenz Objekte auf Bildern zuverlässig erkannt werden. Der Schlüssel dazu sind große Datenmengen, anhand derer der Computer „lernt“, wie Gegenstände grundsätzlich aussehen. Dieser Lernprozess geschieht mit Hilfe eines so genannten Algorithmus, also einer sehr langen mathematischen Gleichung.
KI ist nicht gleich KI
Pixelgenaue Segmentierung - Die Wunderwaffe

Das Original

Bildverarbeitung mit Bounding Boxen

Segmentierung des visioncheckouts
In der pink hinterlegten Maske liegen die Bereiche, die für die Erkennung berücksichtigt werden. Alles was sich auf dem 2. Bild innerhalb der Box befindet, fließt in die Erkennung ein. Oft funktioniert das, da der zu erkennende Gegenstand den größten Teil der Box ausmacht. Es gibt aber auch eine Vielzahl an Fällen, in denen die Boxen keine zufriedenstellende Erkennung liefern.
Anders funktioniert es auf dem dritten Bild, bei der pixelgenauen Segmentierung. Bei dieser Art der Bildverarbeitung wird keine starre Box um die Objekte gezogen. Anstatt dessen berechnet die KI passgenaue Masken, die die zu erkennenden Artikel umrahmen. So entstehen keine Überlappungen und jeder Artikel kann sicher und zuverlässig erkannt werden. Anhand einiger Beispiele werden die Unterschiede der beiden Arten der Bildverarbeitung sowie deren Konsequenzen deutlich.
Sich überlagernde Boxen



Unterschiedliche Hintergründe
Es muss schnell gehen, man hat ja ohnehin nur einen Teller oder man hat es schlicht vergessen. Dass ein Gast ohne Tablett an die Kasse kommt, ist schnell passiert und sollte für die Erkennung kein Problem darstellen. Allerdings ist es so: je mehr Hintergrund in die Erkennung mit einfließt, desto wichtiger ist es, dass der Hintergrund genauso aussieht wie auf dem Bild, das zum Einlernen gemacht wurde. Da bei der pixelgenauen Segmentierung kein Hintergrund mit in die Erkennung einfließt, stellen diese Fälle für den visioncheckout kein Problem dar.



Unterschiedliche Portionsgrößen


