So einem Smart Speaker – sofern man sich dafür begeistern kann – teilt man in der Regel mit, ob man etwas kaufen möchte oder ein paar Info’s braucht. Die KI bei der Bilderkennung (Voice Search) muss kreativer sein. Sie muss entscheiden, ob ich beim fotografieren von Rosenkohl höchstwahrscheinlich nach einem Lieferservice suche oder aber an Rezepten interessiert bin. Der fotografierte Gegenstand muss also mindestens in zwei Keywords übersetzt werden, wie etwa „Rosenkohl kaufen“ oder „Kochrezepte Rosenkohl“. Mehr interessante Fakten zu Visual Search und deren Einsatzmöglichkeiten enthält der folgende Artikel auf t3n.de:
Daniel Kaliner, Daniel Koch, „Visuelle Suchmaschinen: Google kann jetzt gucken“, t3n.de: https://t3n.de/magazin/visuelle-suchmaschinen-google-gucken-247315/