Was haben Sie Alexa zuletzt gefragt?
„Mach die Leuchten am Weihnachtsbaum an“: Wenn ich unterwegs bin, spielen meine Kinder und ich gerne Spielchen miteinander. Wir sind Weihnachtsfans, haben jetzt schon drei Weihnachtsbäume zuhause. Und die mache ich dann von unterwegs über die smarte Steckdose an.Interview Dave Limp: Lauschen und Shoppen
Sie dürften ja einige Echos im Einsatz haben.
Ich habe ein gutes Dutzend zuhause. So 12 oder 13. Also nur Echos. Wenn ich andere Alexa-Geräte wie FireTVs hinzuzähle, sind es deutlich mehr.
Als Amazon Echo das erste Mal bei uns stand, hielt ich es für ein nettes Spielzeug. Dann fiel uns auf, dass es der erste Computer war, den unsere damals zweijährige Tochter alleine bedienen konnte. Wächst gerade eine „Generation Sprachsteuerung“ heran?
Ja, aber nicht im Extrem. Kinder, die jetzt zuerst mit Sprachsteuerung aufwachsen, werden auch Touchscreens und Tastaturen zu nutzen lernen. Tastaturen gibt es seit Ende des 19. Jahrhunderts, sie sind sehr gut für das, wozu sie gemacht sind – nämlich lange Texte zu schreiben. Und auch Touchscreens sind sehr gut für ihre Zwecke. Die Stimme wird als neues Interface hinzukommen. Und es wird – und ich denke es ist jetzt schon – der neue Normalzustand für eine Generation.
Wie wirkt sich das aus?
Wie man sich vorstellen kann, habe ich ein ziemlich smartes Haus. Und meine Kinder können in jeden Raum des Hauses gehen und per Sprache das Licht anmachen. Für sie ist das normal. Wenn sie woanders sind und es nicht klappt, ist in ihrer Wahrnehmung das Haus kaputt. Die Kinder werden es immer mehr gewohnt sein, mit Geräten zu reden – und es als Manko empfinden, wenn das nicht geht.
Sie erwarten es einfach.
Und sie haben Recht damit. Mit Stimmen zu kommunizieren, lernen wir von klein auf. Wir lernen es sehr schnell, wir sind darauf ausgelegt. Und für viele Dinge – nicht alle, wie ein langes Dokument zu tippen – ist es eine sehr natürliche Art der Interaktion, bequemer, schneller als andere. Das, was Alexa- und Echo-Nutzer am ehesten anzieht, ist die bequeme Nutzung . Es spart einfach Zeit.
Obwohl wir auch in der U-Bahn oder der Bar telefonieren, spricht kaum jemand öffentlich mit Sprachassistenten. Es fühlt sich einfach falsch an. Wird dieses Stigma irgendwann verschwinden?
Ich glaube, die Industrie hat es noch nicht geschafft, alle wichtigen Nutzungs-Szenarien zu entdecken, wenn es um Sprachsteuerung geht. Im Auto navigieren oder etwas diktieren ist sehr natürlich, das versteht jeder intuitiv. Bei Smartphones und PCs ist das schon anders. Sie sind sehr persönlich, nicht so auf einen Nutzen in einer Umgebung eingerichtet, wie wir Echo sehen. Der Touchscreen hat verändert, wie wir Mobilgeräte wahrnehmen – und er ist sehr optimiert. Dinge zu finden, wo Sprache besser funktioniert, ist für die Nutzer oft gar nicht so einfach, weil Apps für Touchscreens oder Tastaturen ausgelegt sind.
Anders als bei Google oder Siri kann man der Alexa-App nicht einfach per Chat befehle geben.
Man kann mit Touch Lampen ausschalten und ähnliches. Aber stimmt: Chatten kann man nicht. Ich gebe das mal an mein Team weiter. Als Industrie haben wir auf Smartphones immer noch nicht die Killerfunktion für Sprachsteuerung gefunden. In einem Wohnzimmer oder der Küche ist das schon anders. Da findet man jeden Tag neue. Weil man es eben auch öffentlich nutzen kann. Ich kann entweder eine der Dutzenden Smarthome-Apps auf meinem Telefon öffnen, den Raum und dort die richtige Lampe finden. Aber das ist nicht bequem. Oder ich frage Alexa, die auch am anderen Ende des Raumes stehen kann – und habe das gleiche Ergebnis.
Amazon Echo war der erste Computer, der nur über Sprache gesteuert wird. Dafür muss man die Interaktion komplett neu denken. Was waren bei der Entwicklung die größten Hürden?
Amazon Alexa besser machen_17.40Ich würde es nicht Hürden nennen, sondern eher von einzelnen Offenbarungen sprechen. Die erste kam, als wir Echo das erste Mal zu Leuten nach Hause brachten. Akustische Umgebungen in einem Zuhause – zumindest in meinem – sind schlichtes Chaos. Überall ist Lärm, die Kinder laufen herum, jemand spült, es läuft Musik – und Alexa muss einen trotzdem verstehen. Also mussten wir lernen, in solch schweren akustischen Umgebungen zu arbeiten.
Was war die zweite Erkenntnis?
Die zweite war Latenz. Die Nutzer akzeptieren bei Sprachsteuerung keine Verzögerung. Und die war am Anfang immens. Wir benutzten als Test immer die Frage nach der Uhrzeit. Und Alexa brauchte jedes Mal ganze 6 bis 8 Sekunden.
Eine Ewigkeit.
Als wir dann aus dem Labor kamen war schnell klar: Das machen die Nutzer nicht mit. Wir mussten die ganze Cloud-Reaktion deutlich optimieren. Mittlerweile liegen wir hier bei unter 1,5 Sekunden und werden schneller.
Was fehlte dann noch?
Als drittes wurde uns klar, dass Leute Alexa als eine Bekannte wahrnehmen wollten, sie also eine Persönlichkeit brauchte. Diese Erkenntnis führte auch zum Namen Alexa – der übrigens als Aktivierungswort viel schwerer umzusetzen ist als andere Varianten wie zum Beispiel „Hey Amazon“ oder „OK Amazon“. Hier war es ein Segen, dass wir nicht vom Smartphone kamen und schon ein System hatten. Die Persönlichkeit Alexas wäre sonst nie umzusetzen gewesen.
Unterscheidet das Alexa von Siri und Googles Assistant?
Weil uns die Persönlichkeit Alexas so wichtig ist, darf sie auch Meinungen und Vorlieben haben. Etwas, das die meisten Assistenten nicht dürfen. Stellen Sie sich eine Dinner-Party ohne Meinungen vor, das wäre völlig langweilig. Fragen Sie Alexa etwa einfach mal, was ihr Lieblingsbier ist.
Worauf kommt es bei der Wahl eines Aktivierungswortes genau an?
Bei Aktivierungsworten sind zwei Dinge wichtig: Das Wort sollte es phonetisch am besten nicht in der Sprache geben – was beim Namen Alexa in vielen Sprachen nicht der Fall ist – und es braucht möglich viele harte Konsonanten. Etwa „X“, wie in Alexa. „K“ ist auch gut, wie in „OK“ oder „Y“ wie in „Hey“. Wenn man also ein längeres Wort, das es nicht in der Sprache gibt und viele harte Konsonanten hat, hat man ein gutes Aktivierungswort.
Alexa ist also schwierig. Machte das mehr Arbeit?
Weil Alexa in vielen Sprachen vorkommt und zum Beispiel wie „I Like you“ klingt, hatten wir am Anfang deshalb Unmengen von Fehlaktivierungen. Mittlerweile hat sich das natürlich enorm verbessert.
Ist die Anzahl der Silben nicht ebenfalls wichtig? Die meisten Aktivierungsworte haben drei Silben.
Silben sind wissenschaftlich gesehen tatsächlich nicht so wichtig, wie man vermuten würde. Es hilft ein wenig, aber die beiden genannten Aspekte sind viel wichtiger.
Spracherkennung ist mehr als nur Worte zu verstehen, sie muss erkennen, was man von ihr möchte. Wie trainiert man eine Künstliche Intelligenz, emphatisch zu sein?
Der erste Schritt ist erstmal, die Sprachaufnahme in die Cloud zu senden und sie in Text umzusetzen. Das funktioniert gut, so alle 100-200 Wörter geht mal ein Wort verloren. Dann läuft ein Programm zur Erkennung natürlicher Sprache darüber – inklusive der noch vorhandenen Fehler – und versucht eine Interpretation auf Basis von maschinellem Lernen und unzähligen Datensätzen mit bekannten Befehlen. Oft werden dann die Fehler beseitigt. So bekommt man eine Einschätzung, was der Nutzer möchte, geteilt in Intention und weitere Metadaten. Etwa: Wir glauben, dass du „Spiel Musik“ gesagt hast und dass der Wunsch das Musical Hamilton ist.
Woher weiß Alexa, dass sie richtig liegt?
Amazon Echo Meta: Wie Sprachsteuerung unseren Alltag erobert,7.00 Nehmen wir als anderes Beispiel Weihnachtsmusik. Selbst dann kann immer noch viel Spielraum sein. Der Musik-Teil kann unverständlich gewesen sein, es könnte auch ein Film gemeint sein. Der Befehl „Spiel“ kann schließlich vieles heißen. Wir schicken also unsere Interpretation an jede Menge Schnittstellen – oft inklusive einer Reihe von Drittanbieter-Skills -, die alle eine Variante vorschlagen, was nun getan werden könnte und wie wahrscheinlich das die richtige Antwort ist. Und dann nimmt Alexa die statistisch wahrscheinlichste Variante. Das alles passiert in 1,5 Sekunden. Und dann sagt man dem Programm immer wieder, ob das richtig oder falsch ist, und trainiert es so immer weiter.
Als Sie als Hardware-Chef zu Amazon kamen, gab es nur den Kindle. Im Herbst haben Sie eine eigene Mikrowelle mit Alexa-Unterstützung vorgestellt. War das eine natürlich Entwicklung?
Nein, ich habe nicht kommen sehen, dass wir irgendwann eine Mikrowelle bauen. Es war eine Entwicklung, die von vielem beeinflusst wurde. Das wichtigste war sicher Kunden-Feedback. Aber auch Experimente, von denen manche erfolgreich waren und andere nicht. Und auch von Glück. Wir hatten bei manchen Sachen einfach das Glück, das richtige Produkt zur richtigen Zeit anzubieten. Und dann ist da natürlich das Scheitern, von dem man oft mehr lernt aus den Erfolgen. Das alles sorgte dafür, dass die grundlegende Idee gestärkt wurde.
Welche Idee ist das?
Nicht nur Gadgets zu bauen. Wir wollen Unterhaltungselektronik bauen, in die verschiedene Dienste tief integriert sind – nicht nur unsere, sondern auch in andere – etwa bei Musik-Streaming, wo wir gleich mehrere Dienste unterstützen. Das geht nur, weil wir Cloud-basiert arbeiten. Unsere Produkte erhalten weiter Updates und neue Inhalte, wir unterstützen selbst den Original-Kindle von 2007 immer noch.
Bei Smartphones sind ausbleibende Updates ein echtes Problem. Bisher unterstützen alle Echos die neuesten Features. Wird der erste Echo irgendwann bei Updates ausgelassen werden?
Ja, ich denke schon – irgendwann. Aber nicht in absehbarer Zukunft. Wir sind da ja nicht wie die klassische Industrie, dass wir ständig neue Geräte verkaufen müssen. Die meisten Elektronik-Unternehmen verdienen das Geld, wenn sie einem das Produkt verkaufen. So funktioniert unser Geschäft nicht. Wir verdienen Geld, wenn die Kunden die Geräte benutzen. Wir verkaufen sie quasi zum Herstellungspreis. Dadurch haben wir keinen Anreiz, alle zwei Jahre die Kunden zum Upgrade zu bringen, aber haben hohe Anreize, die vorhandenen Geräte mit neuen Features am Leben zu erhalten.
Es muss also nicht immer das neueste Modell sein.
Wir freuen uns also, wenn Kunden heute einen Echo Dot kaufen und ihn dann zehn Jahre lang nutzen. Alle unsere Geräte, ob FireTV, Fire Tablets, der Dash-Button, Echo oder Kindle folgen diesem ganz grundlegenden Prinzip.
Wenn erst die Nutzung Gewinne einbringt, wie genau verdient der Echo dann Geld?
Die offensichtlichste Form ist Amazon Music. In Deutschland lief das schon von Anfang an sehr gut, weltweit war es zu Beginn kaum auf dem Schirm. Jetzt ist Amazon Music der drittgrößte Anbieter der Welt. Zu diesem Erfolg trägt Echo sicherlich bei. Auch Audible läuft hervorragend auf Echo. Alexa gibts ja auch beim FireTV, da läuft Prime Video sehr gut. Und dann ist da natürlich Shopping.
Amazons Spezialität. Wie wird das auf dem Echo umgesetzt?
Bisher sind das vor allem das sprachgesteuerte Management von Einkaufslisten und Nachbestellungen. Aber es wird mit der Zeit sicher breiter werden. Jedes Mal, wenn ein Kunde in der Küche steht und es durch Echo etwa bequemer ist, Hundefutter nachzubestellen, ist das ein weiterer Weg, Echo zu monetarisieren. Es gibt noch mehr, aber wichtig ist auch, dass Echo ein Katalysator für die Smarthome-Nutzung ist.
Inwiefern? Leute kaufen Smarthome-Zubehör, weil sie einen Echo haben?
Wir dachten lange, die Entwicklung passiert nur gleichzeitig, aber mittlerweile sind wir sicher, dass da ein kausaler Zusammenhang besteht. Leute kaufen also smarte Glühbirnen und Steckdosen, Thermostate, Kameras und all sowas. Nicht alle kaufen es bei Amazon aber eben ein Teil. Und das lohnt sich für uns sehr.
Berichten zufolge benutzt kaum jemand den Echo zum einkaufen. Sind Sie denn zufrieden mit den Verkäufen über Echo?
Wir sind da echt gut gestartet. Ich nehme immer das, was die Presse schreibt und was wir wissen mit einer Prise Vorsicht. Es ist wirklich ein guter Start. Man kann noch nicht alles gut bestellen. Das ist eine Herausforderung, die Sprache mit sich bringt. Wir haben Hunderte über Hunderte über Hunderte Millionen Produkte. Musik ist einfach. Da gibt es 40 Millionen Lieder, weniger Künstler, noch weniger Alben. Bei Shopping hängt da viel mehr dran. Man muss Größe, Schnitt, Farbe, Marke und viele weitere Metadaten abgleichen. Aber ich bin da sehr positiv eingestellt. Das Shopping, das es bereits gibt, die Nachbestellungen, die Einkaufslisten laufen alle sehr gut.
Werden die über den Echo gesammelten Daten irgendwann bei Werbung einfließen um zusätzliche Gewinne einzunehmen?
Nein. Wir haben über 10.000 Mitarbeiter, die nur an Alexa arbeiten – und nicht einer von ihnen arbeitet an Werbung.
Und wie verwendet Amazon die Daten?
Wenn Sie über Alexa shoppen, dann fließen diese Daten auch wieder bei Shopping-Empfehlungen bei Amazon ein. Solange man sein Einkaufs-Profil behält und nicht löscht, könnte dann etwa wieder dieselbe Hundefutter-Sorte vorgeschlagen werden. Aber es gibt keine spezifischen Echo-Daten die da einfließen.
Die Deutschen sind wegen ihrer Geschichte mit Stasi und Gestapo beim Bereich Daten sehr empfindlich.
Und das sollten sie auch. Mir ist sehr wichtig, hier eine Nuance zu betonen: Leute denken, dass Werbung verkaufen immer das Gleiche sei. Aber wir verkaufen nur Werbung bei Amazon an Leute, die bei Amazon verkaufen, also innerhalb eines geschlossenen Systems. Wir haben noch nie – und werden auch nie – diese Daten extern weitergeben. Wir nutzen sie intern, um Features anzubieten, die unseren Kunden helfen, Empfehlungen sind da nur ein Beispiel. Aber wir verkaufen diese Daten nicht.
Angela Merkel hat gerade betont, dass sie die Menschen nicht als Daten-Ressource reduziert sehen will. Ist die Angst davor etwas, das man mit Technologie lösen kann?FireTV Stick mit Alexa_12.15
Das ist glaube ich ein gesellschaftliches Problem. Wir sollten alle nicht unsere Zeit damit verschwenden, ständig auf ein sechs Zoll großes Stück Glas zu starren. Manchmal hat meine Familie das Bedürfnis, das zu tun und dann muss ich sie darauf hinweisen, dass wir so nicht zu Abend essen wollen oder einen Film lieber zusammen schauen. Das mag ich so an Echo, dass es nicht aufdringlich ist. Man hört gemeinsam Musik und sitzt nicht dabei mit Kopfhörern in der Ecke.
Es ging mir mehr darum, dass einige Konzerne den Mensch als reines Daten-Vieh zu sehen scheinen und nicht als Kunden.
Wir haben schon seit Anfang an das Bedürfnis, den Kunden die Kontrolle über ihre Daten zu überlassen. Man kann seine Shopping-Historie löschen. Bei Alexa und Echo ist es dasselbe. Wir haben gerne Zugriff auf die bei uns – sicher verschlüsselt – gespeicherten Echo-Anfragen, weil es den Service besser macht, das maschinelle Lernen funktioniert dann besser. Aber auch das kann man alles löschen.
Jeder Echo-Besitzer hat eine komplette Sammlung aller je gestellten Anfragen. Sie sagten, die Audio-Anfragen sind verschlüsselt. Hat Amazon denn Zugriff darauf?
Es gibt sehr wenige Leute bei Amazon die an diese Anfragen kommen können. Es geht, aber sehr eingeschränkt, man muss jede Menge Genehmigungen einholen. Meistens nutzen wir es für Hilfsgesuche der Kunden selbst im Kundenservice.
Und was passiert, wenn staatliche Behörden Interesse an den Aufzeichnungen haben?
Uns ist erst mal wichtig zu betonen, dass nur gespeichert wird, was nach dem Wort „Alexa“ folgt. Alles andere kann ohnehin niemand wiederherstellen – weil es nicht existiert. Es wird nichts auf dem Gerät gespeichert und es wird nicht in die Cloud geschickt. Das, was dann tatsächlich gespeichert wird, kann man jederzeit löschen. Wenn man die Daten löscht, hat auch niemand Zugriff darauf. Sollten Daten gespeichert sein und wir erhalten eine gültige gerichtliche Anordnung, was in den USA häufiger vorkommt, ist bekannt, dass wir uns dagegen wehren.
Aber am Ende geben Sie auch nach?
Sollte es aber eine legitime Anfrage sein, müssen wir die Daten freigeben. Wir brechen ja nicht das Gesetz. Aber es ist das letzte Mittel. Und sollten die Betroffenen die Daten in der Zwischenzeit löschen, wären sie ohnehin weg – und auch nicht mehr wiederherstellbar.
In den USA wird gerade kontrovers diskutiert, ob die Tech-Konzerne der Regierung und dem Militär technische Hilfe leisten sollen. Während Google das Programm nach Protesten einstampfte, sicherte Microsoft dem Pentagon volle Unterstützung zu. Auch Amazon hat der Zollbehörde ICE Gesichtserkennungssoftware angeboten.Jahresrückblick: Als das Silicon Valley seine Unschuld verlor 6.35
Generell glauben wir bei Amazon, dass Innovation für das Gute eingesetzt werden sollten. Wir wollen allerdings auch nicht Entwicklungen von Regierungen fernhalten. Die Cloud ist eine sehr wichtige Erfindung. Und sie wird rund um die Welt Steuergelder sparen, weil sie effizient ist. Auch deshalb sollte sie – wie auch andere Technologien – Staaten zur Verfügung stehen. Wie diese sie dann aber einsetzen, müssen wir unbedingt im Auge behalten. Wir leben in einer Demokratie und die Leute sollten die Politiker und ihr Handeln prüfen und bewerten. Mit Amazon sollten sie übrigens dasselbe tun.
Aber wir wollen wie gesagt auch, dass Regierungen die Möglichkeit haben, unsere Technologie zu nutzen. Würde man etwa in Rückschau Regierungen Computer verweigern? Wurden Computer von Regierungen für böse Dinge missbraucht? Mit Sicherheit. Trotzdem glauben wir generell, dass man den technischen Fortschritt nicht aufhalten sollte.
Mark Zuckerberg und Elon Musk lieferten sich einen sehr öffentlichen Streit über die Gefahren der KI und die Frage, ob man sie regulieren sollte. Sehen Sie sich als KI-Optimist oder -Pessimist?
Ich bin ganz generell ein Optimist, und auch in Bezug auf KI. Meiner Ansicht nach sind die meisten Erfindungen auf gute Weise nutzbar gewesen und haben ihren Wert für die Gesellschaft hundertfach bewiesen, etwa moderne Medizin, die unsere Lebenserwartung in den letzten hundert Jahren drastisch erhöht hat. Natürlich kann man schlechte Medikamente herstellen und KI für böse Zwecke nutzen. Das ist keine Frage, so etwas wird passieren. Im Großen und Ganzen betrachtet wird es uns aber weiterbringen.
Auch als Optimist muss man aber auf Gefahren vorbereitet sein. Sollte man also nicht Grenzen festlegen?Siri und Alexa im Hotel_18.22
Es ist sehr schwer, die Grenzen vorherzusagen. Wir sind aber in einem Konsortium, etwa mit IBM, um die Ethik von KI zu klären. Es ist ein schwieriges Unterfangen, weil wir Computer-Wissenschaft mit Ethik und Moral vereinbaren müssen, aber es ist meiner Ansicht nach sehr gesund für die Branche, darüber nachzudenken.
Alexa hat zuerst gelernt zuzuhören, dann zu sehen. Wann lernt sie zu laufen?
Laufen ist schwer. Wir haben eine Konferenz zu Maschinenlernen, Automatisierung, Robotik und Weltraum (MARS) und jedes Jahr sind dort auch laufende Roboter. Aber ich habe noch nie einen mit Alexa gesehen. Aber das wird passieren. Ich weiß nicht wann, aber es wird passieren. Wahrscheinlich wird es aber noch ein bisschen dauern.