Freund hört mit

by Volker Weber

[Für die Aluhüte vorneweg: Für eine Wanze braucht man einen Schallwandler, einen Speicher und einen Kommunikationskanal. Am einfachsten geht das mit einem Android-Handy. Im Prinzip reicht auch ein PC-Lautsprecher. Alles eine Frage der Software.]

Also, was machen diese Alexas, Assistants, Cortanas, Siris und, ähemm, Bixbys? Machen wir es am Beispiel Alexa. Die Spracherkennung teilt sich grob in zwei Teile:

  1. Ein Mikrofon-Array nimmt permanent den Raumklang in einen Ringspeicher auf. Ring meint, der Speicher wird ständig überschrieben. Es passen nur ein paar Sekunden rein. In diesem Speicher isoliert die Software menschliche Stimmen und versucht, das "Wakeword" zu finden. Alexa kennt vier verschiedene: Alexa, Amazon, Echo und Computer. Es hat was von Star Trek, wenn man sagt "Computer, schalte das Licht aus". Aber es funktioniert bei mir nicht so gut. Das ist übrigens hart programmiert. Man kann kein eigenes Wakeword definieren, sonst hieße es bei mir "Schackeliene". Sonos versteht übrigens nur "Alexa", in Zukunft dann auch mal "Google".
  2. Sobald das Wakeword gefunden ist, passiert etwas Neues: Echo (oder Sonos) signalisieren sowohl optisch als auch durch einen Ton, dass Alexa wach geworden ist und jetzt zuhört. Alles, was Alexa jetzt hört, wird zu Amazon ins Backend übertragen und dort analysiert. Aus Klang wird Sprache. Was Alexa da versteht, kann man in der Alexa App später noch nachlesen (und löschen). Dieser Teil ist programmierbar. Neue Skills können den Text interpretieren und Aktionen auslösen.

Nach der Phase 2 geht Alexa wieder in die Phase 1 und wartet wieder auf das Wakeword. Die Entwicklung geht aktuell schon weiter. Bei der US-amerikanischen Version schaltet Alexa nicht gleich wieder in Phase 1. Man kann mehrere Kommandos nacheinander absetzen. Den Unterschied zwischen Phase 1 und Phase 2 kann man übrigens sehen, wenn man den Router monitort.

c2c2a8abe93a1451bb821df1d25084a9 adf6edc71d94d089c1590414246dc86a

In Zukunft wird man mehr von dieser Spracherkennung Richtung Endgerät auslagern. Die Prozessoren werden schneller, die Speicher größer. Apple braucht für Siri noch das Backend, würde das aber lieber lokal machen. Auch Microsoft redet viel von "the edge" und meint damit den Client.

Warum spielen alle Hersteller dieses Spiel? Weil es um viel geht. Sprache wird als das nächste Interface angesehen. Alexa ist für Amazon, wie auch die Dash Buttons, eine möglichst niedrige Schwelle zwischen Wunsch und Bestellung. Wer eine Alexa in der Bude hat, sollte seinen Warenkorb gut kontrollieren. Wer weiß, was sich die lieben Kleinen wieder alles gewünscht haben? Die Möglichkeit, per Sprache einzukaufen, lässt sich übrigens auch deaktivieren oder mit einer PIN-Sperre schützen.

Was Sonos und Echo gemein haben: Alexa lässt sich leicht abschalten, und das muss man manchmal auch machen, speziell wenn man über Alexa reden will. :-) Beim Sonos geht ein Licht aus, bei den Echos leuchtet ein roter Ring. Dabei werden die Mikrofone einfach abgeschaltet.

Und welche nun? Alexa funktioniert im Augenblick am besten, Assistant weiß am meisten, Cortana ist ein Nervkeks, Siri leider zu doof und Bixby existiert nur als schlechtes Beispiel.

Comments

Manche Skills lassen dich auch in Phase 2 - z.B. Abfallkalender. Ist irritierend, wenn man sofort danach wieder einen "normalen" Befehl absetzen will, aber zuerst einmal aus dem Skill "raus" muss.

Bernd Schuster, 2018-04-09

Danke für diese einfache Beschreibung. Ich denke ich werde demnächst mal für die Radiosteuerung Alexa auf unseren Sonos One aktivieren und testen. Bin sehr gespannt ob wir damit was anfangen können.

Bei der Apple Watch hab ich erst spät rausgefunden das man nach „Siri“ nicht erst pausieren muss bis die Uhr im Display zeigt das es das Wake-Wort erkannt hat, sondern direkt den Befehl normal nach „Siri, ...“ weiter sprechen kann.

Wie ist das beim Sonos/Alexa?

Matthias Welling, 2018-04-09

Genauso. In dem Ringspeicher ist genug drin, dass da nichts abreisst.

Volker Weber, 2018-04-09

Radio geht übrigens gut beim Sonos One. Ich kann Radio aber wegen der Werbung und der hyperaktiven Sprecher nicht aushalten. Wenn Sonos One in der Küche steht, kann man noch viele andere Dinge machen, ohne mit fettigen Fingern irgendwas anzufassen. "Alexa, wie lange kochen Kartoffeln?" oder sowas. Eieruhr, lauter, leiser, stop. Bei einer Playlist auch "nächstes Lied". Da geht schon ganz viel.

Volker Weber, 2018-04-09

Ob das Mikrofon wirklich abgeschaltet wird oder nur nicht reagiert bleibt noch zu beweisen ;)

Frank Köhntopp, 2018-04-09

Siehe oben erster Absatz. Jedes Mikrofon. Am besten im Handy.

Volker Weber, 2018-04-09

@Frank.

Hier wurde das mal ausführlicher erklärt, wenn auch nicht aus erster Hand..

https://np.reddit.com/r/Showerthoughts/comments/7m91u9/if_google_devices_only_start_listening_once_you/drsdxe1/


Weiterhin gibt es einige "teardowns" die "beweisen" das der Mute-Button rein hardwaremäßig und nicht softwaremäßig funktioniert.

Fakt ist aber, dass es diesen Schalter bei Smartphones definitiv nicht gibt, dort hat man nur die Hoffnung :)

Stephan Herz, 2018-04-09

Danke für die Aluhüte, selten so gelacht ... ich finde es auch immer putzig wenn Kollegen die Kamera am Laptop abkleben (das natürlich im gesicherten Firmenintranet eingeloggt ist), das Mikrofon aber offen bleibt und daneben das Handy offen rumliegt.
Übrigens reagiert Alexa auch auf "Eidechse" hat mir ein Kollege gesteckt - aber Schakeline geht leider nicht.

Axel Koerv, 2018-04-09

Sehr anschaulicher Bericht, danke! Mir fehlt - wie bereits in einem anderen Post kommentiert - immer noch DAS Feature, dass eine Anschaffung rechtfertigt.

Tobias Vogel, 2018-04-10

Sorry, aber ich traue dem Ganzen nicht. Wer garantiert mir zum Beispiel, dass nicht Phase 1 einfach übersprungen wird? Jede Software hat Fehler und in jeder Firma sitzen an den falschen Stellen unzuverlässige Leute. Bei der derzeitigen politischen Lage wissen wir doch gar nicht mehr wer Freund oder Feind ist.

Ja, Handys und PCs kann man auch abhören. Aber das ist ein anderes Thema.

Maik Endler, 2018-04-10

Du musst dem nicht trauen. Das Schöne am Aluhut-Dasein ist ja, dass man alles nur in den Raum stellen muss. Wenn Du Dich allerdings mit Netzwerk-Monitoring auskennst, dann siehst Du den Unterschied zwischen Phase 1 und Phase 2 sofort.

Hast Du eigentlich ein Handy?

Volker Weber, 2018-04-10

Ich wusste, dass das mit dem Netzwerk-Monitoring kommen wird und ich weiß worauf Du raus willst. :-) Ja, ich habe ein Handy, sogar mit Android. Ich trage jedoch keinen Aluhut.

Als Softwaretester betrachte ich solche Gadgets generell kritisch. Ich sehe hier nur ein großes Mikrofon und eine permanente Verbindung ins Internet.

Als Kind träumte ich auch davon, dass wir in der heutigen Zeit mit bunten Kisten durch die Luft fliegen und wir uns alle lieb haben :-)

Als Jugendlicher lernte ich die Stasi kennen und auch die Erfahrung, dass es ein scheiß Gefühl ist, wenn Dein Gegenüber jedes intime Detail über Dich weiß.

Aber es kann ja jeder machen was er will. Das war nur meine persönliche Meinung.

Maik Endler, 2018-04-10

Ja, ich versehe das. Ich wundere mich nur, dass Du Dich vor dem Einen fürchtest, aber nicht vor dem Anderen. Zumal es für das Andere ja schon die einsatzbereite Software gibt, mit der man Dich abhören kann.

Ockhams Rasiermesser: Von mehreren möglichen Erklärungen für ein und denselben Sachverhalt ist die einfachste Theorie allen anderen vorzuziehen.

Meine Meinung: Die Menschen haben vor dem Angst, was sie nicht verstehen.

Volker Weber, 2018-04-10

"Alexa - zahl' Deine Steuern!"
"Nö."

(Gesehen bei Perscheid)

Juergen Heinrich, 2018-04-11

Die echten Antworten lauten:

"Ich bin mir leider nicht sicher"
"Du-düt"
"Da bin ich mir leider nicht sicher"
"Nein" (tatsächlich!)

Volker Weber, 2018-04-11

@vowe Schoen, dass wir das geklaert haben ;-)

Juergen Heinrich, 2018-04-11

Offenbar muss man Alexa nur oft genug fragen, bis sie mit der Wahrheit rausrueckt. Wie menschlich.

Juergen Heinrich, 2018-04-11

Old vowe.net archive pages

I explain difficult concepts in simple ways. For free, and for money. Clue procurement and bullshit detection.

vowe

Paypal vowe