Schweizer Jugend Forscht

50. Nationaler Wettbewerb 2016

Simon Burkhardt

Bild: Riechsteiner Fotografie, Schweizer Jugend forscht

Wir hatten im Rahmen des Nationalen Wettbewerbs von Schweizer Jugned Forscht nochmals Gelegenheit, unsere Arbeit zu präsentieren.
"Voice Light" erhielt das Prädikat sehr gut

Voice Light

Eine interdisziplinäre Projektarbeit zum Thema Spracherkennung

Simon Burkhardt

In der heutigen Zeit sind digitale Hilfsmittel so weit fortgeschritten, dass die Bedienung bald nicht mehr über eine Tastatur erfolgen wird, sondern über die Sprachsteuerung.

  • Kann man mit einfachen und nutzbringenden Mitteln selber eine Sprachsteuerung entwickeln?
  • Wie sehen die technischen und sprachlichen Schwierigkeiten aus?

Methodik

Als Produkt wollten wir eine Lampe, welche in unterschiedlichen Farben leuchten kann. Realisiert wurde diese mit 12V RGB LEDs unter einem diffusen Lampenschirm. Die Helligkeit der LEDs wird von einem Arduino Mikrocontroller geregelt. Diesen haben wir um ein Bluetooth Modul erweitert, um eine drahtlose Kommunikation zu ermöglichen. Die Sprachsteuerung geschieht dabei auf einem Android Smartphone. Dieses nimmt auf Knopfdruck einen Sprachbefehl entgegen, verarbeitet diesen anschliessend in einen digitalen Befehl und sendet diesen der Lampe zu.

Vorgehen der Spracherkennung

  1. Ein Sprachbefehl wird mit einem Smartphone aufzeichnet. (Abb. 3)
  2. Danach wird ein Spektrogramm berechnet. (Abb 4.)
  3. Dieses wird komprimiert. (Abb. 5)
  4. Anschliessend wird dieses mit verschiedenen Referenzen verglichen. (Abb. 5 vs Abb. 6 vs Abb. 7) So wird das treffendste Wort aus dem Wortschatz bestimmt.
  5. Der erkannte Befehl wird mittels Bluetooth an die Lampensteuerung weitergeleitet.
abb. 3

Abb. 3: Wellenform 1. Aufnahme «On»

abb. 4

Abb. 4: Spektrogramm 1. Aufnahme «On»

abb. 5

Abb. 5: Komprimiertes Spektrogramm 1. Aufnahme «On»

abb. 6

Abb. 6: Zum Vergleich: 2. Aufnahme «On»

abb. 7

Abb. 7: Zum Vergleich: 1. Aufnahme «Bye»

Ergebnisse

Der Wortschatz unserer App umfasst einzelne Wörter wie „on“, „bye“, „white“, „red“, „green“, „blue“, “lighter” und “darker”. Mit diesem Befehlssatz lassen sich die Funktionen der Lampe bequem mit der Sprache bedienen, ohne vom Fauteuil aufstehen zu müssen. Die Sprachsteuerung funktioniert. Mit einem Wortschatz von 8 Wörtern erzielten wir eine Erkennungsrate zwischen 66% und 92%, dies jedoch nur bei einem bekannten Sprecher. Bei dem Test mit einem Sprecher, dessen Stimme nicht in der Datenbank abgelegt war, erzielte diese bei gleichem Wortschatz nur noch eine Trefferquote von 7% bis 42%. Man erkennt eine signifikante Sprecherabhängigkeit unserer Software. Grund dafür ist die variierende Stimmlage von verschiedenen Personen. Zudem hat jeder Mensch eine andere Ausspr ache. Im Weiteren beeinflussen die Mikrophonqualität und Hintergrundgeräusche die Erkennungsrate negativ.

abb 1 abb 2

Abb. 1 (links): Diagramm Sprecherabhängigkeit
Abb. 2 (rechts): Diagramm Vokabulargrösse

Wir haben bewiesen, dass man mit einfachen und nutzbringenden Mitteln eine Spracherkennung entwickeln kann. Sie wurde anschliessend auf eine Vielzahl ihrer Teilfunktionen getestet: Dabei liegt die durchschnittliche Erkennungsrate bei einem der Software bekannten Sprecher deutlich über derjenigen eines fremden Sprechers. Jedoch sinkt die durchschnittliche Trefferquote mit zunehmender Vokabulargrösse

Aufgetrenene Probleme

  • Qualität des Mikrophons
  • Hintergrundgeräusche
  • beschränkte Rechenleistung von Smartphones
  • Wörtertrennung (geringe Verzögerung zwischen schnell gesprochenen Wörtern)
  • unterschiedliche Aussprache von Menschen
  • zeitliche Unterschiede (Zeitverzerrung) (siehe Abb. 8 zur Veranschaulichung)
abb. 8

Abb. 8: Zeitverzerrungen: 3 Aufnahmen der Wörter «Voice Light», gleicher Sprecher, gleiches Mikrophon

Diskussion

Das umfassende Gebiet der digitalen Sprachverarbeitung erwies sich als sehr anspruchsvoll. Es ist also äusserst schwierig ein zuverlässiges und sprecherunabhängiges System zu entwickeln. Die Verbesserungsmöglichkeiten von solchen Systemen sind mit einem exponentiell grossen Arbeitsaufwand verbunden. Man hat schnell einen Algorithmus beisammen, der für einen einzelnen Sprecher akzeptable Resultate liefert. Um das Potential jedoch weiter auszuschöpfen ist viel Aufwand in der Optimierung nötig. Diese zeigt jedoch eine deutliche Sprecher-abhängigkeit. Wir versuchen daher die Abhängigkeit mit Hilfe eines Lernmodus zu umgehen. Dabei kann der Anwender die Sprachsteuerung auf seine eigene Stimme trainieren.

Schlussfolgerung

Es ist unserer Meinung nach erstaunlich, wie schnell man die Grundsteine für ein solch komplexes Software-Projekt wie eine Sprachsteuerung gelegt hat. Man kann grundsätzlich mit einfachen Mitteln mehr von schwierigen Projekten herausholen, als man zunächst denkt. Zu Beginn unserer Arbeit war noch kein vergleichbares Produkt auf dem Markt erhältlich. In der Zwischenzeit sind die HUE-Lichter von Philips mit dem Sprachassistenten Siri kompatibel und können per Sprachbefehl auf dem Smartphone gesteuert werden. Somit haben uns die Marktgiganten auf diesem Gebiet eingeholt, was deutlich zeigt, dass eine Nachfrage und damit eine Kundschaft vorhanden ist. Die Sprachsteuerung ist eine bequeme Alternative zum manuellen Lichtschalter.