Entwicklung und Anwendung von Spracherkennungssystemen
Wenn man in viele Häuser auf der ganzen Welt schaut, findet man oft einen oder vielleicht sogar mehrere kleine Lautsprecher, die allgegenwärtig herumstehen. Für die Bewohner dieser Häuser sind diese kleinen Helfer zu wichtigen Teilen ihres Lebens geworden, die mit ihnen Verabredungen, Reiseplanungen, Einkaufslisten und sogar Wetterberichte teilen. Wir verlassen uns auf sie, um unser Leben zu vereinfachen und um uns zu unterhalten.
Jedoch waren diese „Smart Speaker“ nicht der erste Einstieg in die Spracherkennung. Mit Apple und Siri machte die Spracherkennung in den frühen 2010er Jahren einen Riesenschritt vorwärts und hat uns geholfen, dahin zu kommen, wo wir heute sind. Allerdings entstand diese Technologie nicht über Nacht, sondern ist das Resultat jahrzehntelanger Entwicklung.
Das Verständnis von Spracherkennung
Sprache und Sprechen hat eine Jahrtausende lange Tradition. Im Gegensatz dazu ist die Informatik noch eine sehr junge Entwicklung. Spracherkennungssoftware oder Spracherkennungstechnologie sind Versuche, diese beiden Dinge zusammenzubringen, sodass Computer menschliche Sprache erkennen und darauf reagieren können.
Spracherkennung ist allerdings unglaublich komplex. Wenn Kinder heranwachsen, lernen sie durch Beobachten und Hören der verschiedenen Geräusche, die um sie herum sind. Mit der Zeit assoziieren sie verschiedene Geräusche mit Wörtern und speziellen Gegenständen. Ihr Gehirn bildet eindeutige Muster, die sie ihr ganzes Leben begleiten, sie helfen ihnen Betonung zu erkennen und wie der Tonfall und das Klangbild die Bedeutung des Gesagten beeinflussen.
Einen Computer zu trainieren, ist in gewisser Weise ähnlich und zugleich auch sehr unterschiedlich. Menschen lernen Sprachen meist recht mühelos, aber das ist hauptsächlich deshalb so, weil wir gelernt haben, wie das Lernen bei Kindern funktioniert. Aber wir haben bis jetzt diese Erkenntnis noch nicht für Computer. Was wir allerdings wissen, ist, dass wir sehr viele Daten und viel Forschung benötigen, um Computer zu „erziehen“. Obwohl wir schon die wichtigen Schritte gemacht haben, um die Genauigkeit von Spracherkennungssystemen zu verbessern, ist noch viel Arbeit notwendig, damit Computer noch besser verschiedene Dialekte und Sprachen verstehen können. Heutzutage funktioniert die Spracherkennung recht gut für die alltäglichen Dinge des Lebens. Tatsächlich behaupten Unternehmen wie Google und IBM, dass ihre Sprachalgorithmen mit fast 96-prozentiger Genauigkeit arbeiten – aber um zu diesem Ziel zu kommen, braucht es viel Zeit und Anstrengung.
Tipp
Beauftragen Sie tausende von Sprachaufnahmen in den Sprachen und Dialekten, die Sie benötigen, um Ihr Spracherkennungssystem zur Perfektion zu trainieren.
Erfahren Sie mehr über den Service Audiodatensätze von clickworker
Die Geschichte der Spracherkennung
Das erste echte Spracherkennungssystem ist in den frühen 50er-Jahren entwickelt worden. Dieses System, genannt „Audrey“, wurde von den Bell Laboratories entwickelt und hatte das Ziel, Zahlen zu verstehen. Im darauffolgenden Jahrzehnt entwickelte IBM ein System, das auf 16 Wörter antworten konnte und „Shoebox“ genannt wurde.
In den 70er-Jahren wurde ein Riesensprung im Bereich Spracherkennung gemacht, insbesondere durch die Hilfe der US-Regierung und DARPA. Dank der Hilfe von DARPA entwickelte Carnegie Mellon das System „Harpy“, das in der Lage war, 1000 Wörter zu verstehen. Um dies einmal in Relation zu setzen: Das ist in etwa die Menge, die ein 3-jähriges Kind verstehen kann.
In den achtziger und neunziger Jahren wurden kontinuierliche Fortschritte im Bereich Spracherkennung gemacht, aber es dauerte bis in die Zweitausender, bis es zu einer echten Veränderung kam. Anfang der Zweitausender war die Spracherkennung etwa zu 80 % genau, aber mit der Einführung von Google Voice und seinen Clouds wurde die Genauigkeit sehr schnell noch weiter gesteigert.
Google konnte die Sprachsuche mit den aktuellen Suchergebnissen verbinden, um davon zu lernen und besser zu verstehen, wonach die Nutzer suchen. Mit der Einführung von Siri im Jahr 2011 stieg Apple mit in das Rennen um die Spracherkennung ein und half uns dahin zu kommen, wo wir heute sind: bei einer Genauigkeitsrate von nahezu 96 %.
Wie Spracherkennung genutzt wird
Wenn Sprechgeschwindigkeit mit Schreibgeschwindigkeit verglichen wird, ist der Gewinner eindeutig und klar: Menschen können im Durchschnitt 150 Wörter pro Minute sprechen, aber im Vergleich dazu nur etwa 40 Wörter pro Minute tippen. Die entscheidende Frage ist also, warum sprechen wir nicht alle mit unserem Computer, anstatt in ihn hinein zu tippen?
Die Wahrheit ist aktuell immer noch, dass die Beschränkung in der Zuverlässigkeit liegt. Während die Spracherkennung für sich eine Genauigkeit von 96 % behauptet, ist diese nur unter ganz bestimmten Bedingungen zu erreichen. Wenn verschiedene Sprachen und Akzente oder Dialekte ins Spiel kommen, sinkt die Genauigkeitsquote ziemlich schnell.
Damit Sprache ein übliches Mittel zur Eingabe wird, muss das Gerät in der Lage sein, alle anhaftenden Probleme in unserer Sprache zu verstehen und zu lösen. Aspekte wie zum Beispiel der Gleichklang, bei dem Wörter gleich ausgesprochen werden, aber eine unterschiedliche Bedeutung haben, können dazu führen, dass selbst Menschen nicht sicher sind, was gesagt wurde. Computer haben dann dasselbe Problem.
Abgesehen von diesen Grenzen, preschen Spracherkennungssysteme in vielen verschiedenen Bereichen vor. Während sie bereits auf Smartphones installiert sind, sind sie nun auch für Smart Speaker, Computer, Autos und sogar für Smartwatches verfügbar. Die Zukunft der Spracherkennung mit ihren vielen verschiedenen Einsatzgebieten beleibt spannend und faszinierend.
Sprache am Arbeitsplatz
Spracherkennung hat bereits Auswirkungen auf Unternehmen mit verschiedenen Geschäftsanwendungen in fast allen Bereichen. Früher war ein persönlicher Assistent etwas, das sich nur der sehr erfolgreiche Führungskräfte leisten konnten. Heute kann sich fast jeder einen Digitalen Assistenten auf Basis von künstlicher Intelligenz leisten, der ihm seinen Terminplan organisiert.
Zusätzlich zur Erleichterung der Arbeit kann Sprache auch die Effektivität verbessern, indem sie die Geschwindigkeit beim einfachen Diktieren eines Textes erhöht, um ein perfektes Dokument zu erstellen. Auch der Schutz der Arbeitsstätte vor Dritten kann durch die Nutzung von Spracherkennung in Verbindung mit biometrischen Informationen statt Magnetkarten verbessert werden.
Echtzeit Übersetzungen
Es gibt schon viele Unternehmen, die Echtzeit-Übersetzungs-Hardware entwickeln und hierfür die Spracherkennung einsetzen. Diese Übersetzer übertragen Gesprochenes in diverse Sprachen und senden im Handumdrehen die fertige Übersetzung.
Während diese Technologie helfen kann, die Kommunikation für viele auf der Welt zu verbessern, ist sie durch momentan verfügbare Sprechmuster und Sprachen begrenzt. Diese Begrenzungen werden aber sicherlich bald durch den bereits in der Entwicklung befindlichen Fortschritt aufgelöst.
Sprache im Kundenservice
Kunden hassen es, auf einen bestimmten Service zu warten. Dies haben Banken bereits realisiert und mit der Sprache gibt es nun die Möglichkeit, diese Limitierungen aufzuheben. Die Royal Bank of Canada (RBC) zum Beispiel lässt Kunden, allein durch Einsatz ihrer Stimme und mit Siri, ihre Rechnungen bezahlen und Geld überweisen.
Andere Banken ermöglichen Kunden ihren Kontostand zu überprüfen, Zahlungstermine abzuhören und sogar Zahlungen mithilfe von Alexa durchzuführen. Diese Technologie ist noch in einem frühen Stadium der Entwicklung, verspricht aber, Hürden aus dem Weg zu räumen.
Sprache ist aber nicht nur für Banken interessant. Auch Einkaufen kann sehr mühsam sein, insbesondere für Produkte, die schwer zu finden sind. Amazon und Alexa können bei diesem Problem helfen – nämlich einfach durch Benutzung der Sprache, um zusätzliche Artikel basierend auf dem bisherigen Einkaufsverhalten zum Warenkorb hinzuzufügen.
Fazit
Wir sind an einem entscheidenden Punkt hinsichtlich der Entwicklung von Spracherkennung angelangt. Spracherkennung wird nicht nur immer anspruchsvoller in der Entwicklung, auch werden immer mehr Anwendungsbereiche wichtig. Es sind schon Millionen von Sprachassistenten auf dem Markt – und die Zahl wird in Zukunft weiter steigen.
Vielleicht ist der beste Weg zu verstehen, was die Zukunft in Bezug auf Spracherkennung für uns bringen wird, ein einfaches Zitat von Brian Roemmele:
“The last 60 years of computing, humans were adapting to the computer. The next 60 years, the computer will adapt to us. It will be our voices that will lead the way; it will be a revolution and it will change everything.”