Testbericht

Spracherkennung im Test: Dragon Naturally Speaking

In Zeiten von Siri, Googles Sprachsuche und Unterhaltungen mit dem Fernseher wollte ich wissen, wie weit die Spracherkennung am PC mittlerweile fortgeschritten ist und habe das neue Dragon Naturally Speaking 12 von Nuance ausprobiert.

In Zeiten von Siri, Googles Sprachsuche und Unterhaltungen mit dem Fernseher wollte ich wissen, wie weit die Spracherkennung am PC mittlerweile fortgeschritten ist und habe das neue Dragon Naturally Speaking 12 von Nuance ausprobiert.

Datenaustausch© violetkaipa / Fotolia.com

Siri auf dem iPhone 4S, Googles Sprachsuche und -befehle in Android oder Fuchtel-Fernbedienungen mit Mikrofon: das Thema Spracherkennung breitet sich immer weiter aus – und scheidet doch die Geister, denn nicht jeder kann damit etwas anfangen. "Zu kompliziert, langsamer als selbst zu tippen, zu fehleranfällig", sagen die einen, "praktisch und zeitsparend", sagen die anderen. Ich persönlich nutze Sprachassistenten gerne, wenn sie mich denn verstehen. Auf die Diktierfunktion beim neuen iPad möchte ich nicht mehr verzichten: Auch wenn wir immer mal wieder unsere Verständigungsschwierigkeiten haben, kurze, einfache E-Mails sind trotzdem schnell diktiert. Ein guter Zeitpunkt, um zu schauen, mit welchen Fähigkeiten eine Spracherkennungssoftware für den PC mittlerweile gesegnet ist. Hierzu habe ich das neue Dragon Naturally Speaking 12 für Windows von Nuance ausprobiert. Das Programm verspricht eine noch bessere Erkennungsgenauigkeit als bei der Vorgängerversion und außerdem eine benutzerfreundliche Bedienung, mit verpackt ist eine umfangreiche Sprachsteuerung für den PC. Klingt gut, erfordert aber etwas Einarbeitung, wie sich später zeigte.

Installation und Einarbeitung

Während der Installation legt Dragon ein persönliches Sprachprofil an, in dem Informationen wie die Stimmlage, Sprechgeschwindigkeit und Akzent des Nutzers gespeichert werden. Nach der jeweiligen Sprache wird zur besseren Einordnung auch das Alter erfragt, diese Angabe ist aber freiwillig. Jedenfalls wird das Profil nach und nach verfeinert und die Erkennung verbessert, zur Verarbeitung der aufgelaufenen Änderungen kann täglich oder wöchentlich ein Zeitfenster reserviert werden. Ist die Installation abgeschlossen, wird das beiliegende Headset eingerichtet. Es ist ein günstiges Modell mit Klinkensteckern, sitzt etwas stramm, aber dennoch nicht unbequem. Wer möchte, kann ersatzweise auf einen Bluetooth-Kopfhörer mit Mikrofon oder via App auf ein Android-Smartphone oder iOS-Gerät zum Reinsprechen zurückgreifen. Die Überprüfung der Aufnahmequalität musste ich mehrfach über mich ergehen lassen und die Dezibel-Zahl in den Sound-Optionen von Windows erhöhen, um endlich ein "ausreichend" anstelle eines "fehlgeschlagen" zu erhalten. Dragon legt sich nach der Installation als Leiste oberhalb sämtlicher Anwendungen ab, diese lässt sich im Nachhinein auch an eine andere Stelle verschieben.

Kurzes Training, kurzes Lernprogramm und los gehts

Anschließend geht das Training los. Bildschirmanweisungen geben kurze Textpassagen vor, so beginnt das Programm zu lernen und informiert gleichzeitig über die Funktionsweise und Features der Software. Die darauffolgende Verarbeitung der Sprachdaten dauerte etwa sechs Minuten. Auf einem performanteren System als meines (AMD Athlon X2 Dual-Core 5000+ mit 2,6 Gigahertz, 3,37 Gigabyte nutzbarer RAM) mag das schneller gehen. Wer der Angabe von Nuance nicht traut, dass bereits zu Beginn bis zu 99 Prozent des Gesagten verstanden wird, kann die Spracherkennung an dieser Stelle mit Kontaktnamen und E-Mails aus Outlook, Windows Live Mail oder Lotus Notes sowie Dokumenten in bestimmten Dateiformaten füttern, um persönliches Vokabular mit einzuarbeiten. Alternativ lässt sich das auf später verschieben und manuell immer wieder aufrufen. Bevor es richtig losgeht, empfiehlt es sich noch, das Lernprogramm durchzugehen, was weniger zeitaufwendig ist als man vermuten könnte.

Überall diktieren

Am umfangreichsten sind die Möglichkeiten, wenn Microsoft-Programme genutzt werden. Doch auch Mozilla Thunderbird, Firefox oder OpenOffice zählen zu den unterstützten Programmen. Generell lässt sich jedes Textfeld zur Eingabe nutzen, alternativ steht mit DragonPad ein eigener Editor bereit. Ist kein Cursor platziert, öffnet sich beim Sprechen ein Eingabefenster, das den Gedanken festhält. Texte ohne besondere Schwierigkeiten konnte Dragon 12 tatsächlich sofort ohne große Schnitzer verstehen, obwohl ich die Informationsfütterung verschoben und keine weiteren Übungstexte eingelesen hatte. Um ein möglichst gutes Ergebnis zu erreichen, sollte getreu dem Motto "erst denken, dann reden" in zusammenhängenden Sätzen und in natürlicher Sprechweise diktiert werden, da das Programm dann auf Kontextinformationen zurückgreifen kann. Wer probeweise wie ein Roboter spricht oder zwischendurch ins Stocken gerät, hat aber dennoch gute Chancen, verstanden zu werden - wie ich gemerkt habe. (Allerdings musste ich "ins Stocken gerät" ein zweites mal sprechen, beim ersten Versuch verstand das Programm fälschlicherweise "Starte Mahjong Titans" und tat genau das?!) Nach einzelnen Sätzen so lange zu warten, bis der Text erscheint, ist völlig unnötig. Stattdessen kann einfach weiter diktiert werden.

Schwierig wurde es dann, als ich Texte aus unserer Computer-Rubrik vorgelesen habe. Komplizierte Wortneuschöpfungen, Modellbezeichnungen einer Grafikkarte oder Ungetüme wie "Core-i7-Quad-Core-Prozessor" führten zu Missverständnissen, wie "Chor" statt "Core". So kam ich nicht darum herum, der Dragon-Software einige News und Testberichte vorzusetzen und ihr neue Vokabeln wie "Ultrabook" oder "Vaio" anzutrainieren. Damit sie beim nächsten mal erkannt werden, müssen sie vorgesprochen werden. In der Praxis klappt das auch sehr gut: Anschließend ließen sich ein Artikel über ein neues Ultrabook und ein Diktat zum Thema TFT-Monitore inklusive Kürzeln wie "HDMI" oder "Dual-Link DVI" mit nur sehr wenigen Fehlern in einen Text umwandeln. Einen ähnlichen Versuch unternahm ich mit einem Text von einer Website einer Airline. Zunächst wurden Begriffe wie "Einchecken", "Boarding" oder "nachbuchen" entweder völlig missverstanden oder falsch geschrieben. Nach einigen manuellen Korrekturen und Neuaufnahmen in die Vokabelliste konnte auch dieser Text korrekt verstanden werden. Bei Texten aus den Rubriken Politik und Wissenschaft habe ich festgestellt, dass Orte und Tierarten kaum Probleme bereiten, Namen aber unter Umständen schon.

Die Maus bleibt unverzichtbar

Leerzeichen oder die Großschreibung am Satzanfang werden selbstständig vorgenommen. Für die Schreibung von Zahlen, Daten oder Prozentangaben bringt Dragon SmartFormat-Regeln mit, die sich an den Nutzer anpassen sollen. Wer "3 Prozent" statt "3 %" bevorzugt, muss dies nicht immer wieder korrigieren. Kniffelig ist es hingegen, wenn Begriffe ausgeschrieben werden sollen, die mit einem Befehl übereinstimmen, oder umgekehrt, wenn ein Sprachbefehl ausgeführt werden soll, das Programm diesen aber als Text interpretiert und niederschreibt. Generell ist es am Anfang verwirrend zu sehen, wie viele verschiedene Sprachbefehle es gibt. Die beiliegende Kurzübersicht listet bereits um die 100 Ausdrücke auf. Allerdings sind diese natürlich nicht alle nötig, um einfache Texte zu diktieren. In diesem Fall reicht es aus, Befehle für eine neue Zeile, einen Absatz oder zum Korrigieren von Wörtern zu kennen. Notfalls ist es auch an jeder Stelle möglich, Maus und Tastatur zu Hilfe zu nehmen. Gerade bei umfangreicheren Korrekturen ist das in der Regel auch der schnellere Weg. Und kryptische Produktnamen aus Buchstaben und Ziffern habe ich lieber eben getippt als Ketten wie "Groß S, klein e, Ziffer 3, Groß m" vorsprechen zu müssen.

Extras: Computer steuern, mobil diktieren, twittern

Auch wenn es Dragons Hauptaufgabe ist, Sprache in Text umzuwandeln, kann das Programm noch einiges mehr, zum Beispiel den Computer steuern. Über eine Vielzahl von Sprachbefehlen lassen sich Programme öffnen oder schließen, neue E-Mails verfassen oder alte Nachrichten löschen, Suchanfragen in Bing, Wikipedia und auf dem eigenen Rechner starten, die Systemsteuerung anzeigen und Fenster wechseln. Sogar der Mauszeiger kann per Sprache gesteuert werden. In der Premium-Version von Dragon Naturally Speaking sind Excel- und Word-Tabellen erstellbar und unterwegs Diktate mit dem iPhone, iPod oder Android-Handy aufnehmbar, um sie später zuhause am PC schreiben zu lassen. Zudem können die Web Mail-Programme Gmail und Hotmail (auch in Chrome) einbezogen und Tweets und Status-Updates bei Twitter beziehungsweise Facebook allein per Spracheingabe angestoßen werden.

Praxiseindruck zur PC-Steuerung

Aber nicht alles wollte so, wie ich es gerne hätte. Insbesondere das Steuern des Mauszeigers per Stimme ist ungewohnt, ein gesprochenes "Stopp" wollte Dragen in LibreOffice nicht verstehen und markierte weiter fröhlich Text, im eigenen Editor war das aber problemlos möglich. Auch das Auswählen der verschiedenen Felder in E-Mails ist ein Beispiel für eine Funktion, die nicht jedermanns Sache ist, zumindest nicht meine; ich greife lieber weiterhin selbst zur Maus, um zwischen Adress- und Betreffzeile zu wechseln. "Wikipedia" wollte Dragon partout nicht verstehen, öffnete dafür aber manchmal ICQ oder den Windows-Dialog für Wählverbindungen, während ich einen Text - meiner Meinung nach ohne entsprechende Schlagworte - diktierte. Hier hilft es, den Modus auf reines Diktieren oder aber Befehle umzustellen. Twittern, Googeln und die Diktatfunktion für mobile Geräte klappten wiederum auf Anhieb. Auch an das Öffnen und Schließen von Anwendungen oder System-Elementen per Sprachbefehl, ebenfalls reibungslos, kann man sich aus Bequemlichkeit schnell gewöhnen. Den Desktop anzeigen, die Systemsteuerung aufrufen (und per "Klick System" schnell zum Unterpunkt), den Browser oder iTunes starten – das alles ist schon sehr praktisch. Wer mit Maus und Tastatur zügig unterwegs ist und Shortcuts nutzt, wird daher vielleicht keinen Vorteil in der Sprachbedienung sehen, den Mausarm schont es allemal.

Nuance erwähnt zwar in den Systemvoraussetzungen, dass ein Intel Atom Prozessor mit 1,66 Gigahertz und 2 GB Arbeitsspeicher für Windows 7 32-Bit ausreichen, ein schnelleres System kann jedoch nicht schaden. Der AMD Dual-Core-Prozessor war während des Sprechens zum Teil zu mehr als 60 Prozent ausgelastet. Wie lange die Verarbeitung des gesprochenen Textes in Anspruch nimmt, hängt vom Schwierigkeitsgrad beziehungsweise davon ab, wie geübt das Programm bereits ist. In der Regel vergingen nur einige Augenblicke, bis das Gesprochene zu Schrift wurde. Wenn aber mehr Rechenzeit zur Verfügung steht, können mehr Alternativen durchgerechnet werden, erklärte uns die für Nuance zuständige PR-Agentur. Dann liege das Ergebnis nicht nur schneller vor, sondern sei auch besser.

Fazit: Textumwandlung leichter als Steuerung

Wer bereit ist, sich ein bisschen in die Spracheingabe einzuarbeiten, der kann mithilfe von Dragon Naturally Speaking einiges an Schreibarbeit einsparen und die Maus immer mal wieder ruhen lassen. Das gilt nicht nur für Nutzer, die das 10-Finger-Schreiben noch nicht geübt haben oder eher langsam tippen, auch Schnellschreiber profitieren davon. Je höher die Motivation und das Interesse an den Möglichkeiten des Programms ausfallen, desto größer ist auch der Nutzen. Ich kann mir gut vorstellen, Texte häufiger zu sprechen statt zu schreiben. Von der PC-Steuerung würde ich aber nur einige Funktionen nutzen, da es mit der Maus doch oft schneller geht - nicht nur durch Missverständnisse, sondern auch bis zur Ausführung.

Die Software ist auch für Neulinge ganz gut zu bedienen, die Vielzahl der Funktionen kann jedoch erschlagend wirken. Glücklich kann sich schätzen, wer einen großen Breitbild-Monitor nutzt. Denn die Randleiste, die sich mit ihren Tipps und dem Befehls-Wortschatz an das jeweilige Programm anpasst, nimmt bereits ein Drittel des Bildschirms in Beschlag. Ist man an zwei parallele Fenster gewöhnt, wird der Platz also arg knapp. Sind die wichtigsten Befehle antrainiert, kann man aber auf die Leiste verzichten und sie nur noch bei Bedarf einblenden.

Mac-Nutzer müssen auf Dragon nicht verzichten; die neue Version Dragon Dictate für Mac 3 steht für 149 Euro bereit.

Name: Dragon NaturallySpeaking 12
Hersteller: Nuance
Internet: www.nuance.de
Preis: UVP: 99 Euro für die Home-Version, 149 Euro für die Premium-Version


z.Z. ab 89,90 Euro
Technische Daten
Betriebssystem: Windows 7, Vista SP2, XP SP3 32-bit, Windows Server 2008 SP2 und R2
Systemvoraussetzungen: Minimum: Intel Pentium oder vergleichbarer AMD Prozessor mit 1 Gigahertz oder Intel Atom mit 1,66 Gigahertz; empfohlen: Intel Dual-Core mit 2,2 Gigahertz.
> 1 Gigabyte RAM für Windows XP und Vista; > 2 GB für Windows 7 und Windows Server 2008. Empfohlen werden 2 bzw. 4 GB.
> 4,5 GB freier Festplattenspeicher
Pro & Contra:
gute Erkennungsrate
lernt schnell dazu
Input durch Dokumente und Mails
umfangreiche PC-Steuerung
viele Funktionen (Premium)
zahlreiche Hilfestellungen
für gute Ergebnisse kurze Einarbeitung nötig
komplex
Gesamtbewertung:gut
Preis-Leistung: gut

(Saskia Brintrup)

Zum Seitenanfang