Microsoft Text To Speech (TTS) Sprachausgabe für Windows ######################################################## Nachfolgend wird nur eine kurze Übersicht gegeben, die als Anreiz dienen soll, sich mit Sprachausgabe zu beschäftigen, wobei Microsoft nicht der einzigste Anbieter für Sprachausgabe ist. Die Sprachausgabe (TTS) von Microsoft dient dem Vorlesen von Text. TTS kann auch mit Fremdtools benutzt werden, die nicht von Microsoft stammen. mehrsprachig wiedergeben ist teilweise unter Windows bereits installiert (mindestens ab Win XP) abhängig von der Windows-Version läuft nicht mit allen Soundkarten z.B. macht unter Win XP SP2 die Creative Labs SB Xtrem SB 04060 Probleme, aber TTS unter Win XP SP1 funktioniert. benötigt das Laufzeitsystem SAPI als Schnittstelle zu TTS-Anwendungen. benötigt für die Animation der Sprachausgabe mit Figuren (Charakteren, Agenten) den Microsoft Agent die Charaktere selbst z.B. per www.msagentring.org/ www.abhisoft.net/mass/ (Charaktere sind per MS Agent an die Sprachausgabe gekoppelt können zusätzlich Sound haben). kann teilweise über ein Control in der Windows-Systemsteuerung konfiguriert werden (Sprachein- und -ausgabe-Control). kann um eine Spracheingabe-Maschine erweitert werden. kann anhand eines zur SAPI-Version passenden Software Developer Kits (SDK) programmiert werden z.B. per Visual Basic (SDK stellt Microsoft bereit). Download der TTS-Komponenten ============================ Die Software "Language Reader" (Editor mit Sprachausgabe) ermöglicht den einfachen Komponenten-Download. gibt es auf www.authorsoft.com/language-reader.html. Bevor man Komponenten ohne z.B. Hilfe per o.g. Language Reader installiert, prüfe man, was alles vom TTS schon installiert ist. Typisches Kennzeichen ist z.B. für Windows XP das Control in der Systemsteuerung zur Sprachein- und -ausgabe. Mircosoft stellt SAPI der TTS kostenlos zur Verfügung (inklusive den Software Developer Kits (SDK). Leider sind Webadressen (Url's) von Microsoft z.T. ersatzlos kurzlebig. Hier eine kleine Url-Auswahl: SAPI 4.01 http://www.go-ww.de/MSAGENTS/spchapi.exe SDK 5.1 Download http://www.microsoft.com/downloads/details.aspx? FamilyID=5e86ec97-40a7-453f-b0ee-6583171b4530&DisplayLang=en 1 Zeile !! SDK 5.3 Infos zu Tools, Examples http://msdn2.microsoft.com/en-us/library/ms720406.aspx MS Agent unter ab Win 9 ME müsste MS Agtent bereits installiert sein, ansonsten http://www.microsoft.com/msagent/ http://activex.microsoft.com/activex/controls/agent2/MSagent.exe http://www.go-ww.de/MSAGENTS/msagent.exe http://msdn2.microsoft.com/en-us/library/ms695784.aspx http://www.agentdownload.de/ MS Agent german http://www.go-ww.de/MSAGENTS/agtx0407.exe TTS-Engine amerikanisch (Lernout & Hauspie TruVoice American English TTS Engine) http://www.go-ww.de/MSAGENTS/tv_enua.exe englisch (L&H TTS3000 British English) http://www.go-ww.de/MSAGENTS/lhttseng.exe german http://www.go-ww.de/MSAGENTS/lhttsged.exe Control in der Windows-Systemsteuerung zur Sprachein- und -ausgabe: könnte ab Win ME bereits installiert sein, ansonsten http://www.go-ww.de/MSAGENTS/spchcpl.exe http://www.microsoft.com/downloads/details.aspx? familyid=1366EE73-200F-49FB-B624-D5DE6023AA23&displaylang=en 1 Zeile Spracheingabe-Engine Englisch (Microsoft Agent Speech Recognition Engine 4.0 (English)): optionale Software http://activex.microsoft.com/activex/controls/agent2/actcnc.exe http://www.go-ww.de/MSAGENTS/actcnc.exe Schnittstelle SAPI vom TTS ========================== Die Schnittstelle (SAPI) zu den Applikationen (Anwendungen der Sprachausgabe) hängt von Windows ab: Windows XP SAPI 4 und 5 Windows Vista nur SAPI 5 Es gibt einen Haken: Etliche Anwendungsprogramme sind für SAPI 4 entwickelt worden, als von SAPI 5 noch nicht die Rede war. SAPI 4 (falls erlaubt) kann parallel zu SAPI 5 installiert sein SAPI 5 ist unter Windows oft bereits installiert siehe Systemsteuerung - Sprachein- /ausgabe Stimmen vom TTS =============== Es gibt diverse Stimmen der Sprachausgabe, wobei gute nicht-amerikanische Stimmen Geld kosten. Ausnahme ist z.B. die deutsche Steffi-Stimme von RealSpeak (im Internet nach RSSolo4German.zip suchen, ca. 23 MBytes). Charaktere (Agenten) vom TTS ============================ Die Sprachausgabe kann mit Grafik aninmiert werden - sprechende Figuren (Charaktere) Microsoft bietet eigene Charaktere. Es gibt auch andere Anbieter. Die Charaktere liegen je in einer asc-Datei, die schon mal paar MBytes gross ein kann. An folgenden Orten sind Charaktere für Windows hinterlegt (bzw. können dorhin installiert werden). C:\WINDOWS\msagent\chars\ C:\WINDOWS\lastgood\msagent\chars\ (falls vorhanden) TTS-Controlpanel in der Systemsteuerung zur Sprachein-/ausgabe ============================================================== Start -> Einstellungen -> Systemsteuerung, dort Sprachein-/ausgabe Eventuell werden nachfolgende Einstellungen nicht unterstützt: Chrakterauswahl (Agentenauswahl) Sprachauswahl (Es wird ev. nur die Sprache unterstützt, die bei der Windows-Installation angegeben wurde.) SAPI 4.0-Konfiguration (ausser ein- und ausschalten). Besonderheit des Controlpanels beim Wechsel zwischen SAPI 4 und 5: Unter Win XP mit installiertem SAPI 5 werden im Reiter Text-in-Sprache nur die SAPI 5 Stimmen angezeigt, wobei es Stimmen gibt, die SAPI4 und 5 können. Falls SAPI 4 installiert ist und eine SAPI 5-Stimme Auswahl nicht testbar ist, dann ist SAPI 4 aktiv, so dass SAPI-5-Stimmen nur in Text-To-Speech-Programmen verwendet werden, die SAPI 4 UND 5 bedienen. Reiter Andere die SAPI 4-Einstellungen angezeigt. Anwendungssoftwaren vom TTS =========================== Sprachausgabe-Softwaren tummeln sich meist im Payware-Bereich. Gute Freeware muss erst mal gefunden werden. Bei allen Anwendungen muss man darauf achten, welche SAPI unterstützt wird welche Stiummen unterstützt werden. Beliebt sind u.a. die sprechenden Texteditoren mit und ohne Umwandlung der Sprache in eine Sounddatei. Als spezielle Anwendungen gibt es die Tools zum MS Agent, also Tools, die Charaktere animieren. TTS im Adobe Acrobat Reader --------------------------- Ist MS Text To Speech installiert (eventuell auch der MS E-Book-Reader, der MS Text To Speech nutzt), dann kann man per Ansicht-Sprachausgabe die aktuelle Seite vorlesen lassen. Nicht jedes PDF-Dokument lässt sich vorlesen. uListen-Browser auf Basis des Microsoft Internet Explorers ---------------------------------------------------------- http://ulisten.sourceforge.net/ https://sourceforge.net/projects/ulisten Donwload ca. 50 MBytes uListen is a TTS(Text To Speech) application for SAPI 5.x. It can TALK you the web pages, chm files, pdf files, word files and plain text files. More file type support is under develop. Features: * Support many file types(html, chm, pdf, word, text). * Can save to mp3, include lrc. * Hilight word when talk. * Talk from click position. * Sync-translate with dictionary. * Automatic talk RSS feeds. This software is written with Python and wxPython, and tested on Windows XP SP2. Other OS can not ensure work. ulisten ist ein Web-Browser, der den IE nutzt. installiert Python-Komponenten. Vermutlicht nutzt ulisten SAPI 5. unter Menu Speak kann als Wave oder MP3 gespeichert werden allerdings NUR die jeweils gesamte Webseite und nicht ein markierter Abschnitt Das Vorlesen von markierten Texteilen einer Webseite geht nicht. Unter Sys-Einstellungen-Browser-Speak kann die Standarstimme eingestellt werden und dazu Sprachgeschwindigkeit Obwohl in der Systemsteuerung-Sprachein- und -ausgabe die Standarsstimme mit Geschwindigkeit vorgegeben wird, wirde diese Einstellungen nicht benutzt. Die Geschwindigkeit wird also davon unabhängig in uListen modifiziert werden. Empfehlung: -2 und dazu das Stimm-Volume (Standard ist 50%, Empfehlung 80%) und dazu die Sampelrate: eventuell ist trotz Auswahl die Samplerate nicht einstellbar (siehe unten zu Sideboard TTL Panel) und dazu das Gesicht (Mund): Wechsel funktioniert eventuell nicht Panel nur per Schliesskreuz schliessbar Was Microsoft-typisch ist: In Systemsteuerung-Sprachein- und -ausgabe können nur der Haupttyp der Stimme eingestellt und keine Details. Details sind in uListen einstellbar für uListen. Die Einstellungen können temporär während Browsen geändert werden per TTS Panel im Sideboard. Das Button Default stellt die Einstellungen von oben wieder her. Use IntelliVoice abgehakt lassen. Eine detailreiche Stimme ist die Freeware-Stimme Scansoft RealsSpeak Steffi. Nach Einstellugen muss uListen neu gestartet werden. Das Menü ist z.T. extrem unlogisch - man muss suchen. z.B. findet sich die Mundanzeige nicht unter View oder Speak, sondern unter Browser-Panels Mozilla-Browser-Plugin auf Basis der CLC-4-TTS-Suite ---------------------------------------------------- ClickSpeak-Plugin für Button gesteuere Sprachausgabe - - - - - - - - - - - - - - - - - - - - - - - - - - - clickspeak.clcworld.net CLiCk, Speak is an open source, freely available extension for the Firefox web browser. It is part of the CLC-4-TTS Suite of products, it features a mouse driven interface, and it reads web pages - hence its name. Unlike Fire Vox which is designed for visually impaired users, CLiCk, Speak is designed for sighted users who want text-to-speech functionality. It doesn't identify elements or announce events - two features that are very important for visually impaired users but very annoying for sighted users. It also has a simplified, mouse driven interface that is designed to be easy for users familiar with point-and-click graphical user interfaces. Like Fire Vox, CLiCk, Speak works on Windows, Macintosh, and Linux; and Fire Vox has multilingual support, making it great for users who are trying to learn a foreign language and need to hear foreign language web sites read out to them for practice. Pendant zu FireVox aber mit Buttonsteuerung ohne Auswahl von Webseitenteilen (auch Arten) je nach HTML-DOM parallel zu FireVox nutzbar Empfehlung: Da FireVox nur tastautr-gesteuert ist, so ClickSpeak verwenden ! Benutzt FreeTTS von freetts.sourceforge.net wobei dieses Java Speech API (JSAPI) benutzt. Es wird die Standardstimme für SAPI 5x laut Systemsteuerung-Sprache verwendet. Wenn diese eine Deutsche ist, dann klingen englische Webseiten sehr amüsant ! Install des Plugin im aktiven Firefox-Browser Datei öffnen xpi-Datei einstellen Deinstall des Plugin im aktiven Firefox-Browser Extras-Addons Plugin für Tasten gesteuere Sprachausgabe - - - - - - - - - - - - - - - - - - - - - firevox.clcworld.net/ Fire Vox is an open source, freely available talking browser extension for the Firefox web browser. Think of it as a screen reader that is designed especially for Firefox. In addition to the basic features that are expected of screen readers, such as being able to identify headings, links, images, etc. and providing navigational assistance, Fire Vox provides support for MathML and CSS speech module properties. It also works on Windows, Macintosh, and Linux. The Core Library Components for Text-To-Speech (CLC-4-TTS) Suite is a set of extensions for Firefox. It consists of a library for doing text-to-speech synthesis (the Core library), a library for navigating the HTML DOM (the Utils library), and an application that uses the libraries to act as a screen reader (Fire Vox). While it currently only works on Firefox. Pendant zu ClickSpeak aber ohne Buttonsteuerung mit Auswahl von Webseitenteilen (auch Arten) je nach HTML-DOM parallel zu ClickSpeak nutzbar Empfehlung: ClickSpeak benutzen Benutzt FreeTTS von freetts.sourceforge.net wobei dieses Java Speech API (JSAPI) benutzt. Es wird die Standardstimme für SAPI 5x laut Systemsteuerung-Sprache verwendet. Wenn diese eine Deutsche ist, dann klingen englische Webseiten sehr amüsant ! Install des Plugin im aktiven Firefox-Browser Datei öffnen xpi-Datei einstellen Deinstall des Plugin im aktiven Firefox-Browser Extras-Addons Die GUI ist in Java geschrieben also plattformunabhängig. und ist FreeTTS von http://freetts.sourceforge.net/docs/index.php http://freetts.sourceforge.net/docs/jsapi_setup.html (Sprachausgabe per Java-Programm) Alle Tastenkobinationen benötigen zugleich Ctrl und Shift können von anderen Programmen in Mozilla parallel benutzt werden (parallele Mehrfachbelegung) Autoread ein A Lesen bei jedem Seitenwechsel Nächsten Teil lesen F Vorherigen Teil lesen D an aktueller Position lesen P Lesen wiederholen E Lesen stoppen C markierten Text lesen O Webseitenobjekt-Art ansagen Q z.B. ob Link ist Teilliste anzeigen H Teil ist z.B. Absatz ab Überschrift alle Teile anzeigen L optionen von FireVon anzeigen M übergeordneten Teil lesen U Elternknoten lesen MS-Agent Tool Mein Freund ------------------------- http://www.scendix.de/myfriend/download.php4 Freeware geworden da nicht mehr weiterentwickelt Benutzername: Kostenlos Registriernummer: 68662-9649-9998-1901 Leider sind nur die nicht besonders ertragbaren Stimmen von Hauspie nutzbar (siehe unten). Internet abschalten bei Install und Deinstall, da ungefragt nach Hause telefoniert (zumindest bei Deinstall) Es müssen installiert sein: SAPI 4 MS Agents Visual Basic 6 Lernout & Hauspie® Sprachausgabe deutsch. Install will sich in Autostart eintragen: MeinFreundAgent.exe ist das aktive Programm als Dienst, der per Windowsstart auch starten kann (Sprachansage mit Windowsstart) Der Dienst ist nur über dem Taskmanager manuell schliessbar. muss manuell VOR Deinstall der Software geschlossen werden (Systemsteuerung-Verwaltung-Dienste). Einstellungen Sprache Leider NUR die Hauspie-Stimmen Anna und Stefan einstellbar, wobei diese die Stimme des aktuellen MS-Agent-Charakter z.B. Merlin ersetzen (Frauenstimme zu männlichem Agent ist auch möglich) Stimme einfärbbar per Regler kein Hakten vor dem Regler: Standard verwenden man den Standard mit der eingestellten Variante vergleichen per Haken rein /raus Korrektur der Aussprache per editierbarer Wortliste möglich Freund MS Agent-Charakter änderbar, aber nur mit Stimmvariante von Anna und Stefan Anna für alle weiblichen Agenten Stefan für männliche Agenten Test des Agenten und seiner Kommandos möglich rechte Maus auf Agent zeigt auch ausführbare Funktionen an Schnelles Anzeige und Verstecken: Es wird eine verkürzte Animation verwendet, die eventuell schlechter aussieht. Allgemein Start mit Windows einstellbar Begrüssungsaktion einstellbar Ist auch Sammelsorium aus Plugins (Module) für u.a. POP3 MS Word Messenger Interessant sind Zeitansage Programmüberwachung siehe oben Einstellungen - Module Makroeditor Makro als Ansammlung von Aktionsfolgen Aktionen zum MS Agent (laut Microsoft) festlegen es müssen die Makros bekannt sein: Es gibt keine Hilfe Unter Einstellungen - Freund - Animation testen stehen die Commandos zum aktiven MS Agent Der Agent Animation Browser (Fremdsoftware) zeigt die Aktionen zum auswählbaren Charakter (parallel zum in Mein Freund aktiven Charakter) MS Agent Language Reader (Texteditor mit Sprachausgabe) ------------------------------------------------------- http://www.authorsoft.com/language-reader.html Lässt Texte in PDF, DOC, XLS, PPT, HTML und TXT von einem animierten Avatar mit Hilfe der kostenlosen Microsoft Text-To-Speech-Engine vorlesen; unterstützt unter anderem die Sprachen Deutsch, Englisch und Französisch Die Sprache kann nur eigestellt werden, wenn diese als TTS installiert ist (nur TTS-Stimmen verwendbar). Aber das Tool bieten den Download der Stimme an, wenn diese nicht vorhanden ist: Die Install-Datei liegt dann im Ordner von Language Reader. Konkurrenz zum TTS ================== Die Konkurrenz ist fast nur Payware. Ein gutes Produkt wurde von GData vertrieben und auch vom deutschen Markt genommen: WebSpeech. Mit Webspeech konnte man eine eigene Webseite z.B. mit JavaScript auf Sprachausgabe trimmen, wobei GData Lizenzkosten (zusätzlich zu den Kosten der Logox-Programmierungssoftware) erhoben hat: Ohne Lizenzschlüssel keine Sprachausgabe von Webseiten auf Servern (lokale Webseiten laufen immer mit Sprachausgabe). Der Besucher der mit der Sprachausgabe versehenen Webseite kann sich auch heute noch ein kostenloses Plugin für den Internet Explorer downloaden - ob Windows Vista tauglich, muss man ausprobieren. WebSpeech - Browser-Plugin http://www.webspeech.de/index1.php http://www.webspeech.de/download.php Logox-Sprachausgabe http://www.logox.de./ http://www.logox.de./demos.php Programmierung mit WebSpeech http://www.twseiten.de (Hobby-Programmierung mit JavaScript u.a. für den MS Internet Explorer). WebSpeech wurde vom Markt genommen, als es Windows Vista noch nicht gab. WebSpeech hat vermutlich wegen der Änderung von DirectX in Windows Vista nicht überlebt.