Text To Speech-Services anderer Anbieter integrieren

IBM® Voice Gateway unterstützt die Verwendung von Sprachadaptern für die Integration von Sprachsyntheseservices (Text in Sprache) anderer Anbieter, die Sie anstelle von IBM® Text to Speech-Services verwenden können. Die Adapter sind separate Docker-Container, die Sie zusammen mit Voice Gateway bereitstellen und die als Proxy zwischen Voice Gateway und dem Sprachservice anderer Anbieter fungieren.

Voice Gateway stellt die folgenden Optionen für die Integration von Sprachservices anderer Anbieter bereit:

Voice Gateway Text to Speech Adapter: Der Text to Speech Adapter aktiviert derzeit die Google Text to Speech-API, um Sprache als Audio aus Text synthetisch zu erstellen. Wenn Sie die Google Text to Speech-API verwenden, können Sie zusätzliche Sprecher für einen Self-Service-Agenten auswählen. Version 1.0.0.7a und höher.

Text to Speech Adapter

Text to Speech Adapter-Architektur

Bei Verwendung von Text to Speech verwendet der Media Relay-Container in Voice Gateway eine Websocketverbindung, um Daten an Text to Speech weiterzuleiten. Wenn Sie den Text to Speech Adapter verwenden, können Sie Ihre Voice Gateway-Bereitstellung mit einem Text-Sprache-Provider eines anderen Anbieters verbinden. Anstatt eine Websocketverbindung für die Integration Ihrer Bereitstellung in Text to Speech zu verwenden, stellt Media Relay eine Verbindung zum Text to Speech Adapter mit einer Websocketverbindung her. Dieser Adapter verwendet anschließend eine gRPC-Verbindung zum Text-Sprache-Service eines anderen Anbieters, um Audio synthetisch zu erstellen und es an Media Relay für das Streaming an den Anrufer zurückzugeben.

Im folgenden Beispiel verbindet Text to Speech Adapter Voice Gateway mit dem Google Text to Speech-Betaservice.

Text to Speech Adapter agiert als Vermittler zwischen Voice Gateway Media Relay und einem Text-Sprache-Service eines anderen Anbieters, wie z. B. Google Text to Speech-Betaservice.

Text to Speech Adapter bereitstellen

Voice Gateway Text to Speech Adapter ist als separates Docker-Image gepackt, das Sie konfigurieren und zusammen mit den SIP Orchestrator- und Media Relay-Kernimages bereitstellen können. Bevor Sie Text to Speech Adapter bereitstellen, stellen Sie eine Voice Gateway-Basisinstanz gemäß der Beschreibung unter Erste Schritte mit Voice Gateway bereit. Auf den folgenden Seiten erfahren Sie anschließend, wie Sie Text to Speech Adapter Ihrer Bereitstellung hinzufügen:

Text to Speech Adapter konfigurieren

Zum Konfigurieren von Text to Speech Adapter können Sie die folgenden Konfigurationen definieren.

Bei der Bereitstellungskonfiguration wird der Text to Speech Adapter-Container definiert und als Docker-Umgebung angegeben. Weitere Informationen finden Sie unter Umgebungsvariablen für Text to Speech Adapter.
Bei der JSON-Konfiguration können Sie mehrere Tenants in einer einzigen Voice Gateway-Umgebung gesondert konfigurieren. Weitere Informationen finden Sie unter Multi-Tenant-Umgebung konfigurieren.
Bei der dynamischen Konfiguration können Sie Einstellungen während eines Anrufs ändern, indem Sie API-Aktionen und Statusvariablen im Antwortknoten des Watson Assistant-Dialogs angeben. Weitere Informationen finden Sie unter Self-Service-Agenten mit der Voice Gateway-API programmieren.