Gespräch mit virtuellem Assistent

Ein mehrstufiges Support-System in einem Unternehmen kann einen auf dem Large Language Model basierenden Konversationsassistenten oder Chatbot neben menschlichen Agenten verwenden, um den Endbenutzern effiziente und umfassende Unterstützung zu bieten.

Architekturmuster für generative KI

Die Architektur für die Konversation mit virtuellen Assistenten ist im obigen Diagramm dargestellt. Die wichtigsten Schritte im Ablauf der Architektur sind:

Enterprise Dokumente wie Produkthandbücher, Dokumente mit häufig gestellten Fragen, Angebotsmaterialien, Prospekte, gelöste Supporttickets und andere werden in eine Instanz von IBM watsonx Discovery aufgenommen und für die semantische Suche vorbereitet.
Benutzer senden Anfragen, Probleme oder Fragen über eine Schnittstelle auf der Website der Unternehmen, eine dedizierte App oder andere Plattformen, ab. Diese Interaktion wird durch IBM watsonx Assistant ermöglicht, der als primäre Schnittstelle für Chat-basierte Interaktionen fungiert.
Bei Anfragen, die das Abrufen von Daten aus den Dokumenten oder der Wissensdatenbank des Unternehmens erfordern, wird IBM watsonx Discovery aufgerufen, um nach den Informationspassagen zu suchen und diese abzurufen, die für die Anfrage des Benutzers am relevantesten sind.
Anschließend übermittelt watsonx Assistant die Benutzeranfrage und die relevanten, von watsonx Discovery abgerufenen Informationen an ein großes Sprachmodell (LLM), das auf watsonx.ai gehostet wird.
fasst die Anfrage des Nutzers und die bereitgestellten Informationen zusammen mit dem eingebetteten Wissen und generiert eine menschenähnliche Antwort, die an watsonx.ai zurückgegeben wird und dem Nutzer - möglicherweise nach Formatierung und anderer Verarbeitung - präsentiert wird.
Wenn der Benutzer mit der generierten Antwort nicht zufrieden ist (z. B. wenn seine Anfrage spezifisch oder komplex ist oder besondere Kenntnisse erfordert), kann er watsonx Assistant den Anruf an einen menschlichen Agenten weiterleiten lassen. In ähnlicher Weise können Interaktionen automatisch eskaliert werden, wenn erkannt wird, dass die Antwort des LLM wenig vertrauenswürdig oder potenziell beleidigend ist. Benutzer können sich jederzeit dafür entscheiden, mit einem menschlichen Vertreter zu interagieren. watsonx Assistant leitet die Interaktion über das Contact Center Management System des Unternehmens nahtlos an einen menschlichen Agenten weiter.
Ein Servicemitarbeiter mit vollem Zugriff auf den Chatverlauf von watsonx Assistant unterstützt den Benutzer bei der Lösung seiner Anfrage, seines Problems oder seiner Frage.
Nach der Lösung kann das System über watsonx Assistant Feedback einholen. Dieses Feedback hilft bei der Optimierung zukünftiger Interaktionen, indem es häufig verpasste oder eskalierte Abfragen analysiert und es dem Unternehmen ermöglicht, das auf watsonx.ai gehostete LLM zu optimieren und/oder die Suchparameter von watsonx Discovery zu optimieren, um die Leistung zu steigern.

IBM Produktarchitektur

Die Zuordnung des IBM watsonx-Portfolios von KI-Produkten zur konzeptionellen Architektur ist im folgenden Diagramm dargestellt. Mit watsonx Assistant haben Sie die Interaktionsfunktionen der virtuellen Assistent-Komponente, watsonx Discovery bietet Ihnen ein Add-on zu watsonx Assistant, die Dokumentenaufnahme und semantische Suchfunktionen bereitstellt. Die watsonx.ai-Modellentwicklungs- und Hosting-Umgebung wird zur Auswahl, Abstimmung, Prüfung und Bereitstellung des großen Sprachmodells verwendet.

Lokale/private Bereitstellungen

Einige Kunden haben watsonx.ai nicht in ihrer Region verfügbar oder haben Sicherheitsbedenken oder regulatorische Anforderungen, die sie daran hindern, das watsonx.ai Enterprise-Grade-KI-Studio zu nutzen. Für diese Kunden bieten wir watsonx.ai als eine Reihe von containerisierten Diensten an, die auf Red Hat Openshift im Rechenzentrum des Kunden, in einer Virtual Private Cloud (VPC) auf der Infrastruktur eines Cloud-Service-Providers oder an einem anderen Ort bereitgestellt werden können.

Entscheidungen und Überlegungen zur Architektur

Generierungsmodell wählen

Wenn Sie ein Modell auswählen wollen, das für Ihr Projekt gut geeignet ist, spielen viele Faktoren eine Rolle.

Die Lizenz des Modells kann die Verwendung des Modells einschränken. Zum Beispiel kann die Lizenz eines Modells verhindern, dass es als Teil einer kommerziellen Anwendung verwendet wird.

Der Datensatz, der zum Trainieren des Modells verwendet wird, hat einen direkten Einfluss darauf, wie gut das Modell für eine bestimmte Anwendung funktioniert, und wirkt sich erheblich auf das Risiko aus, dass das Modell unsinnige, beleidigende oder einfach unerwünschte Antworten erzeugt. Ebenso können Modelle, die mit urheberrechtlich geschützten oder privaten Daten trainiert wurden, ihre Benutzer rechtlich haftbar machen. IBM bietet vollständige Transparenz der Trainingsdaten und Freistellung von Rechtsansprüchen, die sich aus seinen Modellen ergeben.

Die Größe des Modells, die Anzahl der Parameter, mit denen es trainiert wird, und die Größe des Kontextfensters (wie lange Textpassagen kann das Modell akzeptieren) wirken sich auf die Modellleistung, den Ressourcenbedarf und den Durchsatz aus. Es ist zwar verlockend, der Philosophie „größer ist besser“ zu folgen und ein Modell mit 20 Milliarden Parametern zu wählen, aber der Ressourcenbedarf und die Verbesserung der Genauigkeit (wenn überhaupt) rechtfertigen dies möglicherweise nicht. Aktuelle Studien zeigen, dass kleinere Modelle bei einigen Lösungen deutlich besser abschneiden können als größere Modelle.

Jede Feinabstimmung, die an einem Modell vorgenommen wird, kann sich auf seine Eignung für eine Aufgabe auswirken. IBM bietet beispielsweise zwei Versionen des Granite-Modells an: eine, die auf allgemeine Chat-Anwendungen abgestimmt ist, und eine andere, die auf die Befolgung von Anweisungen abgestimmt ist.

Weitere Überlegungen bei der Auswahl eines Modells sind:

Auswahl von Modellparametern, z. B. die Modelltemperatur, um ein ausgewogenes Verhältnis zwischen menschenähnlichen Texten und faktischen Antworten zu erzielen. Die Einstellung der Modelltemperatur auf einen hohen Wert führt zu konsistenten, aber möglicherweise uninteressanten oder zu knappen Antworten, während die Einstellung auf einen niedrigen Wert mehr Abwechslung in die Antworten bringt, aber die Länge und den Inhalt der Antworten unvorhersehbar macht.

Auswahl und Implementierung von Modellleitlinien zum Schutz vor ineffektiven oder anstößigen Ergebnissen.

Die Sprache der Kundendaten und Benutzer-Prompts muss ebenfalls berücksichtigt werden. Die meisten LLMs werden anhand von englischsprachigem Text trainiert und können oft unterschiedlich gut zwischen Englisch und anderen Sprachen übersetzen. Anwendungen, die eine mehrsprachige oder lokalisierte Sprachunterstützung erfordern, erfordern möglicherweise die Verwendung mehrerer Modelle, die in jeder der unterstützten Sprachen trainiert wurden, oder die Implementierung eines Übersetzungsschritts zur Übersetzung von Eingaben ins Englischen oder in eine andere „Basissprache“.

Nächste Schritte

Sprechen Sie mit unseren Experten über die Implementierung eines Hybrid Cloud-Bereitstellungsmodells.

Weitere Erkundungsmöglichkeiten

Hybrid Cloud Architecture Center

Diagrammtools und Vorlagen

IBM Well-Architected-Framework

Gespräch mit virtuellem Assistent

Gespräch mit virtuellem Assistent

IBM Produktarchitektur

Lokale/private Bereitstellungen

Entscheidungen und Überlegungen zur Architektur

Generierungsmodell wählen

Beitragende

Manav Gupta, Chris Kirby, Pete Nuwayser

Aktualisiert: 30. November 2023