Data Management ist die Praxis der sicheren und effizienten Erfassung, Verarbeitung und Nutzung von Daten für bessere Geschäftsergebnisse.
72% der erfolgreichsten CEOs stimmen zu, dass ein Wettbewerbsvorteil davon abhängt, wer über die fortschrittlichste generative KI verfügt. Um jedoch von künstlicher Intelligenz (KI) zu profitieren, müssen Unternehmen zunächst ihre Informationsarchitektur so organisieren, dass ihre Daten zugänglich und nutzbar sind. Zu den grundlegenden Herausforderungen beim Data Management gehören Datenmengen und Datensilos über mehrere Standorte und Cloud-Provider. Neue Datentypen und verschiedene Formate wie Dokumente, Bilder und Videos stellen ebenfalls eine Herausforderung dar. Darüber hinaus können Komplexität und inkonsistente Datensätze die Fähigkeit eines Unternehmens einschränken, Daten für KI zu nutzen.
Aufgrund dieser Herausforderungen ist eine effektive Data Management Strategie für Unternehmen zu einer zunehmenden Priorität geworden, um den Herausforderungen rund um Big Data zu begegnen. Ein flexibles, modernes Datenverwaltungssystem integriert sich in die vorhandene Technologie eines Unternehmens, um für Data Scientists, Ingenieure im Bereich KI und maschinelles Lernen sowie die Geschäftsanwender des Unternehmens auf hochwertige, nutzbare Daten zuzugreifen.
Eine abgerundete Data Management Strategie berücksichtigt verschiedene Faktoren, einschließlich der folgenden Punkte:
Während die Data Management Tools für die Entwicklung generativer KI-Anwendungen weit verbreitet sind, bilden die Daten selbst einen Mehrwert, sowohl für Kunden als auch für Unternehmen. Große Mengen an qualitativ hochwertigen Daten müssen ordnungsgemäß organisiert und verarbeitet werden, um Modelle erfolgreich zu schulen. Dieser Ansatz ist ein schnell wachsender Anwendungsfall der modernen Datenverwaltung.
Zum Beispiel wurden während der Meisterschaften 2023 in Wimbledon generative KI-gestützte Kommentare angeboten, bei denen Informationen aus 130 Millionen Dokumenten und 2,7 Millionen relevanten kontextuellen Datenpunkten in Echtzeit abgerufen wurden. Besucher, die die Turnier-App oder -Website nutzten, konnten auf vollständige Statistiken, Geschichten rund um die einzelnen Partien und Spielkommentare sowie jederzeit auf eine genaue Vorhersage des Siegers im Verlauf des Spiels zugreifen. Mit der richtigen Strategie der Datenverwaltung kann sichergestellt werden, dass wertvolle Daten immer verfügbar, integriert, verwaltet, sicher und genau sind.
Generative KI kann Unternehmen einen großen Wettbewerbsvorteil verschaffen, wenn deren KI-Strategie auf der Effizienz der verwendeten Daten beruht. Viele Unternehmen kämpfen immer noch mit grundlegenden Datenproblemen, die durch die Nachfrage nach generativer KI, die immer mehr Daten erfordert, noch verschärft werden, was wiederum zu noch mehr Problemen beim Data Management führt.
Daten können an mehreren Orten, in verschiedenen Anwendungen und unterschiedlichen Clouds gespeichert werden, was häufig isolierte Datensilos zur Folge hat. Um die Komplexität noch weiter zu erhöhen, sind die Verwendungsmöglichkeiten der Daten vielfältiger geworden und die Daten liegen in unterschiedlichen und komplexen Formen vor – beispielsweise als Bilder, Videos, Dokumente und Audiodateien. Es ist mehr Zeit für die Datenbereinigung, -integration und -aufbereitung erforderlich. Diese Herausforderungen können dazu führen, dass Unternehmen es vermeiden, ihren gesamten Datenbestand für Analyse- und KI-Zwecke zu nutzen.
Ausgestattet mit modernen Tools für die Datenarchitektur, -verwaltung und -sicherheit können Daten jedoch erfolgreich genutzt werden, um neue Erkenntnisse zu gewinnen und stets präzisere Vorhersagen zu treffen. Diese Funktion ermöglicht ein tieferes Verständnis der Kundenpräferenzen und verbessert die Customer Experience (CX) durch die Bereitstellung von Erkenntnissen aus der Datenanalyse. Darüber hinaus erleichtert sie die Entwicklung innovativer datengestützter Geschäftsmodelle, wie etwa Serviceangebote auf Basis generativer KI, die eine Grundlage aus qualitativ hochwertigen Daten für das Modelltraining benötigen.
Führende Unternehmen im Bereich Daten und Analyse stehen bei der Transformation ihres Unternehmens aufgrund der zunehmenden Komplexität der Daten vor großen Herausforderungen. Generative KI und KI-Assistenten, Machine Learning (ML), fortgeschrittene Analysen, das Internet der Dinge (IoT) und Automatisierung benötigen für eine effektive Funktionalität ebenfalls riesige Datenmengen. Diese Daten müssen gespeichert, integriert, verwaltet, transformiert und für die richtige Datengrundlage aufbereitet werden. Um eine solide Datengrundlage für KI zu schaffen, müssen sich Unternehmen auf den Aufbau einer offenen und vertrauenswürdigen Datengrundlage konzentrieren, was bedeutet, dass sie eine Datenverwaltungsstrategie entwickeln müssen, die auf Offenheit, Vertrauen und Zusammenarbeit ausgerichtet ist, um eine solide Grundlage für die KI zu schaffen.
Die KI-Anforderungen wurden von einem Gartner-Analytiker zusammengefasst1: „KI-fähige Daten bedeuten, dass Ihre Daten für den Anwendungsfall repräsentativ sein müssen, einschließlich aller Muster, Fehler, Sonderfälle und unerwarteter Ereignisse, die zum Trainieren oder Ausführen der KI-Modelle für den spezifischen Anwendungsfall erforderlich sind.“
Führungskräfte aus den Bereichen Daten und Analyse sind möglicherweise der Ansicht, dass KI-aufbereitete Daten qualitativ hochwertigen Daten entsprechen. Allerdings sind die Standards qualitativ hochwertiger Daten für andere Zwecke als KI nicht unbedingt mit den Standards für die KI-Bereitschaft gleichzusetzen. Im Bereich der Analyse zum Beispiel werden die Daten in der Regel optimiert, um Sonderfälle zu eliminieren oder den menschlichen Erwartungen zu entsprechen. Wenn ein Algorithmus trainiert wird, benötigt er jedoch repräsentative Daten.
Data Governance ist ein Teilbereich der Datenverwaltung. Das bedeutet, dass ein Data-Governance-Team, wenn es Gemeinsamkeiten zwischen verschiedenen Datensätzen identifiziert und diese integrieren möchte, mit einem Datenbankarchitektur- oder Engineering-Team zusammenarbeiten muss, um das Datenmodell und die Datenarchitektur zu definieren und so Verknüpfungen und Datenflüsse zu erleichtern. Ein weiteres Beispiel betrifft den Datenzugriff. Data-Governance-Teams könnten die Richtlinien für den Datenzugriff auf bestimmte Arten von Daten festlegen, wie z. B. personenbezogene Daten. Währenddessen würde ein Datenverwaltungsteam entweder direkten Zugriff gewähren oder einen Mechanismus zur Zugriffsgewährung einrichten, wie z. B. die Anpassung intern definierter Benutzerrollen zur Genehmigung des Zugriffs.
Eine effektive Datenverwaltung, einschließlich robuster Data Governance-Praktiken, kann bei der Einhaltung gesetzlicher Vorschriften helfen. Diese Einhaltung umfasst sowohl nationale als auch internationale Datenschutzbestimmungen, wie die Datenschutz-Grundverordnung (DSGVO) und den California Consumer Privacy Act (CCPA), zusammen mit branchenspezifischen Datenschutz- und Sicherheitsstandards der einzelnen Branchen. Das Festlegen umfassender Richtlinien und Verfahren für die Datenverwaltung ist entscheidend für den Nachweis oder die Durchführung von Audits zur Validierung dieser Schutzmaßnahmen.
Moderne Data Management Lösungen bieten eine effiziente Möglichkeit, Daten und Metadaten über verschiedene Datensätze hinweg zu verwalten. Moderne Systeme werden mit der neuesten Software zur Datenverwaltung und zuverlässigen Datenbanken oder Datenspeichern erstellt. Dies kann transaktionale Data Lakes, Data Warehouses oder Data Lakehouses umfassen, kombiniert mit einer Data Fabric Architektur mit Transaktionsdaten, Datenaufnahme, Governance, Abstammung, Observability und Master Data Management. In Kombination damit kann diese vertrauenswürdige Datenbasis den Datennutzern hochwertige Daten als Datenprodukte, Business Intelligence (BI) und Dashboarding sowie KI-Modelle – sowohl traditionelle ML als auch generative KI – zur Verfügung stellen.
Eine effektive Data Management Strategie umfasst in der Regel mehrere Komponenten, um die Strategie und den Betrieb in einem Unternehmen zu rationalisieren.
Zwar können Daten vor oder nach der Datenverarbeitung gespeichert werden, aber die Art der Daten und ihr Zweck bestimmen in der Regel den verwendeten Speicherort. Während relationale Datenbanken die Daten in einem tabellarischen Format organisieren, verfügen nicht-relationale Datenbanken über kein so starres Datenbankschema.
Relationale Datenbanken sind in der Regel auch mit Transaktionsdatenbanken verknüpft, die Befehle oder Transaktionen gemeinsam ausführen. Nehmen wir zum Beispiel eine Banküberweisung. Ein bestimmter Betrag wird von einem Konto abgebucht und dann auf ein anderes Konto eingezahlt. Damit Unternehmen jedoch sowohl strukturierte als auch unstrukturierte Datentypen unterstützen können, benötigen sie speziell entwickelte Datenbanken. Diese Datenbanken müssen verschiedene Anwendungsfälle in den Bereichen Analyse, KI und Anwendungen abdecken. Es sind sowohl relationale als auch nicht-relationale Datenbanken erforderlich, z. B. Key-Value, Document, Wide Column, Graph und In-Memory. Diese multimodalen Datenbanken bieten native Unterstützung für verschiedene Datentypen und die neuesten Entwicklungsmodelle und können verschiedene Arten von Workloads ausführen, einschließlich IoT, Analyse, ML und KI.
Best Practices für die Datenverwaltung besagen, dass Data Warehousing für die Analyse strukturierter Daten optimiert wird. Dies erfordert ein definiertes Schema, um bestimmte Analyseanforderungen für spezifische Anwendungsfälle wie Dashboards, Datenvisualisierung und andere Business Intelligence-Aufgaben zu erfüllen. Diese Datenanforderungen werden in der Regel von Geschäftsanwendern in Zusammenarbeit mit Dateningenieuren festgelegt und dokumentiert, die letztendlich mit dem definierten Datenmodell verglichen werden.
Die zugrunde liegende Struktur eines Data Warehouse ist normalerweise als relationales System organisiert, das ein strukturiertes Datenformat verwendet und Daten aus Transaktionsdatenbanken bezieht. Bei unstrukturierten und halbstrukturierten Daten integrieren Data Lakes jedoch Daten sowohl aus relationalen als auch aus nicht-relationalen Systemen und anderen Business Intelligence-Aufgaben. Data Lakes werden den anderen Speicheroptionen häufig vorgezogen, da sie normalerweise eine kostengünstige Speicherumgebung darstellen, die Petabyte an Rohdaten aufnehmen kann.
Data Lakes kommen insbesondere Data Scientists zugute, da sie es ihnen ermöglichen, sowohl strukturierte als auch unstrukturierte Daten in ihre Data-Science-Projekte einzubeziehen. Allerdings haben Data Warehouses und Data Lakes ihre eigenen Grenzen. Proprietäre Datenformate und hohe Speicherkosten schränken die Zusammenarbeit und die Bereitstellung von KI- und ML-Modellen in Data-Warehouse-Umgebungen ein.
Im Gegensatz dazu stehen Data Lakes vor der Herausforderung, Erkenntnisse direkt, kontrolliert und leistungsstark zu extrahieren. Ein offenes Data Lakehouse geht diese Einschränkungen an, indem es mehrere offene Formate über Cloud-Objektspeicher verarbeitet und Daten aus verschiedenen Quellen, einschließlich bestehender Speicherorte, kombiniert, um letztendlich Analysen und KI im großen Maßstab zu ermöglichen.
Multicloud- und Hybrid-Strategien werden immer beliebter. KI-Technologien werden durch riesige Datenmengen unterstützt, die moderne Datenspeicher auf cloudnativen Architekturen erfordern, um Skalierbarkeit, Kostenoptimierung, verbesserte Leistung und Geschäftskontinuität zu gewährleisten. Laut Gartner2, werden bis Ende 2026 „90 % der Datenverwaltungstools und -plattformen, die Multi-Cloud- und Hybrid-Funktionen nicht unterstützen, außer Betrieb genommen werden“.
Während vorhandene Tools Datenbankadministratoren (DBAs) bei der Automatisierung zahlreicher herkömmlicher Verwaltungsaufgaben unterstützen, ist aufgrund der typischerweise großen und komplexen Natur von Datenbank-Setups weiterhin ein manueller Eingriff erforderlich. Immer wenn manuelle Kontrolle notwendig ist, steigt die Wahrscheinlichkeit von Fehlern. Die Minimierung der Notwendigkeit einer manuellen Datenverwaltung ist ein Hauptziel beim Betrieb von Datenbanken als vollständig verwaltete Dienste.
Vollständig verwaltete Cloud-Datenbanken automatisieren zeitaufwändige Aufgaben wie Upgrades, Backup, Patching und Wartung. Dank dieses Ansatzes können DBAs zeitaufwändige manuelle Aufgaben vermeiden und haben so mehr Zeit für wertvolle Aufgaben wie die Schemaoptimierung, neue cloudnative Anwendungen und die Unterstützung neuer KI-Anwendungsfälle. Anders als bei der lokalen Bereitstellung können in der Cloud bei Bedarf auch größere Cluster eingerichtet werden und es fallen häufig nur Kosten für den genutzten Speicherplatz an. Dies bedeutet, dass ein Unternehmen, das zusätzliche Rechenleistung benötigt, um einen Auftrag in Stunden statt Tagen auszuführen, dies in einer Cloud-Plattform durch den Erwerb zusätzlicher Rechenknoten problemlos erreichen kann.
Diese Umstellung auf Cloud-Datenplattformen erleichtert auch die Einführung der Streaming-Datenverarbeitung. Tools wie Apache Kafka ermöglichen mehr Datenverarbeitung in Echtzeit, sodass Verbraucher Themen abonnieren können, um Daten in Sekundenschnelle zu erhalten. Die Stapelverarbeitung hat jedoch immer noch ihre Vorteile, da sie bei der Verarbeitung großer Datenmengen effizienter ist. Während die Stapelverarbeitung nach einem festgelegten Zeitplan, z. B. täglich, wöchentlich oder monatlich, erfolgt, ist sie ideal für Dashboards zur Unternehmensleistung, die in der Regel keine Echtzeitdaten benötigen.
In jüngerer Zeit sind Data Fabrics entstanden, die die Komplexität der Verwaltung dieser Datensysteme bewältigen. Data Fabrics verwenden intelligente und automatisierte Systeme, um die End-to-End-Integration von Datenpipelines und Cloud-Umgebungen zu erleichtern. Eine Data Fabric vereinfacht auch die Bereitstellung hochwertiger Daten und bietet ein Framework für die Durchsetzung von Data Governance-Richtlinien, um sicherzustellen, dass die verwendeten Daten den Vorschriften entsprechen. Dies erleichtert den Self-Service-Zugriff auf vertrauenswürdige Datenprodukte, indem eine Verbindung zu Daten hergestellt wird, die sich in mehreren Silos befinden, sodass Führungskräfte einen ganzheitlicheren Überblick über die Geschäftsleistung erhalten. Die Vereinheitlichung von Daten in den Bereichen Personalwesen, Marketing, Vertrieb, Lieferkette und anderen Bereichen ermöglicht Führungskräften ein besseres Verständnis ihrer Kunden.
Auch ein Data Mesh kann nützlich sein. Eine Data Fabric ist eine Architektur, die End-to-End-Integration ermöglicht. Im Gegensatz dazu ist ein Data Mesh eine dezentrale Datenarchitektur, die Daten nach bestimmten Geschäftsbereichen organisiert – zum Beispiel Marketing, Vertrieb, Kundenservice. Dieser Ansatz gibt den Produzenten eines Datensatzes mehr Eigenverantwortung.
In dieser Phase des Data Management Lebenszyklus werden Rohdaten aus einer Reihe von Datenquellen wie Web-APIs, mobilen Apps, IoT-Geräten (Internet der Dinge), Formularen, Umfragen und mehr erfasst. Nach der Datenerfassung werden die Daten in der Regel mithilfe von Datenintegrationstechniken wie Extrahieren, Transformieren, Laden (ETL) oder Extrahieren, Laden, Transformieren (ELT) verarbeitet oder geladen. Während ETL in der Vergangenheit die Standardmethode zur Integration und Organisation von Daten in verschiedenen Datensätzen war, hat ELT mit dem Aufkommen von Cloud-Datenplattformen und der steigenden Nachfrage nach Echtzeitdaten immer mehr an Popularität gewonnen.
Neben der Stapelverarbeitung ist die Data Replication eine alternative Methode zur Integration von Daten. Sie besteht aus der Synchronisierung von Daten von einem Quellort mit einem oder mehreren Zielorten, um die Verfügbarkeit, Zuverlässigkeit und Belastbarkeit der Daten sicherzustellen. Technologien wie Change Data Capture (CDC) verwenden logbasierte Replikationen, um Änderungen an Daten an der Quelle zu erfassen und diese Änderungen auf Zielsysteme zu übertragen, sodass Unternehmen Entscheidungen auf der Grundlage aktueller Informationen treffen können.
Unabhängig von der verwendeten Datenintegrationstechnik werden die Daten in der Regel während der Datenverarbeitung gefiltert, zusammengeführt oder aggregiert, um die Anforderungen für den vorgesehenen Zweck zu erfüllen. Diese Anwendungen können von einem Business-Intelligence-Dashboard bis hin zu einem prädiktiven maschinellen Lernalgorithmus reichen.
Die Verwendung von Continuous Integration und Continuous Deployment (CI/CD) für die Versionskontrolle kann es Datenteams ermöglichen, Änderungen an ihrem Code und ihren Datenassets zu verfolgen. Die Versionskontrolle ermöglicht es Datenteams, effektiver zusammenzuarbeiten, da sie gleichzeitig an verschiedenen Teilen eines Projekts arbeiten und ihre Änderungen ohne Konflikte zusammenführen können.
Data Governance fördert die Verfügbarkeit und Nutzung von Daten. Um die Einhaltung der Vorschriften zu gewährleisten, umfasst die Governance im Allgemeinen Prozesse, Richtlinien und Tools rund um Datenqualität, Datenzugriff, Benutzerfreundlichkeit und Datensicherheit. Zum Beispiel neigen Data Governance-Councils dazu, Taxonomien aufeinander abzustimmen, um sicherzustellen, dass Metadaten aus verschiedenen Datenquellen konsistent hinzugefügt werden. Eine Taxonomie kann auch durch einen Datenkatalog weiter dokumentiert werden, um die Daten für Benutzer leichter zugänglich zu machen, was die Datendemokratisierung innerhalb eines Unternehmens erleichtert.
Die Anreicherung von Daten mit dem richtigen Geschäftskontext ist entscheidend für die automatische Durchsetzung von Data Governance und Datenqualität. Hier treten die Regeln des Service Level Agreements (SLA) in Kraft und tragen dazu bei, dass die Daten geschützt sind und die erforderliche Qualität aufweisen. Es ist auch wichtig, die Herkunft der Daten zu verstehen und Transparenz über den Weg der Daten zu erhalten, während sie durch die Pipelines wandern. Dies erfordert robuste Funktionen für die Datenabstammung, um die Transparenz der Unternehmensdaten von den Datenquellen bis zu den Endbenutzern zu erhöhen. Data-Governance-Teams legen auch Rollen und Verantwortlichkeiten fest, um sicherzustellen, dass der Datenzugriff in angemessener Weise erfolgt. Dieser kontrollierte Zugriff ist besonders wichtig, um den Datenschutz zu wahren.
Datensicherheit schafft Schutzmechanismen, um digitale Informationen vor unbefugtem Zugriff, Beschädigung oder Diebstahl zu schützen. Da die digitale Technologie einen immer größeren Teil unseres Lebens einnimmt, werden die Sicherheitspraktiken moderner Unternehmen immer genauer unter die Lupe genommen. Diese Überprüfung ist wichtig, um Kundendaten vor Cyberkriminellen zu schützen oder Vorfälle zu verhindern, die eine Notfallwiederherstellung erfordern. Während Datenverluste für jedes Unternehmen verheerend sein können, sind insbesondere Data Breaches sowohl aus finanzieller als auch aus markenrechtlicher Sicht mit kostspieligen Folgen verbunden. Datensicherheitsteams können ihre Daten besser schützen, indem sie im Rahmen ihrer Datensicherheitsstrategie Verschlüsselung und Datenmaskierung verwenden.
Daten-Observability bezieht sich auf die Praxis der Überwachung, Verwaltung und Pflege von Daten in einer Weise, die ihre Qualität, Verfügbarkeit und Zuverlässigkeit über verschiedene Prozesse, Systeme und Pipelines innerhalb eines Unternehmens unterstützt. Bei der Daten-Observability geht es darum, einen tatsächlichen Überblick über den Zustand der Daten eines Unternehmens und des gesamten Datenökosystems zu erhalten. Dies umfasst verschiedene Aktivitäten, die über die herkömmliche Überwachung hinausgehen, bei der lediglich ein Problem beschrieben wird. Daten-Observability kann dabei helfen, Datenprobleme nahezu in Echtzeit zu identifizieren, zu beheben und zu lösen.
Master Data Management (MDM) konzentriert sich auf die Erstellung einer einzigen, hochwertigen Ansicht der Kerngeschäftseinheiten, einschließlich Produkte, Kunden, Mitarbeiter und Lieferanten. Durch die Bereitstellung genauer Ansichten von Stammdaten und deren Beziehungen ermöglicht MDM schnellere Erkenntnisse, eine verbesserte Datenqualität und Compliance. Mit einer einzigen 360-Grad-Ansicht der Stammdaten befähigt MDM Unternehmen mit den richtigen Daten dazu, Analysen durchzuführen, ihre erfolgreichsten Produkte und Märkte zu ermitteln und die wertvollsten Kunden zu finden.
Unternehmen haben zahlreiche Vorteile, wenn sie Initiativen zur Datenverwaltung angehen und durchführen.
Viele Unternehmen generieren unbeabsichtigt Silos innerhalb ihres Betriebs. Moderne Tools und Frameworks zur Datenverwaltung, wie Data Fabrics und Data Lakes, helfen dabei, Silos und Abhängigkeiten von Dateneigentümern zu beseitigen. So sorgen Data Fabrics beispielsweise dafür, potenzielle Integrationen zwischen verteilten Datensätzen in verschiedenen Funktionen wie Ressourcen, Marketing und Vertrieb aufzudecken. Data Lakes nehmen hingegen Rohdaten von denselben Funktionen auf, wodurch Abhängigkeiten beseitigt und einzelne Eigentümer eines Datensatzes eliminiert werden.
Governance Councils helfen bei der Einrichtung von Leitlinien, um Unternehmen vor Geldstrafen und negativer Publicity zu schützen, die durch die Nichteinhaltung staatlicher Vorschriften und Richtlinien entstehen können. Fehltritte können sowohl aus Marken- als auch aus finanzieller Sicht kostspielig sein.
Auch wenn dieser Vorteil nicht sofort ersichtlich ist, kann ein erfolgreicher Konzeptnachweis das gesamte Benutzererlebnis verbessern und Teams in die Lage versetzen, die Customer Journey durch ganzheitlichere Analysen besser zu verstehen und zu personalisieren.
Datenverwaltung kann Unternehmen bei der Skalierung helfen, dies hängt jedoch weitgehend von den Technologien und Prozessen ab. Beispielsweise ermöglichen Cloud-Plattformen eine größere Flexibilität, sodass Dateneigentümer ihre Rechenleistung je nach Bedarf erhöhen oder verringern können.
Im letzten Jahrzehnt haben Entwicklungen in den Bereichen Hybrid Cloud, künstliche Intelligenz, Internet der Dinge (IoT) und Edge Computing zu einem exponentiellen Wachstum von Big Data geführt und die Verwaltung für Unternehmen damit noch komplexer gemacht. Neue Komponenten verbessern die Data Management Funktionen kontinuierlich. Hier sind einige der neuesten Beispiele:
Um die Data Management Fähigkeiten weiter zu verbessern, wird die erweiterte Datenverwaltung immer beliebter. Dies ist ein Zweig der erweiterten Intelligenz, der von kognitiven Technologien angetrieben wird, zu denen KI, ML, Datenautomatisierung, Data Fabric und Data Mesh gehören. Zu den Vorteilen dieser Automatisierungsform gehört, dass Dateneigentümer Datenprodukte wie Kataloge von Datenassets erstellen können, mit der Möglichkeit, Datenprodukte zu suchen und zu finden und Visualisierungen und Datenprodukte mithilfe von APIs abzufragen. Darüber hinaus können Erkenntnisse aus den Metadaten der Data Fabric dazu beitragen, Aufgaben zu automatisieren, indem sie im Rahmen des Erstellungsprozesses von Datenprodukten oder im Rahmen des Data Management Prozesses von der Überwachung von Datenprodukte lernen.
Ein Datenspeicher für generative KI wie IBM watsonx.data kann Unternehmen dabei helfen, Daten für KI-Modelle und -Anwendungen effizient zu vereinheitlichen, zu kuratieren und vorzubereiten. Integrierte und vektorisierte Einbettungsfunktionen ermöglichen Anwendungsfälle für Retrieval-Augmented Generation (RAG) in großem Maßstab über große Mengen vertrauenswürdiger, verwalteter Daten.
Um die Anwendungskonnektivität und Sicherheit über Plattformen, Cluster und Clouds hinweg zu vereinfachen, kann eine Hybrid-Cloud-Bereitstellung hilfreich sein. Anwendungen können einfach bereitgestellt und zwischen Umgebungen verschoben werden, da Container und Object Storage für die Portabilität von Computern und Daten gesorgt haben.
Um den Datenzugriff zu beschleunigen und neue Datenerkenntnisse ohne SQL zu gewinnen, schaffen Unternehmen eine einbettbare, KI-gestützte semantische Ebene. Dabei handelt es sich um eine Metadaten- und Abstraktionsebene, die auf den Quelldaten des Unternehmens aufbaut, z. B. einem Data Lake oder Data Warehouse. Die Metadaten können das verwendete Datenmodell ergänzen und außerdem für Geschäftsanwender ausreichend klar sein.
Unternehmen können auf Daten über eine Hybrid Cloud zugreifen, indem sie Speicher- und Analyseumgebungen miteinander verbinden. Der Zugriff kann über einen einzigen Eingangspunkt mit einer gemeinsam genutzten Metadatenschicht für Clouds und lokale Umgebungen erfolgen. Zur Optimierung von Analysen und KI-Workloads können mehrere Abfrage-Engines verwendet werden.
Die Erstellung einer gemeinsamen Metadatenebene in einem Data Lakehouse zur Katalogisierung und zum gemeinsamen Teilen von Daten gilt als Best Practice. Dies beschleunigt die Erkennung und Anreicherung, die Analyse von Daten aus mehreren Quellen, die Ausführung von Workloads und Anwendungsfällen.
Darüber hinaus beschleunigt ein Tool zur Verwaltung gemeinsam genutzter Metadaten die Verwaltung von Objekten in einem gemeinsam genutzten Repository. Es kann verwendet werden, um ein neues Host-System, eine neue Datenbank oder Datendatei oder ein neues Schema hinzuzufügen und Elemente aus einem gemeinsam genutzten Repository zu löschen.
Entwerfen Sie eine Datenstrategie, die Datensilos beseitigt, die Komplexität reduziert und die Datenqualität verbessert, um außergewöhnliche Kunden- und Mitarbeitererfahrungen zu schaffen.
Watsonx.data ermöglicht es Ihnen, Analysen und KI mit all Ihren Daten zu skalieren, unabhängig davon, wo sie sich befinden, und zwar über einen offenen, hybriden und kontrollierten Datenspeicher.
Erschließen Sie den Wert von Unternehmensdaten mit IBM Consulting und bauen Sie ein erkenntnisgesteuertes Unternehmen auf, das Ihnen geschäftliche Vorteile verschafft.
1 Wire19.com: „Ways to Secure that your data is AI-ready“, 14. Juni 2024
2 Gartner: „Strategic Roadmap for Migrating Data Management Solutions to the Cloud“, 27. September 2023