Was ist Datenkennzeichnung?

Was ist Daten-Labeln?

Die Datenkennzeichnung oder Datenannotation ist Teil der Vorverarbeitungsphase bei der Entwicklung eines Machine Learning (ML)-Modells.

Die Kennzeichnung von Daten erfordert die Identifizierung von Rohdaten (z. B. Bilder, Textdateien, Videos) und das Hinzufügen einer oder mehrerer Kennzeichnungen zu diesen Daten, um den Kontext für die Modelle zu spezifizieren, sodass das Modell für maschinelles Lernen genaue Vorhersagen machen kann.

Die Kennzeichnung von Daten bildet die Grundlage für verschiedene Anwendungsfälle des maschinellen Lernens und des Deep Learning, einschließlich Computer Vision und der Verarbeitung natürlicher Sprache (NLP).

Der Datenspeicher für KI

Erfahren Sie, wie wirkungsvoll die Integration einer Data-Lakehouse-Strategie in Ihre Datenarchitektur sein kann, einschließlich Verbesserungen zur Skalierung von KI und Möglichkeiten zur Kostenoptimierung.

Ähnliche Inhalte

Registrieren Sie sich für das E-Book zum Thema generative KI

Wie funktioniert die Datenkennzeichnung?

Unternehmen integrieren Software, Prozesse und Datenkommentatoren, um Daten zu bereinigen, zu strukturieren und zu kennzeichnen. Diese Trainingsdaten bilden die Grundlage für Modelle des maschinellen Lernens. Diese Kennzeichnungen ermöglichen es Analysten, Variablen innerhalb von Datensätzen zu isolieren, was wiederum die Auswahl optimaler Datenprädiktoren für ML-Modelle ermöglicht. Die Kennzeichnungen identifizieren die geeigneten Datenvektoren, die für das Modelltraining herangezogen werden, wo das Modell dann lernt, die besten Vorhersagen zu treffen.

Neben maschineller Unterstützung ist bei der Datenkennzeichnung auch die Beteiligung von Menschen – „Human-In-The-Loop (HITL)“ – erforderlich. HITL nutzt das Urteilsvermögen menschlicher „Datenkennzeichner“ für die Erstellung, Schulung, Feinabstimmung und das Testen von ML-Modellen. Sie helfen bei der Steuerung des Datenkennzeichnungsprozesses, indem sie die Modelldatensätze einspeisen, die für ein bestimmtes Projekt am besten geeignet sind.

Gekennzeichnete Daten vs. nicht gekennzeichnete Daten

Computer verwenden gekennzeichnete und nicht gekennzeichnete Daten, um ML-Modelle zu trainieren, aber was ist der Unterschied?

Gekennzeichnete Daten werden beim überwachten Lernen verwendet, während nicht gekennzeichnete Daten beim unüberwachten Lernen verwendet werden.
Gekennzeichnete Daten sind schwieriger zu erfassen und zu speichern (d. h. zeitaufwändig und teuer), während Daten ohne Kennzeichnung einfacher zu erfassen und zu speichern sind.
Gekennzeichnete Daten können verwendet werden, um umsetzbare Erkenntnisse zu gewinnen (z. B. Forecasting-Aufgaben), während nicht gekennzeichnete Daten in ihrer Nützlichkeit eingeschränkter sind. Unüberwachte Lernmethoden können dabei helfen, neue Datencluster zu entdecken, und ermöglichen so neue Kategorisierungen bei der Beschriftung.

Computer können auch kombinierte Daten für halbüberwachtes Lernen verwenden, wodurch der Bedarf an manuell gekennzeichneten Daten verringert wird und gleichzeitig ein großer annotierter Datensatz bereitgestellt wird.

Ansätze für Datenkennzeichnung

Die Datenkennzeichnung ist ein entscheidender Schritt bei der Entwicklung eines leistungsstarken ML-Modells. Obwohl die Kennzeichnung einfach erscheint, ist sie nicht immer leicht umzusetzen. Daher müssen Unternehmen mehrere Faktoren und Methoden berücksichtigen, um den besten Ansatz für die Kennzeichnung zu ermitteln. Da jede Methode zur Datenkennzeichnung ihre Vor- und Nachteile hat, wird eine detaillierte Bewertung der Aufgabenkomplexität sowie der Größe, des Umfangs und der Dauer des Projekts empfohlen.

Hier sind einige Pfade zum Kennzeichnen Ihrer Daten:

Interne Kennzeichnung – Der Einsatz interner Data-Science-Experten vereinfacht die Nachverfolgung, sorgt für eine höhere Genauigkeit und steigert die Qualität. Dieser Ansatz erfordert jedoch in der Regel mehr Zeit und begünstigt große Unternehmen mit umfangreichen Ressourcen.
Synthetische Kennzeichnung – Bei diesem Ansatz werden neue Projektdaten aus bereits vorhandenen Datensätzen generiert, wodurch die Datenqualität und die Zeiteffizienz verbessert werden. Die synthetische Kennzeichnung erfordert jedoch eine hohe Rechenleistung, was zu höheren Preisen führen kann.
Programmatische Kennzeichnung – Bei diesem automatisierten Datenkennzeichnungsverfahren werden Skripte verwendet, um den Zeitaufwand und den Bedarf an manuellen Anmerkungen zu reduzieren. Da jedoch technische Probleme auftreten können, muss HITL weiterhin Teil des Qualitätssicherungsprozesses (QS) bleiben.
Outsourcing – Dies kann eine optimale Wahl für zeitlich begrenzte Projekte auf hoher Ebene sein, aber die Entwicklung und Verwaltung eines auf Freiberufler ausgerichteten Workflows kann auch mit einem hohen Zeitaufwand verbunden sein. Obwohl Plattformen für Freiberufler umfassende Informationen über Bewerber bereitstellen, um den Überprüfungsprozess zu erleichtern, bietet die Einstellung von Teams für die Datenbeschriftung vorab überprüfte Mitarbeiter und vorgefertigte Tools für die Kennzeichnung von Daten.
Crowdsourcing – Dieser Ansatz ist aufgrund seiner Mikrotasking-Fähigkeit und webbasierten Verteilung schneller und kostengünstiger. Die Qualität der Mitarbeiter, die Qualitätssicherung und das Projektmanagement variieren jedoch je nach Crowdsourcing-Plattform. Eines der bekanntesten Beispiele für die Dateneingabe durch Crowdsourcing ist Recaptcha. Dieses Projekt hatte zwei Ziele: die Kontrolle von Bots und die gleichzeitige Verbesserung der Datenanmerkungen von Bildern. Zum Beispiel würde eine Recaptcha-Eingabeaufforderung einen Benutzer auffordern, alle Fotos zu identifizieren, die ein Auto enthalten, um zu beweisen, dass es sich um einen Menschen handelt. Anschließend könnte sich dieses Programm anhand der Ergebnisse anderer Benutzer selbst überprüfen. Die Beiträge dieser Benutzer lieferten eine Datenbank mit Beschriftungen für eine Reihe von Bildern.

Vorteile und Herausforderungen der Datenkennzeichnung

Der allgemeine Kompromiss bei der Datenkennzeichnung besteht darin, dass sie zwar die Skalierungszeit eines Unternehmens verkürzen kann, aber in der Regel mit Kosten verbunden ist. Genauere Daten verbessern im Allgemeinen die Modellvorhersagen, sodass sich die Investition trotz der hohen Kosten in der Regel lohnt. Da die Datenannotation Datensätzen mehr Kontext verleiht, verbessert sie die Leistung der explorativen Datenanalyse sowie von Anwendungen des maschinellen Lernens (ML) und der künstlichen Intelligenz (KI). Beispielsweise führt die Datenkennzeichnung zu relevanteren Suchergebnissen auf Suchmaschinenplattformen und besseren Produktempfehlungen auf E-Commerce-Plattformen. Lassen Sie uns näher auf andere wichtige Vorteile und Herausforderungen eingehen:

Vorteile

Die Datenkennzeichnung bietet Benutzern, Teams und Unternehmen einen besseren Kontext, eine bessere Qualität und eine bessere Benutzerfreundlichkeit. Konkret können Sie Folgendes erwarten:

Präzisere Vorhersagen: Eine genaue Datenkennzeichnung gewährleistet eine bessere Qualitätssicherung innerhalb der Algorithmen für maschinelles Lernen, sodass das Modell trainiert werden und den erwarteten Output liefern kann. Ansonsten gilt, wie das alte Sprichwort sagt: „Müll rein, Müll raus.“ Richtig beschriftete Daten liefern die „Grundwahrheit“ (d. h., wie Beschriftungen Szenarien der „realen Welt“ widerspiegeln) für das Testen und Iterieren nachfolgender Modelle.
Bessere Nutzbarkeit der Daten: Die Kennzeichnung von Daten kann auch die Nutzbarkeit von Datenvariablen innerhalb eines Modells verbessern. Sie könnten zum Beispiel eine kategorische Variable in eine binäre Variable umklassifizieren, um sie für ein Modell besser nutzbar zu machen. Die Aggregation von Daten auf diese Weise kann das Modell optimieren, indem es die Anzahl der Modellvariablen reduziert oder die Einbeziehung von Kontrollvariablen ermöglicht. Unabhängig davon, ob Sie Daten zur Erstellung von Computer-Vision-Modellen verwenden (d. h. Setzen von Begrenzungsrahmen um Objekte) oder NLP-Modelle (d. h. Klassifizierung von Texten für soziale Stimmungen), ist die Verwendung hochwertiger Daten von höchster Priorität.

Herausforderungen

Die Datenkennzeichnung ist nicht ohne Herausforderungen. Zu den häufigsten Herausforderungen zählen insbesondere:

Teuer und zeitaufwändig: Während die Datenkennzeichnung für Modelle des maschinellen Lernens von entscheidender Bedeutung ist, kann sie sowohl aus Ressourcen- als auch aus Zeitsicht kostspielig sein. Wenn ein Unternehmen einen stärker automatisierten Ansatz verfolgt, müssen die Entwicklungsteams vor der Datenverarbeitung immer noch Datenpipelines einrichten, und die manuelle Kennzeichnung wird fast immer teuer und zeitaufwändig sein.
Anfällig für menschliches Versagen: Diese Kennzeichnungsansätze unterliegen auch menschlichem Versagen (z. B. Codierungsfehler, manuelle Eingabefehler), was die Datenqualität verringern kann. Dies wiederum führt zu einer ungenauen Datenverarbeitung und -modellierung. Qualitätssicherungsprüfungen sind unerlässlich für die Wahrung der Datenqualität.

Best Practices für die Datenkennzeichnung

Unabhängig vom Ansatz optimieren die folgenden Best Practices die Genauigkeit und Effizienz der Datenkennzeichnung:

Intuitive und optimierte Aufgabenoberflächen minimieren die kognitive Belastung und den Kontextwechsel für menschliche Kennzeichner.
Konsens: Misst den Grad der Übereinstimmung zwischen mehreren Kennzeichnern (Mensch oder Maschine). Ein Konsenswert wird berechnet, indem die Summe der übereinstimmenden Beschriftungen durch die Gesamtzahl der Beschriftungen pro Asset geteilt wird.
Etiketten-Überwachung: Überprüft die Richtigkeit von Beschriftungen und aktualisiert sie bei Bedarf.
Transfer-Lernen: Nimmt ein oder mehrere vortrainierte Modelle aus einem Dataset und wendet sie auf ein anderes Dataset an. Dazu kann auch Multitasking-Lernen gehören, bei dem mehrere Aufgaben im Tandem erlernt werden.
Aktives Lernen: Eine Kategorie von ML-Algorithmen und Teilmengen von halbüberwachtem Lernen, die Menschen dabei hilft, die geeignetsten Datensätze zu identifizieren. Zu den aktiven Lernansätzen gehören:
- Synthese der Mitgliedschaftsabfrage – Generiert eine synthetische Instanz und fordert eine Bezeichnung dafür an.
- Pool-basiertes Sampling – Ordnet alle unbeschrifteten Instanzen nach dem Maß der Informiertheit und wählt die besten Abfragen für die Annotation aus.
- Streambasierte selektive Stichprobe – Wählt nicht beschriftete Instanzen einzeln aus und ignoriert sie je nach Informativität oder Unsicherheit.

Anwendungsfälle für die Datenkennzeichnung

Obwohl die Datenkennzeichnung die Genauigkeit, Qualität und Benutzerfreundlichkeit in verschiedenen Kontexten und Branchen verbessern kann, gehören die folgenden Anwendungsfälle zu den wichtigsten:

Computer Vision: Ein KI-Bereich, der Trainingsdaten verwendet, um ein Computer-Vision-Modell zu erstellen, das die Bildsegmentierung und die Automatisierung von Kategorien ermöglicht, wichtige Punkte in einem Bild identifiziert und die Position von Objekten erkennt. Tatsächlich bietet IBM mit Maximo Visual Inspection eine Computer-Vision-Plattform an, die es Fachexperten ermöglicht, Deep-Learning-Vision-Modelle zu kennzeichnen und zu trainieren, die in der Cloud, auf Edge-Geräten und in lokalen Rechenzentren eingesetzt werden können. Computer Vision wird in zahlreichen Branchen eingesetzt – von der Energie- und Versorgungswirtschaft bis hin zur Fertigungs- und Automobilindustrie. Bis 2022 dürfte dieser Wachstumsbereich einen Marktwert von 48,6 Milliarden US-Dollar erreichen.
Natural Language Processing (NLP): Ein Zweig der KI, der Computerlinguistik mit statistischen, maschinellen Lern- und Deep-Learning-Modellen kombiniert, um wichtige Textabschnitte zu identifizieren und zu markieren, die Trainingsdaten für die Stimmungsanalyse, die Erkennung von Entitätsnamen und die optische Zeichenerkennung generieren. NLP wird zunehmend in Unternehmenslösungen wie Spam-Erkennung, maschineller Übersetzung, Spracherkennung, Textzusammenfassung, virtuellen Assistenten und Chatbots sowie sprachgesteuerten GPS-Systemen eingesetzt. Dies hat NLP zu einer wichtigen Komponente in der Entwicklung unternehmenskritischer Geschäftsprozesse gemacht.

Weiterführende Lösungen

Natural Language Understanding

Der Service für die Verarbeitung natürlicher Sprache (NLP) für fortgeschrittene Textanalysen.

IBM Watson Natural Language Understanding erkunden

Cloud Object Storage

Ermöglichen Sie KI-Workloads und konsolidieren Sie primäre und sekundäre Big Data-Speicher mit branchenführendem, On-Premises-Object Storage.

IBM Cloud Object Storage entdecken

Visuelle Inspektion

Probleme mit fortschrittlicher, KI-gestützter Remote-Überwachung und Computer Vision für Assets und betriebliche Abläufe erkennen, vorhersagen und vermeiden.

Mehr zur IBM Maximo Application Suite – visuelle Inspektion

Machen Sie den nächsten Schritt

Skalieren Sie KI-Workloads für alle Ihre Daten, überall, mit IBM watsonx.data, einem zweckmäßigen Datenspeicher, der auf einer offenen Lakehouse-Architektur basiert.

watsonx.data erkunden

Buchen Sie eine Live-Demo