Was versteht man unter Anomaly Detection?

Geschäftsfrau arbeitet im Büro am Tablet

Was versteht man unter Anomalieerkennung?

Bei der Anomaly Detection, also der Erkennung von Anomalien oder Sonderfällen, handelt es sich um die Ermittlung von Beobachtungen, Ereignissen oder Datenpunkten, die von der Norm oder den Erwartungen abweichen und mit dem Rest des Datensatzes inkonsistent sind.

Anomaly Detection hat eine lange Geschichte im Bereich der Statistik, wo Analysten und Wissenschaftler Diagramme auf anormale Elemente hin untersuchten. Heute nutzt Anomaly Detection künstliche Intelligenz (KI) und maschinelles Lernen (ML), um unerwartete Änderungen im normalen Verhalten eines Datensatzes automatisch zu erkennen.

Anomale Daten können auf kritische Vorfälle hinweisen, die im Verborgenen stattfinden, wie z. B. ein Ausfall der Infrastruktur, eine wesentliche Änderung durch eine vorgelagerte Quelle oder eine sicherheitsrelevante Bedrohung. Anomalien können auch Möglichkeiten zur Optimierung der Architektur oder zur Verbesserung der Marketingstrategien aufzeigen.

Anomaly Detection hat eine Reihe von Anwendungsfällen in verschiedenen Branchen. Sie wird beispielsweise im Finanzwesen zur Aufdeckung von Betrug, in der Fertigung zur Erkennung von Defekten oder Fehlfunktionen von Geräten, im Bereich der Cybersicherheit zur Erkennung ungewöhnlicher Netzwerkaktivitäten und im Gesundheitswesen zur Erkennung anormaler Patientenzustände eingesetzt.

Die Erkennung von Sonderfällen kann eine Herausforderung sein, da Anomalien oft selten sind und die Merkmale des normalen Verhaltens komplex und dynamisch sein können. Aus geschäftlicher Sicht ist es von entscheidender Bedeutung, tatsächliche Anomalien zu erkennen und nicht etwa falsch positive Ergebnisse oder Datenrauschen.

Die neuesten KI-Trends, präsentiert von Experten

Erhalten Sie kuratierte Einblicke in die wichtigsten – und faszinierendsten – KI-Neuheiten. Abonnieren Sie unseren wöchentlichen Think-Newsletter. Weitere Informationen in der IBM Datenschutzerklärung.

Vielen Dank! Sie haben ein Abonnement abgeschlossen.

Ihr Abonnement wird auf Englisch geliefert. In jedem Newsletter finden Sie einen Abmeldelink. Hier können Sie Ihre Abonnements verwalten oder sich abmelden. Weitere Informationen finden Sie in unserer IBM Datenschutzerklärung.

Warum ist es wichtig, Anomalien zu erkennen?

Datenanomalien können im Bereich der Data Science erhebliche Auswirkungen haben und zu falschen oder irreführenden Schlussfolgerungen führen. So kann beispielsweise ein einzelner Sonderfall den Mittelwert eines Datensatzes erheblich verzerren, sodass dieser eine ungenaue Darstellung der Daten darstellt. Darüber hinaus können sich Datenanomalien auf die Leistung von Algorithmen für maschinelles Lernen auswirken, da sie dazu führen können, dass sich das Modell dem Rauschen anpasst und nicht dem zugrunde liegenden Muster in den Daten.

Die Erkennung und Behandlung von Datenanomalien ist aus mehreren Gründen von entscheidender Bedeutung:

Verbesserte Datenqualität: Die Erkennung und Behandlung von Datenanomalien kann die Datenqualität erheblich verbessern, was für eine genaue und zuverlässige Datenanalyse unerlässlich ist. Durch die Beseitigung von Datenanomalien können Analysten das Rauschen und die Fehler in den Datensätzen reduzieren und so sicherstellen, dass die Daten repräsentativer für die wahren zugrunde liegenden Muster sind.

Verbesserte Entscheidungsfindung: Die datengestützte Entscheidungsfindung beruht auf einer genauen und zuverlässigen Datenanalyse, die als Grundlage für Entscheidungen dient. Durch die Identifizierung und Behandlung von Datenanomalien können Analysten sicherstellen, dass ihre Ergebnisse vertrauenswürdiger sind, was zu besser informierten Entscheidungen und besseren Ergebnissen führt.

Optimierte Leistung beim maschinellen Lernen: Datenanomalien können die Leistung von Algorithmen für maschinelles Lernen erheblich beeinträchtigen, da sie dazu führen können, dass sich das Modell an das Rauschen und nicht an das zugrunde liegende Muster in den Daten anpasst. Durch die Identifizierung und Behandlung von Datenanomalien können Analysten die Leistung ihrer maschinellen Lernmodelle optimieren und sicherstellen, dass diese genaue und zuverlässige Vorhersagen liefern.

Mixture of Experts | 12. Dezember, Folge 85

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Arten von Anomalien

Ein System zur Anomaly Detection kann zwei allgemeine Arten von Anomalien aufdecken: unbeabsichtigte und beabsichtigte.

Unbeabsichtigte Anomalien sind Datenpunkte, die aufgrund von Fehlern oder Rauschen im Datenerfassungsprozess von der Norm abweichen. Diese Fehler sind entweder systematischer oder zufälliger Natur und können z. B. durch fehlerhafte Sensoren oder menschliches Versagen bei der Dateneingabe verursacht werden. Unbeabsichtigte Anomalien können den Datensatz verzerren, was es schwierig macht, genaue Erkenntnisse abzuleiten.

Beabsichtigte Anomalien sind Datenpunkte, die aufgrund bestimmter Aktionen oder Ereignisse von der Norm abweichen. Diese Anomalien können einzigartige Vorkommnisse oder Trends hervorheben und so wertvolle Erkenntnisse über den Datensatz liefern.Eine plötzliche Umsatzspitze während der Ferienzeit ist ein Beispiel für eine absichtliche Anomalie, da sie vom typischen Verkaufsmuster abweicht, aber aufgrund eines realen Ereignisses erwartbar ist.

Anomalien in Zeitreihendaten

Bei Geschäftsdaten gibt es im Wesentlichen drei Arten von Zeitreihenanomalien: Punktanomalien, kontextbezogene Anomalien und kollektive Anomalien.

Punktuelle Anomalien, auch als globale Sonderfälle bezeichnet, sind einzelne Datenpunkte, die weit außerhalb des restlichen Datensatzes liegen. Sie können entweder beabsichtigt oder unbeabsichtigt sein und aus Fehlern, Rauschen oder einmaligen Ereignissen resultieren. Ein Beispiel für eine Punktanomalie ist eine Abhebung von einem Bankkonto, die deutlich höher als alle vorherigen Abhebungen des Nutzers ist.

Kontextbezogene Anomalien sind Datenpunkte, die innerhalb eines bestimmten Kontexts von der Norm abweichen. Isoliert betrachtet, sind diese Anomalien nicht unbedingt Sonderfälle, sondern erst in ihrem spezifischen Kontext.

Nehmen Sie zum Beispiel den Energieverbrauch zu Hause. Wenn es zur Mittagszeit, wenn normalerweise keine Familienmitglieder zu Hause sind, einen plötzlichen Anstieg des Energieverbrauchs gibt, wäre die Anomalie kontextbezogen. Dieser Datenpunkt ist vielleicht kein Sonderfall, wenn man ihn mit dem Energieverbrauch am Morgen oder Abend vergleicht (wenn die Menschen normalerweise zu Hause sind), aber er ist ungewöhnlich im Zusammenhang mit der Tageszeit, zu der er auftritt.

Bei kollektiven Anomalien handelt es sich um eine Reihe von Dateninstanzen, die zusammen von der Norm abweichen, auch wenn einzelne Instanzen normal erscheinen. Ein Beispiel für diese Art von Anomalie ist ein Datensatz des Netzwerkverkehrs, der zeigt, dass der Datenverkehr von mehreren IP-Adressen zur gleichen Zeit deutlich ansteigt.

Anomaly Detection – Methoden

Ein System zur Erkennung von Datenanomalien ist ein entscheidender Aspekt bei der Datenanalyse, damit die Ergebnisse genau und zuverlässig sind. Dieses System kann mit verschiedenen Methoden zur Anomaly Detection erstellt werden.

Visualisierung

Visualisierung ist ein überzeugendes Mittel zur Erkennung von Datenanomalien. Es ermöglicht die schnelle Ermittlung von Sonderfällen und Mustern in den Daten. Werden die Daten in Diagrammen und Grafiken dargestellt, lässt sich der Datensatz visuell auf ungewöhnliche Datenpunkte oder Trends untersuchen.

Statistische Tests

Mit statistischen Tests können die beobachteten Daten mit der erwarteten Verteilung oder dem erwarteten Muster verglichen werden, um Datenanomalien aufzudecken.

Der Grubbs-Test kann zum Beispiel verwendet werden, um Sonderfälle in einem Datensatz zu identifizieren, indem jeder Datenpunkt mit dem Mittelwert und der Standardabweichung der Daten verglichen wird. In ähnlicher Weise kann der Kolmogorov-Smirnov-Test verwendet werden, um festzustellen, ob ein Datensatz einer bestimmten Verteilung folgt, z. B. einer Normalverteilung.

Algorithmen des maschinellen Lernens

Algorithmen des maschinellen Lernens können zur Erkennung von Datenanomalien eingesetzt werden, da sie das zugrundeliegende Muster in den Daten erlernen und dann Abweichungen davon ermitteln. Einige der gängigsten ML-Algorithmen zur Erkennung von Anomalien sind Folgende:

  • Entscheidungsbäume: „Isolation Forest“, eine Art von Entscheidungsbaum, ist eine Methode des Ensemble-Lernens.
    Beim Ensemble-Lernen wird nicht nur eine Hypothese, sondern ein ganzer Satz von Hypothesen erlernt.
    Der „Isolation Forest“ isoliert Anomalien durch die zufällige Auswahl eines Merkmals und Split-Werts zwischen dem Höchst- und Mindestwert des ausgewählten Merkmals.

  • One-Class Support Vector Machine (SVM): Die One-Class SVM ist ein nur an „normalen“ Instanzen trainierter Klassifizierungsalgorithmus, der eine Abgrenzung um die normalen Daten schafft. Instanzen außerhalb dieser Abgrenzung werden als Anomalien betrachtet.

  • k-NN: k-NN (oder die nächsten k Nachbarn) ist ein einfacher Algorithmus, der einen Datenpunkt auf der Grundlage der Mehrheitsklasse seiner nächsten k Nachbarn klassifiziert. Instanzen, die deutlich weniger Nachbarn der gleichen Klasse haben, können als Anomalien betrachtet werden.

  • Naive Bayes-Klassifikatoren: Bei diesen Methoden wird die Wahrscheinlichkeit, dass ein Ereignis eintritt, auf der Grundlage des Vorhandenseins von beitragenden Faktoren und der Erkennung von Beziehungen mit derselben Ursache definiert.

  • Autoencoder: Dieses neuronale Netz nutzt Daten mit Zeitstempeln, um Datenmuster vorherzusagen und Anomalien zu erkennen, die nicht mit den historischen Daten übereinstimmen.

  • Local Outlier Factor (LOF): LOF (etwa: lokaler Sonderfall) ist ein dichtebasierter Algorithmus, der die lokale Dichteabweichung eines Datenpunkts im Verhältnis zu seinen benachbarten Datenpunkten misst. Punkte mit deutlich geringerer Dichte als ihre Nachbarn werden als Sonderfälle betrachtet.

  • k-Means-Clustering-Algorithmus: Hierbei wird der mittlere Abstand der nicht gekennzeichneten Datenpunkte analysiert, um sie einfacher in bestimmte Gruppen einzuteilen.

Anomaly Detection – Techniken

Ein Algorithmus zur Erkennung von Anomalien kann lernen, Muster zu erkennen und auffällige Daten mithilfe verschiedener Trainingsmethoden für maschinelles Lernen zu entdecken. Die Menge der gelabelten Daten im Trainingsdatensatz eines Datenteams bestimmt, welche der wichtigsten Techniken zur Erkennung von Anomalien verwendet werden – unbeaufsichtigt, überwacht oder halbüberwacht.

Unsupervised Anomaly Detection

Bei Techniken zur unüberwachten Anomalieerkennung wird ein Modell so trainiert, dass es mit nicht gekennzeichneten Datensätzen selbstständig Muster oder Anomalien erkennt. Obwohl diese Techniken aufgrund ihrer breiteren und relevanten Anwendung mit Abstand am häufigsten eingesetzt werden, erfordern sie riesige Datensätze und enorme Verarbeitungsleistung. Unüberwachtes maschinelles Lernen findet man am häufigsten in Deep-Learning-Szenarien auf Basis künstlicher neuronaler Netze.

Supervised Anomaly Detection

Techniken zur überwachten Anomalieerkennung verwenden einen Algorithmus, der auf einem markierten Datensatz trainiert wird, der sowohl normale als auch anomale Instanzen enthält. Da im Allgemeinen keine gelabelten Trainingsdaten zur Verfügung stehen und die Kategorien von Natur aus unausgewogen sind, werden diese Techniken zur Erkennung von Anomalien nur selten eingesetzt. 

Semi-supervised Anomaly Detection

Teilüberwachte Techniken maximieren die positiven Eigenschaften sowohl der unüberwachten als auch der überwachten Anomaly Detection. Stellt man dem Algorithmus einen Teil der gekennzeichneten Daten zur Verfügung, kann er teilweise trainiert werden. Mit dem teilweise trainierten Algorithmus wird dann ein größerer Datensatz selbstständig gekennzeichnet. Man nennt dies auch „Pseudo-Kennzeichnung“. Erweisen sich diese neu gekennzeichneten Datenpunkte als zuverlässig, werden sie mit dem Originaldatensatz kombiniert, um den Algorithmus im Detail abzustimmen.

Die richtige Kombination aus supervised und unsupervised Machine Learning ist für die Automatisierung des maschinellen Lernens entscheidend. Im Idealfall würde die überwiegende Mehrheit der Datenklassifizierungen ohne menschliche Interaktion auf unüberwachte Weise erfolgen. Dennoch sollten Dateningenieure in der Lage sein, Algorithmen mit Trainingsdaten zu füttern, die dabei helfen, Basisdaten für den Normalbetrieb zu erstellen. Ein semi-supervised Ansatz ermöglicht eine skalierende Anomaly Detection mit der Flexibilität, manuelle Regeln für bestimmte Anomalien aufzustellen.

Anomaly Detection – Anwendungsfälle

Betrugserkennung

Anomaly-Detection-Modelle werden im Banken- und Versicherungswesen sowie im Aktienhandel häufig eingesetzt, um betrügerische Aktivitäten in Echtzeit zu erkennen, z. B. nicht autorisierte Transaktionen, Geldwäsche, Kreditkartenbetrug, gefälschte Steuererklärungen und anormale Handelsmuster.

Cybersicherheit

Systeme zur Erkennung von Eindringlingen (Intrusion Detection Systems, IDS) und andere Cybersicherheitstechnologien können durch Anomaly Detection ungewöhnliche oder verdächtige Benutzeraktivitäten oder Netzwerkverkehrsmuster ermitteln, die auf potenzielle Sicherheitsbedrohungen oder Angriffe wie Malware-Infektionen oder unbefugten Zugriff hinweisen.

Fertigung und Qualitätskontrolle

Anomaly-Detection-Algorithmen werden oft zusammen mit Computer Vision eingesetzt, um Fehler in Produkten oder Verpackungen zu finden. Hierzu werden hoch auflösendes Kamerabildmaterial, Sensordaten und Produktionsmetriken analysiert.

IT-Systemverwaltung

Mit Anomaly Detection wird die Leistung von IT-Systemen überwacht, um einen reibungslosen Betrieb aufrechtzuerhalten: Ungewöhnliche Muster in Serverprotokollen werden ermittelt und Fehler aus Mustern bzw. früheren Erfahrungen rekonstruiert. So lassen sich mögliche Probleme oder Ausfälle vorhersagen.

Energie, Transport und kritische Infrastruktur

Durch die Erkennung von Unregelmäßigkeiten in Sensordaten aus dem Internet der Dinge (IoT) und Betriebstechnik können mithilfe von Anomaly Detection Geräteausfälle oder Wartungsbedarf in Branchen wie der Luftfahrt, der Energieversorgung und dem Transportwesen vorhergesagt werden. Bei der Überwachung von Energieverbrauchsmustern und zur Erkennung von Nutzungsanomalien kann die Anomaly Detection ein effizienteres Energiemanagement und die frühzeitige Erkennung von Geräteausfällen ermöglichen.

Einzelhandel und E-Commerce

Mit Anomaly-Detection-Modellen lassen sich ungewöhnliche Muster im Kundenverhalten, um so Betrug aufzudecken, die Kundenabwanderung vorherzusagen und Marketingstrategien zu verbessern. Beim E-Commerce können mit der Anomaly Detection gefälschte Bewertungen, Kontoübernahmen, ungewöhnliches Kaufverhalten und andere Anzeichen von Betrug oder Cyberkriminalität ermittelt werden.

Weitere Lösungen
IBM watsonx.ai

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

Entdecken sie watsonx.ai
Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen
KI-Beratung und -Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken
Machen Sie den nächsten Schritt

Profitieren Sie von einem einheitlichen Zugriff auf Funktionen, die den gesamten Lebenszyklus der KI-Entwicklung abdecken. Erstellen Sie leistungsstarke KI-Lösungen mit benutzerfreundlichen Oberflächen, Workflows und Zugriff auf branchenübliche APIs und SDKs.

watsonx.ai erkunden Live-Demo buchen