Bei der Anomaly Detection, also der Erkennung von Anomalien oder Sonderfällen, handelt es sich um die Ermittlung von Beobachtungen, Ereignissen oder Datenpunkten, die von der Norm oder den Erwartungen abweichen und mit dem Rest des Datensatzes inkonsistent sind.
Anomaly Detection hat eine lange Geschichte im Bereich der Statistik, wo Analysten und Wissenschaftler Diagramme auf anormale Elemente hin untersuchten. Heute nutzt Anomaly Detection künstliche Intelligenz (KI) und maschinelles Lernen (ML), um unerwartete Änderungen im normalen Verhalten eines Datensatzes automatisch zu erkennen.
Anomale Daten können auf kritische Vorfälle hinweisen, die im Verborgenen stattfinden, wie z. B. ein Ausfall der Infrastruktur, eine wesentliche Änderung durch eine vorgelagerte Quelle oder eine sicherheitsrelevante Bedrohung. Anomalien können auch Möglichkeiten zur Optimierung der Architektur oder zur Verbesserung der Marketingstrategien aufzeigen.
Anomaly Detection hat eine Reihe von Anwendungsfällen in verschiedenen Branchen. Sie wird beispielsweise im Finanzwesen zur Aufdeckung von Betrug, in der Fertigung zur Erkennung von Defekten oder Fehlfunktionen von Geräten, im Bereich der Cybersicherheit zur Erkennung ungewöhnlicher Netzwerkaktivitäten und im Gesundheitswesen zur Erkennung anormaler Patientenzustände eingesetzt.
Die Erkennung von Sonderfällen kann eine Herausforderung sein, da Anomalien oft selten sind und die Merkmale des normalen Verhaltens komplex und dynamisch sein können. Aus geschäftlicher Sicht ist es von entscheidender Bedeutung, tatsächliche Anomalien zu erkennen und nicht etwa falsch positive Ergebnisse oder Datenrauschen.
Branchen-Newsletter
Erhalten Sie kuratierte Einblicke in die wichtigsten – und faszinierendsten – KI-Neuheiten. Abonnieren Sie unseren wöchentlichen Think-Newsletter. Weitere Informationen in der IBM Datenschutzerklärung.
Ihr Abonnement wird auf Englisch geliefert. In jedem Newsletter finden Sie einen Abmeldelink. Hier können Sie Ihre Abonnements verwalten oder sich abmelden. Weitere Informationen finden Sie in unserer IBM Datenschutzerklärung.
Datenanomalien können im Bereich der Data Science erhebliche Auswirkungen haben und zu falschen oder irreführenden Schlussfolgerungen führen. So kann beispielsweise ein einzelner Sonderfall den Mittelwert eines Datensatzes erheblich verzerren, sodass dieser eine ungenaue Darstellung der Daten darstellt. Darüber hinaus können sich Datenanomalien auf die Leistung von Algorithmen für maschinelles Lernen auswirken, da sie dazu führen können, dass sich das Modell dem Rauschen anpasst und nicht dem zugrunde liegenden Muster in den Daten.
Die Erkennung und Behandlung von Datenanomalien ist aus mehreren Gründen von entscheidender Bedeutung:
Verbesserte Datenqualität: Die Erkennung und Behandlung von Datenanomalien kann die Datenqualität erheblich verbessern, was für eine genaue und zuverlässige Datenanalyse unerlässlich ist. Durch die Beseitigung von Datenanomalien können Analysten das Rauschen und die Fehler in den Datensätzen reduzieren und so sicherstellen, dass die Daten repräsentativer für die wahren zugrunde liegenden Muster sind.
Verbesserte Entscheidungsfindung: Die datengestützte Entscheidungsfindung beruht auf einer genauen und zuverlässigen Datenanalyse, die als Grundlage für Entscheidungen dient. Durch die Identifizierung und Behandlung von Datenanomalien können Analysten sicherstellen, dass ihre Ergebnisse vertrauenswürdiger sind, was zu besser informierten Entscheidungen und besseren Ergebnissen führt.
Optimierte Leistung beim maschinellen Lernen: Datenanomalien können die Leistung von Algorithmen für maschinelles Lernen erheblich beeinträchtigen, da sie dazu führen können, dass sich das Modell an das Rauschen und nicht an das zugrunde liegende Muster in den Daten anpasst. Durch die Identifizierung und Behandlung von Datenanomalien können Analysten die Leistung ihrer maschinellen Lernmodelle optimieren und sicherstellen, dass diese genaue und zuverlässige Vorhersagen liefern.
Ein System zur Anomaly Detection kann zwei allgemeine Arten von Anomalien aufdecken: unbeabsichtigte und beabsichtigte.
Unbeabsichtigte Anomalien sind Datenpunkte, die aufgrund von Fehlern oder Rauschen im Datenerfassungsprozess von der Norm abweichen. Diese Fehler sind entweder systematischer oder zufälliger Natur und können z. B. durch fehlerhafte Sensoren oder menschliches Versagen bei der Dateneingabe verursacht werden. Unbeabsichtigte Anomalien können den Datensatz verzerren, was es schwierig macht, genaue Erkenntnisse abzuleiten.
Beabsichtigte Anomalien sind Datenpunkte, die aufgrund bestimmter Aktionen oder Ereignisse von der Norm abweichen. Diese Anomalien können einzigartige Vorkommnisse oder Trends hervorheben und so wertvolle Erkenntnisse über den Datensatz liefern.Eine plötzliche Umsatzspitze während der Ferienzeit ist ein Beispiel für eine absichtliche Anomalie, da sie vom typischen Verkaufsmuster abweicht, aber aufgrund eines realen Ereignisses erwartbar ist.
Bei Geschäftsdaten gibt es im Wesentlichen drei Arten von Zeitreihenanomalien: Punktanomalien, kontextbezogene Anomalien und kollektive Anomalien.
Punktuelle Anomalien, auch als globale Sonderfälle bezeichnet, sind einzelne Datenpunkte, die weit außerhalb des restlichen Datensatzes liegen. Sie können entweder beabsichtigt oder unbeabsichtigt sein und aus Fehlern, Rauschen oder einmaligen Ereignissen resultieren. Ein Beispiel für eine Punktanomalie ist eine Abhebung von einem Bankkonto, die deutlich höher als alle vorherigen Abhebungen des Nutzers ist.
Kontextbezogene Anomalien sind Datenpunkte, die innerhalb eines bestimmten Kontexts von der Norm abweichen. Isoliert betrachtet, sind diese Anomalien nicht unbedingt Sonderfälle, sondern erst in ihrem spezifischen Kontext.
Nehmen Sie zum Beispiel den Energieverbrauch zu Hause. Wenn es zur Mittagszeit, wenn normalerweise keine Familienmitglieder zu Hause sind, einen plötzlichen Anstieg des Energieverbrauchs gibt, wäre die Anomalie kontextbezogen. Dieser Datenpunkt ist vielleicht kein Sonderfall, wenn man ihn mit dem Energieverbrauch am Morgen oder Abend vergleicht (wenn die Menschen normalerweise zu Hause sind), aber er ist ungewöhnlich im Zusammenhang mit der Tageszeit, zu der er auftritt.
Bei kollektiven Anomalien handelt es sich um eine Reihe von Dateninstanzen, die zusammen von der Norm abweichen, auch wenn einzelne Instanzen normal erscheinen. Ein Beispiel für diese Art von Anomalie ist ein Datensatz des Netzwerkverkehrs, der zeigt, dass der Datenverkehr von mehreren IP-Adressen zur gleichen Zeit deutlich ansteigt.
Ein System zur Erkennung von Datenanomalien ist ein entscheidender Aspekt bei der Datenanalyse, damit die Ergebnisse genau und zuverlässig sind. Dieses System kann mit verschiedenen Methoden zur Anomaly Detection erstellt werden.
Visualisierung ist ein überzeugendes Mittel zur Erkennung von Datenanomalien. Es ermöglicht die schnelle Ermittlung von Sonderfällen und Mustern in den Daten. Werden die Daten in Diagrammen und Grafiken dargestellt, lässt sich der Datensatz visuell auf ungewöhnliche Datenpunkte oder Trends untersuchen.
Mit statistischen Tests können die beobachteten Daten mit der erwarteten Verteilung oder dem erwarteten Muster verglichen werden, um Datenanomalien aufzudecken.
Der Grubbs-Test kann zum Beispiel verwendet werden, um Sonderfälle in einem Datensatz zu identifizieren, indem jeder Datenpunkt mit dem Mittelwert und der Standardabweichung der Daten verglichen wird. In ähnlicher Weise kann der Kolmogorov-Smirnov-Test verwendet werden, um festzustellen, ob ein Datensatz einer bestimmten Verteilung folgt, z. B. einer Normalverteilung.
Algorithmen des maschinellen Lernens können zur Erkennung von Datenanomalien eingesetzt werden, da sie das zugrundeliegende Muster in den Daten erlernen und dann Abweichungen davon ermitteln. Einige der gängigsten ML-Algorithmen zur Erkennung von Anomalien sind Folgende:
Ein Algorithmus zur Erkennung von Anomalien kann lernen, Muster zu erkennen und auffällige Daten mithilfe verschiedener Trainingsmethoden für maschinelles Lernen zu entdecken. Die Menge der gelabelten Daten im Trainingsdatensatz eines Datenteams bestimmt, welche der wichtigsten Techniken zur Erkennung von Anomalien verwendet werden – unbeaufsichtigt, überwacht oder halbüberwacht.
Bei Techniken zur unüberwachten Anomalieerkennung wird ein Modell so trainiert, dass es mit nicht gekennzeichneten Datensätzen selbstständig Muster oder Anomalien erkennt. Obwohl diese Techniken aufgrund ihrer breiteren und relevanten Anwendung mit Abstand am häufigsten eingesetzt werden, erfordern sie riesige Datensätze und enorme Verarbeitungsleistung. Unüberwachtes maschinelles Lernen findet man am häufigsten in Deep-Learning-Szenarien auf Basis künstlicher neuronaler Netze.
Techniken zur überwachten Anomalieerkennung verwenden einen Algorithmus, der auf einem markierten Datensatz trainiert wird, der sowohl normale als auch anomale Instanzen enthält. Da im Allgemeinen keine gelabelten Trainingsdaten zur Verfügung stehen und die Kategorien von Natur aus unausgewogen sind, werden diese Techniken zur Erkennung von Anomalien nur selten eingesetzt.
Teilüberwachte Techniken maximieren die positiven Eigenschaften sowohl der unüberwachten als auch der überwachten Anomaly Detection. Stellt man dem Algorithmus einen Teil der gekennzeichneten Daten zur Verfügung, kann er teilweise trainiert werden. Mit dem teilweise trainierten Algorithmus wird dann ein größerer Datensatz selbstständig gekennzeichnet. Man nennt dies auch „Pseudo-Kennzeichnung“. Erweisen sich diese neu gekennzeichneten Datenpunkte als zuverlässig, werden sie mit dem Originaldatensatz kombiniert, um den Algorithmus im Detail abzustimmen.
Die richtige Kombination aus supervised und unsupervised Machine Learning ist für die Automatisierung des maschinellen Lernens entscheidend. Im Idealfall würde die überwiegende Mehrheit der Datenklassifizierungen ohne menschliche Interaktion auf unüberwachte Weise erfolgen. Dennoch sollten Dateningenieure in der Lage sein, Algorithmen mit Trainingsdaten zu füttern, die dabei helfen, Basisdaten für den Normalbetrieb zu erstellen. Ein semi-supervised Ansatz ermöglicht eine skalierende Anomaly Detection mit der Flexibilität, manuelle Regeln für bestimmte Anomalien aufzustellen.
Anomaly-Detection-Modelle werden im Banken- und Versicherungswesen sowie im Aktienhandel häufig eingesetzt, um betrügerische Aktivitäten in Echtzeit zu erkennen, z. B. nicht autorisierte Transaktionen, Geldwäsche, Kreditkartenbetrug, gefälschte Steuererklärungen und anormale Handelsmuster.
Systeme zur Erkennung von Eindringlingen (Intrusion Detection Systems, IDS) und andere Cybersicherheitstechnologien können durch Anomaly Detection ungewöhnliche oder verdächtige Benutzeraktivitäten oder Netzwerkverkehrsmuster ermitteln, die auf potenzielle Sicherheitsbedrohungen oder Angriffe wie Malware-Infektionen oder unbefugten Zugriff hinweisen.
Anomaly-Detection-Algorithmen werden oft zusammen mit Computer Vision eingesetzt, um Fehler in Produkten oder Verpackungen zu finden. Hierzu werden hoch auflösendes Kamerabildmaterial, Sensordaten und Produktionsmetriken analysiert.
Mit Anomaly Detection wird die Leistung von IT-Systemen überwacht, um einen reibungslosen Betrieb aufrechtzuerhalten: Ungewöhnliche Muster in Serverprotokollen werden ermittelt und Fehler aus Mustern bzw. früheren Erfahrungen rekonstruiert. So lassen sich mögliche Probleme oder Ausfälle vorhersagen.
Durch die Erkennung von Unregelmäßigkeiten in Sensordaten aus dem Internet der Dinge (IoT) und Betriebstechnik können mithilfe von Anomaly Detection Geräteausfälle oder Wartungsbedarf in Branchen wie der Luftfahrt, der Energieversorgung und dem Transportwesen vorhergesagt werden. Bei der Überwachung von Energieverbrauchsmustern und zur Erkennung von Nutzungsanomalien kann die Anomaly Detection ein effizienteres Energiemanagement und die frühzeitige Erkennung von Geräteausfällen ermöglichen.
Mit Anomaly-Detection-Modellen lassen sich ungewöhnliche Muster im Kundenverhalten, um so Betrug aufzudecken, die Kundenabwanderung vorherzusagen und Marketingstrategien zu verbessern. Beim E-Commerce können mit der Anomaly Detection gefälschte Bewertungen, Kontoübernahmen, ungewöhnliches Kaufverhalten und andere Anzeichen von Betrug oder Cyberkriminalität ermittelt werden.
Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.
Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.
Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.