Data Mining ist der Einsatz von maschinellem Lernen und statistischer Analyse, um Muster und andere wertvolle Informationen aus großen Datensätzen aufzudecken.
Angesichts der Entwicklung des maschinellen Lernens (ML), des Data Warehousing und des Wachstums von Big Data hat sich die Einführung von Data Mining, auch bekannt als Knowledge Discovery in Databases (KDD), in den letzten Jahrzehnten rapide beschleunigt. Während sich diese Technologie jedoch kontinuierlich weiterentwickelt, um Daten in großem Umfang zu verarbeiten, könnten Führungskräfte immer noch mit Herausforderungen in Bezug auf Skalierbarkeit und Automatisierung konfrontiert sein.
Die Data-Mining-Techniken, die der Datenanalyse zugrunde liegen, können für zwei Hauptzwecke eingesetzt werden. Sie können entweder den Zieldatensatz beschreiben oder Ergebnisse mithilfe von Algorithmen für maschinelles Lernen vorhersagen.
Diese Methoden werden zur Organisation und Filterung von Daten verwendet, um die nützlichsten Informationen zu ermitteln, von Betrug über Benutzerverhalten bis hin zu Engpässen und sogar Sicherheitsverletzungen. Der Einsatz von ML-Algorithmen und künstlicher Intelligenz (KI) ermöglicht eine Automatisierung der Analyse, was den Prozess erheblich beschleunigen kann.
In Kombination mit Datenanalyse- und Visualisierungstools wie Apache Spark wird Data-Mining-Software einfacher und die Gewinnung relevanter Erkenntnisse kann schneller denn je erfolgen. Fortschritte in der KI beschleunigen weiterhin die Akzeptanz in allen Branchen.
Branchen-Newsletter
Bleiben Sie mit dem Think-Newsletter über die wichtigsten – und faszinierendsten – Branchentrends in den Bereichen KI, Automatisierung, Daten und mehr auf dem Laufenden. Weitere Informationen finden Sie in der IBM Datenschutzerklärung.
Ihr Abonnement wird auf Englisch geliefert. In jedem Newsletter finden Sie einen Abmeldelink. Hier können Sie Ihre Abonnements verwalten oder sich abmelden. Weitere Informationen finden Sie in unserer IBM Datenschutzerklärung.
Entdecken Sie verborgene Erkenntnisse und Trends: Beim Data Mining werden Rohdaten verwendet, um Ordnung in das Chaos zu bringen: den Wald vor lauter Bäumen sehen. Dies kann zu einer besser informierten Planung in allen Unternehmensfunktionen und Branchen führen, einschließlich Werbung, Finanzen, Regierung, Gesundheitswesen, Personalwesen (HR), Fertigung, Marketing, Forschung, Vertrieb und Lieferkettenmanagement (Supply Chain Management, SCM).
Budgeteinsparungen: Durch die Analyse von Leistungsdaten aus verschiedenen Quellen können Engpässe in Geschäftsprozessen identifiziert werden, um die Lösung zu beschleunigen und die Effizienz zu steigern.
Lösen Sie mehrere Herausforderungen: Data Mining ist ein vielseitiges Werkzeug. Daten aus nahezu jeder Quelle und zu jedem Aspekt eines Unternehmens können analysiert werden, um Muster zu erkennen und bessere Wege für die Geschäftsabwicklung zu finden. Fast jede Abteilung in einem Unternehmen, das Daten sammelt und analysiert, kann von Data Mining profitieren.
Komplexität und Risiko: Nützliche Erkenntnisse erfordern valide Daten sowie Experten mit Programmiererfahrung. Kenntnisse in Data-Mining-Sprachen wie Python, R und SQL sind hilfreich. Ein unzureichend vorsichtiger Ansatz beim Data Mining könnte zu irreführenden oder gefährlichen Ergebnissen führen. Einige der im Data Mining verwendeten Verbraucherdaten können personenbezogene Daten sein, die sorgfältig behandelt werden sollten, um rechtliche oder PR-Probleme zu vermeiden.
Kosten: Um die besten Ergebnisse zu erzielen, ist oft eine umfassende und tiefe Sammlung von Datensätzen erforderlich. Wenn ein Unternehmen neue Informationen sammeln muss, kann die Einrichtung einer Datenpipeline neue Kosten verursachen. Wenn Daten von einer externen Quelle gekauft werden müssen, entstehen auch Kosten.
Ungewissheit: Erstens kann eine umfangreiche Data-Mining-Maßnahme zwar gut durchgeführt werden, aber unklare Ergebnisse liefern, ohne dass ein großer Nutzen entsteht. Oder ungenaue Daten können zu falschen Erkenntnissen führen, unabhängig davon, ob falsche Daten ausgewählt oder die Vorverarbeitung falsch gehandhabt wurde. Zu den weiteren Risiken gehören Modellierungsfehler oder veraltete Daten aus einem sich schnell verändernden Markt.
Ein weiteres potenzielles Problem besteht darin, dass Ergebnisse zwar valide erscheinen, aber in Wirklichkeit zufällig und nicht vertrauenswürdig sind. Es ist wichtig, sich daran zu erinnern, dass „Korrelation keine Kausalität ist“. Ein berühmtes Beispiel für „Data Dredging“ – das Erkennen einer scheinbaren Korrelation und die Überbewertung ihrer Bedeutung – wurde kürzlich vom Blogger Tyler Vigen vorgestellt: „Der Aktienkurs von Amazon.com korreliert eng mit der Anzahl der Kinder, die von 2002 bis 2022 auf den Namen ‚Stevie‘ getauft wurden.“¹ Aber natürlich hat die Namensgebung von Stevies den Aktienkurs nicht beeinflusst oder umgekehrt. Data-Mining-Anwendungen finden die Muster, aber das menschliche Urteilsvermögen spielt nach wie vor eine wichtige Rolle.
Data Mining ist der allgemeine Prozess der Identifizierung von Mustern und der Gewinnung nützlicher Erkenntnisse aus großen Datensätzen. Damit lassen sich sowohl strukturierte als auch unstrukturierte Daten auswerten, um neue Informationen zu identifizieren. Diese Methode wird häufig zur Analyse des Verbraucherverhaltens von Marketing- und Vertriebsteams eingesetzt. Zum Beispiel können Data-Mining-Methoden verwendet werden, um Verhaltensweisen zu beobachten und vorherzusagen, einschließlich Kundenabwanderung, Betrugserkennung, Warenkorbanalyse und mehr.
Text Mining – auch als Text Data Mining bekannt – ist ein Teilbereich des Data Mining, der darauf abzielt, unstrukturierten Text in ein strukturiertes Format umzuwandeln, um aussagekräftige Muster zu identifizieren und neue Erkenntnisse zu gewinnen. Die unstrukturierten Daten können Text aus Quellen wie Social-Media-Beiträgen, Produktbewertungen, Artikeln, E-Mails oder Rich-Media-Formaten wie Video- und Audiodateien enthalten. Ein Großteil der weltweit öffentlich verfügbaren Daten ist unstrukturiert, sodass Text Mining eine wertvolle Methode ist.
Process Mining befindet sich an der Schnittstelle zwischen Business Process Management (BPM) und Data Mining. Prozess Mining bietet eine Möglichkeit, Algorithmen auf Ereignisprotokolldaten anzuwenden, um Trends, Muster und Details des Prozessverlaufs zu identifizieren. Beim Process Mining wird Data Science eingesetzt, um Engpässe zu erkennen und anschließend Workflows zu validieren und zu verbessern.
BPM sammelt Daten in der Regel eher informell durch Workshops und Befragungen und verwendet dann eine Software, um diese Workflows in Form einer Prozesszuordnung zu dokumentieren. Da die Daten, die diesen Prozesszuordnungen zugrunde liegen, oft qualitativer Natur sind, bietet Process Mining einen eher quantitativen Ansatz für ein Prozessproblem, bei dem der tatsächliche Prozess anhand von Ereignisdaten detailliert beschrieben wird.
Informationssysteme wie ERP-Tools (Enterprise Resource Planning) oder CRM-Tools (Customer Relationship Management) bieten einen Prüfpfad von Prozessen aus Protokolldaten. Beim Process Mining werden diese Daten aus IT-Systemen verwendet, um ein Prozessmodell oder einen Prozessgraphen zu erstellen. Von dort aus können Unternehmen den gesamten Prozess mit den Details und allen Variationen untersuchen.
Der Prozess des Data Mining umfasst mehrere Schritte, von der Datenerfassung bis zur Visualisierung, um wertvolle Informationen aus großen Datensätzen zu extrahieren. Mit Data-Mining-Techniken können Beschreibungen und Vorhersagen über einen Zieldatensatz erstellt werden.
Data Scientists oder Business Intelligence (BI)-Spezialisten beschreiben Daten durch ihre Beobachtungen von Mustern, Assoziationen und Korrelationen. Sie klassifizieren und gruppieren Daten auch durch Klassifizierungs- und Regressionsmethoden und identifizieren Ausreißer für Anwendungsfälle wie die Spam-Erkennung.
Data Mining umfasst in der Regel fünf Hauptschritte: Zielsetzung, Datenauswahl, Data Preparation, Erstellung eines Datenmodells sowie Mustererkennung und Auswertung der Ergebnisse.
1. Legen Sie die Geschäftsziele fest: Dies ist möglicherweise der schwierigste Teil des Data-Mining-Prozesses, und viele Unternehmen wenden für diesen wichtigen Schritt zu wenig Zeit auf. Selbst bevor die Daten identifiziert, extrahiert oder bereinigt werden, können Data Scientists und Business-Stakeholder zusammenarbeiten, um das genaue Geschäftsproblem zu definieren. So können die Datenfragen und -parameter für ein Projekt besser ermittelt werden. Analysten müssen möglicherweise auch mehr recherchieren, um den geschäftlichen Kontext vollständig zu verstehen.
2. Datenauswahl: Wenn der Umfang des Problems definiert ist, ist es für Data Scientists einfacher zu ermitteln, welche Datensätze bei der Beantwortung der für das Unternehmen relevanten Fragen helfen. Gemeinsam mit dem IT-Team lässt sich auch festlegen, wo die Daten gespeichert und gesichert werden sollten.
3. Data Preparation: Die relevanten Daten werden gesammelt und bereinigt, um Störfaktoren wie Duplikate, Missing Values und Sonderfälle zu entfernen. Je nach Datensatz kann ein zusätzlicher Datenverwaltungsschritt erforderlich sein, um die Anzahl der Dimensionen zu reduzieren, da zu viele Merkmale nachfolgende Berechnungen verlangsamen können.
Data Scientists versuchen, die wichtigsten Prädiktoren beizubehalten, um in jedem Modell eine optimale Genauigkeit sicherzustellen. Verantwortungsbewusste Data Science bedeutet, dass man über das Modell hinaus über den Code und die Leistung nachdenkt, und das hängt in hohem Maße von den verwendeten Daten und ihrer Vertrauenswürdigkeit ab.
4. Modellbildung und Mustererkennung: Je nach Art der Analyse können Data Scientists Trends oder interessante Datenbeziehungen untersuchen, wie z. B. sequenzielle Muster, Assoziationsregeln oder Korrelationen. Hochfrequenzmuster sind zwar breiter anwendbar, aber manchmal können die Abweichungen in den Daten interessanter sein, da sie Bereiche mit potenziellem Betrug aufzeigen. Prädiktive Modelle können bei der Bewertung zukünftiger Trends oder Ergebnisse helfen. In den fortschrittlichsten Systemen können Vorhersagemodelle Echtzeit-Prognosen für schnelle Reaktionen auf sich verändernde Märkte erstellen.
Deep Learning-Algorithmen können auch verwendet werden, um einen Datensatz je nach verfügbaren Daten zu klassifizieren oder zu clustern. Wenn die Eingabedaten gekennzeichnet sind (z. B. beim überwachten Lernen), kann ein Klassifizierungsmodell zur Kategorisierung der Daten verwendet werden, oder alternativ kann eine Regression angewendet werden, um die Wahrscheinlichkeit einer bestimmten Zuordnung vorherzusagen. Wenn der Datensatz nicht beschriftet ist (das heißt, unbeaufsichtigtes Lernen), werden die einzelnen Datenpunkte im Trainingssatz verglichen, um die zugrunde liegenden Ähnlichkeiten zu entdecken, und sie auf der Grundlage dieser Merkmale gruppiert.
5. Bewertung der Ergebnisse und Implementierung des Wissens: Wenn die Daten aggregiert sind, können sie häufig mithilfe von Datenvisualisierungstechniken für die Präsentation vorbereitet werden, sodass die Ergebnisse ausgewertet und interpretiert werden können. Im Idealfall sind die Endergebnisse gültig, neuartig, nützlich und verständlich. Wenn diese Kriterien erfüllt sind, können die Entscheidungsträger dieses Wissen nutzen, um neue Strategien zu implementieren und die angestrebten Ziele zu erreichen.
Hier sind einige der beliebtesten Arten von Data Mining:
Zuordnungsregeln: Eine Zuordnungsregel ist eine regelbasierte Wenn-Dann-Methode, um Beziehungen zwischen Variablen in einem Datensatz zu finden. Die Stärke von Beziehungen wird anhand von Unterstützung und Konfidenz gemessen. Das Konfidenzniveau basiert darauf, wie oft die „Wenn“- oder „Dann“-Aussagen wahr sind. Das Unterstützungsmaß gibt an, wie oft die zugehörigen Elemente in den Daten angezeigt werden.
Diese Methoden werden häufig für die Warenkorbanalyse verwendet, um Unternehmen ein besseres Verständnis der Beziehungen zwischen verschiedenen Produkten zu ermöglichen, z. B. welche Produkte häufig zusammen gekauft werden. Das Verständnis der Kundengewohnheiten ermöglicht es Unternehmen, bessere Cross-Selling-Strategien und Empfehlungsmaschinen zu entwickeln.
Klassifizierung: Objektklassen werden je nach Bedarf des Unternehmens vordefiniert, mit Definitionen der Merkmale, die die Objekte gemeinsam haben. Dadurch können die zugrundeliegenden Daten zur einfacheren Analyse gruppiert werden.
Ein Konsumgüterunternehmen könnte beispielsweise seine Couponing-Strategie überprüfen, indem es frühere Coupon-Einlösungen zusammen mit Verkaufsdaten, Bestandsstatistiken und allen verfügbaren Verbraucherdaten analysiert, um die beste zukünftige Kampagnenstrategie zu finden.
Clustering: Eng verwandt mit der Klassifizierung, stellt das Clustering Ähnlichkeiten fest, bietet aber auch weitere Gruppierungen auf der Grundlage von Unterschieden. Voreingestellte Klassifizierungen für einen Seifenhersteller können Waschmittel, Bleichmittel, Weichspüler, Bodenreiniger und Bohnerwachs umfassen; während durch Clustering möglicherweise Gruppen erstellt werden, die Wäscheprodukte und Bodenpflege umfassen.
Decision Tree: Diese Data-Mining-Technik verwendet Klassifizierungs- oder Regressionsanalysen, um potenzielle Ergebnisse auf der Grundlage einer Reihe von Entscheidungen zu klassifizieren oder vorherzusagen. Wie der Name des Decision Trees angibt, verwendet er eine baumähnliche Visualisierung, um die potenziellen Ergebnisse dieser Entscheidungen darzustellen.
K-Nearest Neighbor (KNN): Auch als KNN-Algorithmus bekannt, handelt es sich bei K-Nearest Neighbor um einen nichtparametrischen Algorithmus, der Datenpunkte auf der Grundlage ihrer Nähe und Zuordnung zu anderen verfügbaren Daten klassifiziert. Dieser Algorithmus geht davon aus, dass ähnliche Datenpunkte nahe beieinander gefunden werden. Daher versucht er, die Entfernung zwischen Datenpunkten zu berechnen, in der Regel durch den euklidischen Abstand, und weist dann eine Kategorie auf der Grundlage der häufigsten Kategorie oder des Durchschnitts zu.
Neural Networks: Neural Networks werden hauptsächlich für Deep-Learning-Algorithmen verwendet und verarbeiten Trainingsdaten, indem sie die Vernetzung des menschlichen Gehirns durch Ebenen von Knoten nachahmen. Jeder Knoten besteht aus Eingaben, Gewichtungen, einem Bias (Schwellenwert) und einer Ausgabe.
Wenn dieser Ausgangswert den festgelegten Schwellenwert überschreitet, „feuert“ er oder aktiviert den Knoten und leitet Daten an die nächste Ebene im Netzwerk weiter. Neuronale Netze erlernen diese Zuordnungsfunktion durch überwachtes Lernen und nehmen Anpassungen auf der Grundlage der Verlustfunktion durch den Prozess des Gradientenabfalls vor. Wenn die Kostenfunktion bei oder nahe Null liegt, kann ein Unternehmen darauf vertrauen, dass das Modell die richtige Antwort liefert.
Vorhersageanalysen: Durch die die Kombination von Data Mining mit statistischen Modellierungstechniken und maschinellem Lernen können historische Daten mithilfe von Vorhersageanalysen analysiert werden, um grafische oder mathematische Modelle zu erstellen, mit denen Muster identifiziert, zukünftige Ereignisse und Ergebnisse prognostiziert und Risiken und Chancen ermittelt werden können.
Regressionsanalysen: Diese Technik ermittelt Beziehungen in Daten durch die Vorhersage von Ergebnissen auf der Grundlage vorgegebener Variablen. Dies kann Decision Trees sowie multivariate und lineare Regression umfassen. Die Ergebnisse können nach der Nähe der Beziehung priorisiert werden, um zu bestimmen, welche Daten am wichtigsten oder am wenigsten aussagekräftig sind. Ein Beispiel wäre, dass ein Hersteller von Erfrischungsgetränken den Bedarf an Getränken vor der Ankunft des vorhergesagten heißen Sommerwetters abschätzen muss.
Data-Mining-Techniken werden von Teams für Business Intelligence und Datenanalyse weitläufig eingesetzt und helfen ihnen, Wissen für ihr Unternehmen und ihre Branche zu gewinnen. Einige Anwendungsfälle für Data Mining sind:
Erkennung von Anomalien Während häufig auftretende Datenmuster den Teams wertvolle Erkenntnisse liefern können, ist auch die Beobachtung von Datenanomalien von Vorteil, da sie Unternehmen bei der Betrugserkennung, Netzwerkangriffen und Produktfehlern hilft. Während dies ein bekannter Anwendungsfall im Bankwesen und in anderen Finanzinstituten ist, haben auch SaaS-basierte Unternehmen begonnen, diese Praktiken zu übernehmen, um gefälschte Benutzerkonten aus ihren Datensätzen zu entfernen. Die Erkennung von Anomalien kann auch eine Gelegenheit sein, neue und neuartige Strategien oder Zielmärkte zu finden, die in der Vergangenheit übersehen wurden.
Mit Data Mining können Unternehmen das Ausmaß des Risikos genauer lokalisieren und bestimmen. Muster und Anomalien können in den Bereichen Cybersicherheit, Finanzen und Recht aufgedeckt werden, um Versäumnisse oder Bedrohungen zu lokalisieren.
Durch die Suche in mehreren Datenbanken nach engen Beziehungen kann Data Mining Verhaltensweisen und Kundenhintergründe genau mit den Verkäufen bestimmter Artikel in Verbindung bringen. So können gezieltere Kampagnen zur Verkaufsförderung durchgeführt werden.
Kundenprobleme können früher erkannt und behoben werden, wenn die gesamte Summe der Kundenaktionen – vor Ort, online, über mobile Apps oder am Telefon – mithilfe von Data Mining überprüft werden kann. Mitarbeitern im Kundenservice stehen umfassendere und aufschlussreichere Informationen über die Kunden zur Verfügung, die sie betreuen.
Es können Betriebsdaten von Industrieanlagen abgerufen werden, die bei der Vorhersage der zukünftigen Leistung und Ausfallzeiten helfen und die Planung von Wartungsmaßnahmen ermöglichen.
Process Mining nutzt Data-Mining-Techniken, um die Kosten in allen betrieblichen Funktionen zu senken und so die Effizienz des Unternehmens zu steigern. Diese Vorgehensweise kann dazu beitragen, kostspielige Engpässe zu erkennen und die Entscheidungsfindung für Führungskräfte zu verbessern.
Data Mining kann eine reichhaltigere Datenquelle für den Kundenservice schaffen, indem es dabei hilft, festzustellen, welche Faktoren den Kunden am meisten gefallen und welche Faktoren zu Unzufriedenheit führen.
Bildungseinrichtungen haben damit begonnen, Daten zu sammeln, um ihre Schülerpopulationen zu verstehen und zu ermitteln, welche Umgebungen für den Erfolg förderlich sind. Da die Kurse häufig auf Online-Plattformen stattfinden, können sie verschiedene Dimensionen und Metriken zur Beobachtung und Bewertung der Leistung verwenden, wie z. B. Tastenanschläge, Studentenprofile, besuchte Kurse und aufgewendete Zeit.
Bei der Risikoanalyse möchten Finanzinstitute und Banken oft ein möglichst breites Spektrum abdecken, um alle Faktoren zu erfassen, die sich negativ auf den Cashflow und die Rückzahlung auswirken könnten. Data-Mining-Tools können nützlich sein, um eine Kombination von Faktoren zu finden und abzuwägen, die auf ein gutes oder schlechtes Risiko hinweisen.
Data Mining ist ein nützliches Instrument für die Diagnose von Erkrankungen – einschließlich der Auswertung von Scans und Bildern – und hilft dann bei der Empfehlung geeigneter Behandlungen.
Unternehmen können neue Erkenntnisse über die Leistung und Zufriedenheit ihrer Mitarbeiter gewinnen, indem sie mehrere Faktoren analysieren und Muster erkennen. Zu den Daten zählen beispielsweise das Startdatum, die Beschäftigungsdauer, Beförderungen, das Gehalt, Schulungen, die Leistung der Kollegen, die Arbeitsleistung, die Nutzung von Vorteilen und Reisen.
Von den Rohstoffen bis zur endgültigen Lieferung können alle Aspekte des Herstellungsprozesses analysiert werden, um die Leistung zu verbessern. Wie hoch sind die Materialkosten und welche Optionen gibt es? Wie effizient ist die Produktion? Wo sind die Engpässe? Was sind die Qualitätsprobleme und wo treten sie auf, sowohl intern als auch bei Kunden?
Durch die Auswertung von Kundendaten und -aktionen können Einzelhändler die produktivsten Kampagnen, Preise, Werbeaktionen, Sonderangebote und erfolgreichen Cross- und Upselling-Aktionen ermitteln.
Unternehmen sammeln riesige Datenmengen über ihre Kunden und Interessenten. Durch die Beobachtung der Verbraucherdemografie, der Medienresonanz und des Kundenverhaltens können Unternehmen Daten nutzen, um ihre Marketingkampagnen zu optimieren, die Segmentierung und Zielgruppenansprache zu verbessern und Kundenbindungsprogramme zu optimieren. All dies trägt dazu bei, den Return on Investment (ROI) der Marketingmaßnahmen zu steigern. Vorausschauende Analysen können Teams auch dabei helfen, Erwartungen mit ihren Stakeholdern abzustimmen, indem sie Ertragsschätzungen für etwaige Zu- oder Abnahmen der Marketinginvestitionen liefern.
Die Analyse von Nutzerdaten kann dabei helfen, neue redaktionelle Möglichkeiten oder neue Einnahmequellen für Werbeanzeigen für bestimmte Zielgruppen zu erschließen.
Mithilfe von Data Mining können Produktmanager die Nachfrage besser vorhersagen, die Produktion ausweiten, Lieferanten anpassen oder Marketingmaßnahmen modifizieren. Lieferkettenmanager können Versand und Lagerung besser planen.
Nutzen Sie Data-Science-Tools und -Lösungen, um mithilfe von Daten, Algorithmen, maschinellem Lernen und KI-Techniken Muster zu erkennen und Prognosen zu treffen.
Wir stellen vor: Cognos Analytics 12.0, KI-gestützte Erkenntnisse für eine bessere Entscheidungsfindung.
Erschließen Sie den Wert von Unternehmensdaten mit IBM Consulting und bauen Sie ein erkenntnisorientiertes Unternehmen auf, das Ihnen geschäftliche Vorteile verschafft.