Cosa si intende con "rilevamento anomalie"?

Donna d'affari che utilizza un PC tablet in ufficio

Cos'è il rilevamento delle anomalie?

Il rilevamento delle anomalie, o rilevamento degli outlier, è l'identificazione di osservazioni, eventi o punti dati che si discostano da ciò che è usuale, standard o previsto, rendendolo incoerente con il resto di un set di dati.

Il rilevamento delle anomalie ha una lunga storia nel campo delle statistiche, dove analisti e scienziati studiavano i grafici alla ricerca di eventuali elementi che apparivano anomali. Oggi, il rilevamento delle anomalie sfrutta l'intelligenza artificiale (IA) e l'apprendimento automatico (ML) per identificare automaticamente i cambiamenti imprevisti nel comportamento normale di un set di dati.

I dati anomali possono segnalare incidenti critici che si verificano sotto il cofano, come un guasto all'infrastruttura, un cambiamento di rotta da una fonte a monte o minacce alla sicurezza. Le anomalie possono anche evidenziare opportunità di ottimizzazione dell'architettura o miglioramento delle strategie di marketing.

Il rilevamento delle anomalie ha una gamma di casi d'uso in vari settori. Ad esempio, viene utilizzato nella finanza per il rilevamento di frodi, nel settore manifatturiero per identificare difetti o malfunzionamenti delle apparecchiature, nella sicurezza informatica per rilevare attività di rete insolite e nel settore sanitario per identificare condizioni anomale dei pazienti.

L'individuazione di valori anomali può essere difficile perché le anomalie sono spesso rare e le caratteristiche del comportamento normale possono essere complesse e dinamiche. Dal punto di vista aziendale, è essenziale identificare le anomalie effettive anziché i falsi positivi o il rumore dei dati.

Newsletter di settore

Le ultime tendenze in materia di AI, proposte da esperti

Ricevi insight selezionati sulle notizie più importanti e interessanti sull'AI. Iscriviti alla nostra newsletter settimanale Think. Leggi l'Informativa sulla privacy IBM.

Perché il rilevamento delle anomalie è importante?

Le anomalie dei dati possono avere un impatto significativo nell'ambito della data science, portando a conclusioni errate o fuorvianti. Ad esempio, un singolo outlier può distorcere in modo significativo la media di un set di dati, rendendolo una rappresentazione imprecisa dei dati. Inoltre, le anomalie dei dati possono influire sulle prestazioni degli algoritmi di apprendimento automatico, in quanto possono far sì che il modello si adatti al rumore anziché al pattern sottostante nei dati.

Identificare e gestire le anomalie dei dati è fondamentale per diversi motivi:

Migliore qualità dei dati: l'identificazione e la gestione delle anomalie dei dati possono migliorare significativamente la qualità dei dati, essenziale per una loro analisi accurata e affidabile. Affrontando le anomalie dei dati, gli analisti possono ridurre rumori ed errori nel set di dati, assicurando che questi siano più rappresentativi dei veri modelli sottostanti.

Miglioramento del processo decisionale: il processo decisionale basato sui dati si fonda su un'analisi dei dati accurata e affidabile per prendere decisioni informate. Identificando e gestendo le anomalie dei dati, gli analisti possono garantire che i loro risultati siano più affidabili, portando a decisioni più informate e a risultati migliori.

Prestazioni di machine learning ottimizzate: le anomalie dei dati possono influire in modo significativo sulle prestazioni degli algoritmi di machine learning, in quanto possono causare la stima del rumore anziché del modello sottostante nei dati. Tramite l'identificazione e la gestione delle anomalie dei dati, gli analisti possono ottimizzare le prestazioni dei modelli di machine learning, assicurandosi che forniscano previsioni accurate e affidabili.

Mixture of Experts | 12 dicembre, episodio 85

Decoding AI: Weekly News Roundup

Unisciti al nostro gruppo di livello mondiale di ingegneri, ricercatori, leader di prodotto e molti altri mentre si fanno strada nell'enorme quantità di informazioni sull'AI per darti le ultime notizie e gli ultimi insight sull'argomento.

Guarda tutti gli episodi di Mixture of Experts

Tipi di anomalie

Un sistema di rilevamento delle anomalie può scoprire due tipi generali di anomalie: involontarie e intenzionali.

Le anomalie involontarie sono punti dati che deviano dalla norma a causa di errori o rumore nel processo di raccolta dei dati. Questi errori possono essere sistematici o casuali, originati da problemi quali sensori difettosi o errori umani durante l'immissione dei dati. Anomalie involontarie possono distorcere il set di dati, rendendo difficile ricavare informazioni accurate.

Le anomalie intenzionali sono punti dati che deviano dalla norma a causa di azioni o eventi specifici. Queste anomalie possono fornire insight preziosi sul set di dati, in quanto possono evidenziare eventi o tendenze unici. Ad esempio, un improvviso picco delle vendite durante le festività natalizie potrebbe essere considerato un'anomalia intenzionale, poiché si discosta dal tipico modello di vendita ma è previsto a causa di un evento del mondo reale.

Anomalie dei dati delle serie temporali

In termini di dati aziendali, esistono tre serie temporali principali: anomalie dei punti, anomalie contestuali e anomalie collettive.

Le anomalie dei punti, note anche come outlier globali, sono singoli punti dati che esistono ben al di fuori del resto del set di dati. Possono essere intenzionali o non intenzionali e possono derivare da errori, rumore o eventi unici. Un esempio di anomalia dei punti è un prelievo dal conto corrente bancario che è significativamente maggiore di tutti i prelievi precedenti dell'utente.

Le anomalie contestuali sono punti dati che deviano dalla norma all'interno di un contesto specifico. Queste anomalie non sono necessariamente outlier se considerate isolatamente, ma diventano anomale se osservate all'interno del loro contesto specifico.

Ad esempio, considera il consumo energetico domestico. Se si verifica un improvviso aumento del consumo di energia a mezzogiorno, quando in genere nessun membro della famiglia è a casa, l'anomalia sarebbe contestuale. Questo dato potrebbe non essere un valore anomalo se paragonato al consumo di energia al mattino o alla sera (quando le persone sono solitamente a casa), ma è anomalo nel contesto dell’ora del giorno in cui si verifica.

Le anomalie collettive coinvolgono una serie di istanze di dati che insieme si discostano dalla norma, anche se singole istanze possono apparire normali. Un esempio di questo tipo di anomalia potrebbe essere un set di dati sul traffico di rete che mostri un improvviso aumento del traffico da più indirizzi IP contemporaneamente.

Metodi di rilevamento delle anomalie

L'utilizzo di un sistema di rilevamento delle anomalie per rilevare le anomalie dei dati è un aspetto critico dell'analisi dei dati, garantendo che i risultati siano accurati e affidabili. Nella creazione di un sistema di rilevamento delle anomalie è possibile utilizzare vari metodi di rilevamento delle anomalie.

Visualizzazione

La visualizzazione è un potente strumento per rilevare le anomalie dei dati, in quanto consente ai data scientist di identificare rapidamente potenziali outlier e modelli nei dati. Tracciando i dati utilizzando diagrammi e grafici, gli analisti possono ispezionare visivamente il set di dati alla ricerca di punti dati o tendenze insoliti.

Test statistici

I test statistici possono essere utilizzati dai data scientist per rilevare anomalie dei dati confrontando i dati osservati con la distribuzione o il modello previsto.

Ad esempio, il test Grubbs può essere utilizzato per identificare outlier in un set di dati confrontando ciascun punto dati con la media e la deviazione standard dei dati. Analogamente, il test Kolmogorov-Smirnov può essere utilizzato per determinare se un set di dati segue una distribuzione specifica, ad esempio una distribuzione normale.

Algoritmi di machine learning

Gli algoritmi di apprendimento automatico possono essere utilizzati per rilevare le anomalie dei dati apprendendo il modello sottostante nei dati e quindi identificando eventuali deviazioni da tale modello. Alcuni degli algoritmi di rilevamento delle anomalie di apprendimento automatico (ML) più comuni includono:

Decision Trees: un tipo di albero decisionale, l'Isolation Forest, è un metodo di apprendimento assimilabile che isola le anomalie selezionando casualmente una funzione e selezionando poi casualmente un valore suddiviso tra i valori massimi e minimi della funzione selezionata.
One-Class Support Vector Machine (SVM): One-Class SVM è un algoritmo di classificazione addestrato solo sulle istanze "normali", con l'obiettivo di creare un confine che comprenda i dati normali. Le istanze che non rientrano in questo limite sono considerate anomalie.
k-Nearest Neighbors (k-NN): k-NN è un algoritmo semplice che classifica un punto dati in base alla classe maggioritaria dei suoi vicini k. Le istanze che hanno un numero significativamente inferiore di vicini della stessa classe possono essere considerate anomalie.
Naive Bayesian: questi metodi funzionano definendo la probabilità che un evento si verifichi sulla base della presenza di fattori contribuenti e del rilevamento delle relazioni con la stessa causa principale.
Autoencoder: un tipo di rete neurale che utilizza dati con indicazione di data e ora per prevedere i modelli di dati e identificare le anomalie che non sono allineate con i dati storici.
Fattore outlier locale (LOF): LOF è un algoritmo basato sulla densità che misura la deviazione della densità locale di un punto dati rispetto ai vicini. I punti con densità significativamente inferiore rispetto ai vicini sono considerati outlier.
K-Means Clustering: k-means è una tecnica di clustering che analizza la distanza media dei punti dati non etichettati e quindi aiuta a raggruppare gli stessi in gruppi specifici.

Tecniche di rilevamento delle anomalie

Un algoritmo di rilevamento delle anomalie può imparare a identificare i modelli e rilevare i dati anomali usando varie tecniche di training di Machine Learning. La quantità di dati etichettati, se presenti, nel set di dati di addestramento di un team di dati determina quale delle principali tecniche di rilevamento delle anomalie verrà utilizzata: senza supervisione, supervisionata o semi-supervisionata.

Rilevamento anomalie senza supervisione

Con le tecniche di rilevamento delle anomalie non supervisionate, i data engineer addestrano un modello fornendogli set di dati non etichettati che esso utilizza per individuare autonomamente modelli o anomalie. Sebbene queste tecniche siano di gran lunga le più comunemente utilizzate grazie alla loro applicazione più ampia e rilevante, richiedono enormi quantità di dati e potenza di calcolo. L'apprendimento automatico non supervisionato si trova più spesso negli scenari di deep learning che si basano su reti neurali artificiali.

Rilevamento delle anomalie supervisionato

Le tecniche di rilevamento delle anomalie supervisionato utilizzano un algoritmo addestrato su un set di dati etichettato che include istanze normali e anomale. A causa della generale indisponibilità dei dati di addestramento etichettati e della natura intrinseca squilibrata delle classi, queste tecniche di rilevamento delle anomalie vengono utilizzate raramente.

Rilevamento anomalie semi-supervisionato

Le tecniche semi-supervisionate massimizzano gli attributi positivi sia del rilevamento delle anomalie senza supervisione che del rilevamento delle anomalie supervisionato. Fornendo un algoritmo con una parte di dati etichettati, è possibile addestrarlo parzialmente. I tecnici dei dati utilizzano quindi l'algoritmo parzialmente addestrato per etichettare autonomamente un set di dati più ampio, definito "pseudo-etichettatura". Supponendo che si dimostrino affidabili, questi punti dati appena etichettati vengono combinati con il set di dati originale per mettere a punto l’algoritmo.

Trovare la giusta combinazione di machine learning supervisionato e non supervisionato è fondamentale per l'automazione dell'apprendimento automatico. Idealmente, la stragrande maggioranza delle classificazioni dei dati verrebbe eseguita senza interazione umana e senza supervisione. Detto questo, gli ingegneri dei dati dovrebbero comunque essere in grado di alimentare gli algoritmi con dati di addestramento che contribuiscano a creare linee di base per l'attività ordinaria. Un approccio semi-supervisionato consente di scalare il rilevamento delle anomalie con la flessibilità di stabilire regole manuali relative a anomalie specifiche.

Casi d'uso per il rilevamento dell'anomalia

Rilevazione di frodi

I modelli di rilevamento delle anomalie sono ampiamente utilizzati nei settori bancario, assicurativo e del commercio di azioni per identificare attività fraudolente in tempo reale, come transazioni non autorizzate, riciclaggio di denaro, frodi con carte di credito, false dichiarazioni dei redditi e modelli commerciali anomali.

Cybersecurity

I sistemi di rilevamento delle intrusioni (IDS) e altre tecnologie di cybersecurity utilizzano il rilevamento di anomalie per aiutare a identificare attività utente insolite o modelli di traffico di rete, indicando potenziali minacce alla sicurezza o attacchi come infezioni da malware o accesso non autorizzato.

Produzione e controllo qualità

Spesso vengono impiegati algoritmi di rilevamento delle anomalie insieme alla computer vision per identificare i difetti nei prodotti o negli imballaggi analizzando i dati delle telecamere ad alta risoluzione, dei sensori e delle metriche di produzione.

Gestione dei sistemi IT

La rilevazione di anomalie può essere utilizzata per monitorare le prestazioni dei sistemi IT e mantenere il funzionamento regolare delle operazioni. identificando modelli insoliti nei registri del server e ricostruendo i guasti da modelli ed esperienze passate per prevedere potenziali problemi o guasti.

Energia, trasporti e infrastrutture critiche

Identificando le irregolarità nei dati provenienti dai sensori dell'Internet of Things (IoT) e dai dispositivi della tecnologia operativa (OT), il rilevamento delle anomalie può aiutare a prevedere i guasti delle apparecchiature o le esigenze di manutenzione in settori come l'aviazione, l'energia e i trasporti. Se utilizzato per monitorare i modelli di consumo energetico e identificare le anomalie nell'utilizzo, il rilevamento delle anomalie può portare a una gestione più efficiente dell'energia e al rilevamento precoce dei guasti delle attrezzature.

Retail ed e-commerce

I commercianti utilizzano modelli di rilevamento delle anomalie per identificare modelli insoliti nel comportamento dei clienti, il che può aiutarli a individuare le frodi, prevedere il tasso di abbandono dei clienti e migliorare le strategie di marketing. Nell'e-commerce, il rilevamento delle anomalie viene applicato per identificare recensioni false, acquisizioni di account, comportamenti di acquisto anomali e altri indicatori di frode o criminalità informatica.

Sblocca la potenza dell'AI generativa + ML

Scopri come incorporare in tutta sicurezza l'AI generativa e il machine learning nella tua azienda.

Risorse

Migliora le tue competenze nel ML

Impara i concetti fondamentali e sviluppa le tue competenze con laboratori pratici, corsi, progetti guidati, prove e molto altro.

Sblocca la potenza dell'AI generativa + ML

Scopri come incorporare in tutta sicurezza l'AI generativa e il machine learning nella tua azienda.

Sfruttare al meglio l'AI: aumentare il ROI con la gen AI

Vuoi ottenere un ritorno migliore sui tuoi investimenti nell'AI? Scopri come lo scaling della GenAI in settori chiave può favorire il cambiamento, aiutando le tue menti migliori a creare e fornire nuove soluzioni innovative.

Come scegliere il giusto foundation model

Scopri come scegliere il foundation model di AI più adatto al tuo caso d'uso.

Esplora IBM Granite

IBM Granite è la nostra famiglia di modelli AI aperti, efficienti e affidabili, su misura per le aziende e ottimizzati per scalare le applicazioni di AI. Esplora le opzioni di linguaggio, codice, serie temporali e guardrail.

Come prosperare in questa nuova era dell'AI in tutta fiducia e sicurezza

Approfondisci i 3 elementi critici di una solida strategia AI: creare un vantaggio competitivo, scalare l'AI attraverso l'azienda e promuovere un'AI affidabile.

Report AI in Action

Abbiamo intervistato 2.000 organizzazioni in merito alle loro iniziative di AI per scoprire cosa funziona, cosa non funziona e come giocare d'anticipo.

Soluzioni correlate

IBM watsonx.ai

Addestra, convalida, adatta e implementa le funzionalità di AI generativa, foundation model e machine learning con IBM watsonx.ai, uno studio aziendale di nuova generazione per builder AI. Crea applicazioni AI in tempi ridotti e con una minima quantità di dati.

Scopri watsonx.ai

Soluzioni di intelligenza artificiale

Metti l'AI al servizio della tua azienda grazie all'esperienza leader di settore e alla gamma di soluzioni di IBM nel campo dell'AI.

Esplora le soluzioni AI

Consulenza e servizi sull'AI

Reinventa i flussi di lavoro e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.

Esplora i servizi AI

Fai il passo successivo

Ottieni l'accesso completo a funzionalità che coprono l'intero ciclo di vita dello sviluppo dell'AI. Crea soluzioni AI all'avanguardia con interfacce intuitive, workflow e accesso alle API e agli SDK standard di settore.

Esplora watsonx.ai

Prenota una demo live