I data scientist si affidano ai linguaggi di programmazione più diffusi per condurre analisi esplorative dei dati e regressione statistica. Questi strumenti open source supportano funzionalità precostituite di modellazione statistica, machine learning e grafica. Questi linguaggi includono quanto segue (approfondimenti in "Python vs. R: qual è la differenza?"):
- R Studio: un linguaggio di programmazione e un ambiente open source per lo sviluppo di calcoli statistici e grafici.
- Python: è un linguaggio di programmazione dinamico e flessibile. Python include numerose librerie, come NumPy, Pandas, Matplotlib, per l'analisi rapida dei dati.
Per facilitare la condivisione di codice e altre informazioni, i data scientist possono utilizzare i notebook GitHub e Jupyter.
Alcuni data scientist potrebbero preferire un'interfaccia utente, e due strumenti aziendali comuni per l'analisi statistica includono:
- SAS: una suite completa di strumenti che comprende visualizzazioni e dashboard interattivi per l'analisi, il reporting, il data mining e la modellazione predittiva.
- IBM SPSS: offre analisi statistiche avanzate, una vasta libreria di algoritmi di machine learning, analisi del testo, estensibilità open source, integrazione con big data e implementazione senza soluzione di continuità nelle applicazioni.
I data scientist acquisiscono inoltre competenze nell'utilizzo di piattaforme di trattamento dei big data, come Apache Spark, il framework open source Apache Hadoop e i database NoSQL. Sono anche esperti di un'ampia gamma di strumenti di visualizzazione dei dati, tra cui i semplici strumenti grafici inclusi nelle applicazioni di presentazione aziendale e nei fogli di calcolo (come Microsoft Excel), gli strumenti di visualizzazione commerciali costruiti ad hoc come Tableau e IBM Cognos e gli strumenti open source come D3.js (una libreria JavaScript per la creazione di visualizzazioni interattive dei dati) e RAW Graphs. Per la creazione di modelli di machine learning, i data scientist si rivolgono spesso a diversi framework come PyTorch, TensorFlow, MXNet e Spark MLib.
Data la ripida curva di apprendimento nella data science, molte aziende stanno cercando di accelerare il ritorno sull'investimento per i progetti di AI; spesso hanno difficoltà ad assumere i talenti necessari per realizzare il pieno potenziale del progetto di data science. Per colmare questa lacuna, si rivolgono a piattaforme di data science e machine learning (DSML) multipersona, dando vita al ruolo di "citizen data scientist".
Le piattaforme DSML multipersona utilizzano automazione, portali self-service e interfacce utente a uso limitato di codice o nullo in modo che le persone con poca o nessuna esperienza nella tecnologia digitale o nella data science esperta possano creare valore aziendale utilizzando la data science e il machine learning. Queste piattaforme supportano anche i data scientist esperti offrendo anche un'interfaccia più tecnica. L'utilizzo di una piattaforma DSML multipersona incoraggia la collaborazione in tutta l'azienda.