Come ripartire i dati per la cross-validazione K-fold
Prima di effettuare un addestramento di un modello predittivo, è utile ripartire i dati correttamente per evitare l'overfitting e data leakage.
Guide e Tutorial da esperti di settore per aiutarti nel tuo percorso nella Data Science e Machine Learning
Newsletter su IA, tech e LLM
Prima di effettuare un addestramento di un modello predittivo, è utile ripartire i dati correttamente per evitare l'overfitting e data leakage.
Il modello più comune per rappresentare numericamente del testo è il modello bag of words. Ogni documento del nostro corpus viene rappresentato contando quante volte ogni parola appare in esso.
Tensorflow è il framework creato da Google che permette ai praticanti di machine learning di creare modelli di deep learning ed è spesso la prima soluzione che viene proposta agli analisti che si approcciano per la prima volta al deep learning.
C'è davvero differenza tra data science, data engineering e data analytics? L'intero processo end-to-end di raccolta, gestione e analisi del dato viene diviso secondo questi tre termini - propongo la mia interpretazione olistica dell'intero processo.
Una attività di feature engineering può essere molto utile per migliorare le performance di un modello predittivo. Questa però può peggiorare i nostri risultati se non teniamo a mente certi principi da evitare.
Creazione di un corpus di dati testuali in Python e taggare i testi al suo interno attraverso logica fuzzy con la libreria The Fuzz. Progetto basato sull'automazione di un task tipicamente molto lungo e noioso.
Calcolare la similarità tra due testi è una attività molto utile nell'ambito del data mining e dell'elaborazione del linguaggio naturale
Scopri cosa distingue Machine Learning e Deep Learning: vantaggi, svantaggi e applicazioni spiegate per aiutarti a scegliere la soluzione giusta per i tuoi progetti AI.
Leggi cosa è la cross-validazione - una tecnica fondamentale per costruire modelli generalizzabili