Pulire i Dati in Pandas

La pulizia dei dati è un passo essenziale nell’analisi dei dati che comporta l’identificazione e la correzione di errori o anomalie nei dati raccolti. Questo processo è importante perché i dati sporchi possono influire negativamente sull’accuratezza delle analisi e delle previsioni. In questo articolo, esploreremo come effettuare la pulizia dei dati utilizzando Pandas e affronteremo le seguenti sfide comuni:

Celle Vuote: Celle nel DataFrame che non contengono dati.
Dati nel Formato Sbagliato: Dati che sono memorizzati in un formato diverso da quello desiderato.
Dati Errati: Dati che contengono informazioni errate o incoerenti.
Duplicati: Righe duplicate che possono influenzare le analisi.

Celle Vuote

Le celle vuote sono comuni nei dati del mondo reale. Per affrontare questo problema, possiamo utilizzare i seguenti metodi:

Rilevare le Celle Vuote

Utilizziamo il metodo isna() per individuare le celle vuote in un DataFrame.

import pandas as pd

# Creare un DataFrame di esempio
data = {'Nome': ['Alice', 'Bob', None, 'David'],
        'Età': [25, None, 30, 40]}
df = pd.DataFrame(data)

# Rilevare le celle vuote
celle_vuote = df.isna()

# Visualizzare il DataFrame delle celle vuote
print(celle_vuote)

Trattare le Celle Vuote

Una volta individuate le celle vuote, possiamo decidere come gestirle. Le opzioni comuni includono la rimozione delle righe o delle colonne contenenti celle vuote o la loro sostituzione con valori predefiniti.

# Rimuovere righe con almeno una cella vuota
df_senza_celle_vuote = df.dropna()

# Sostituire le celle vuote con un valore predefinito (ad esempio, 0)
df_con_valori_predefiniti = df.fillna(0)

Dati nel Formato Sbagliato

I dati nel formato sbagliato possono causare problemi durante l’analisi. Pandas fornisce metodi per convertire i dati nel formato desiderato.

Conversione del Formato dei Dati

# Convertire una colonna in formato numerico
df['Età'] = pd.to_numeric(df['Età'], errors='coerce')

# Convertire una colonna in formato data
df['Data di Nascita'] = pd.to_datetime(df['Data di Nascita'], errors='coerce')

Dati Errati

Per dati errati, è importante esaminare attentamente i dati e determinare come correggerli in modo appropriato.

Identificare e Correggere Dati Errati

# Trovare e correggere dati errati
df.loc[df['Età'] < 0, 'Età'] = 0

Duplicati

I dati duplicati possono influenzare negativamente le analisi, quindi è importante rimuoverli.

Rilevare e Rimuovere Duplicati

# Rilevare righe duplicate
duplicati = df.duplicated()

# Rimuovere righe duplicate
df_senza_duplicati = df.drop_duplicates()

Conclusioni

La pulizia dei dati è una fase fondamentale nella preparazione dei dati per l’analisi. Utilizzando Pandas, puoi affrontare le sfide comuni come celle vuote, dati nel formato sbagliato, dati errati e duplicati per assicurarti che i tuoi dati siano accurati e affidabili per l’analisi successiva.