Home documentazione pandas dataframe

DataFrame in Pandas

In Pandas, un DataFrame è una potente struttura dati utilizzata per lavorare con dati tabulari bidimensionali. Può essere pensato come una collezione di oggetti Serie, in cui ogni Serie rappresenta una colonna di dati. I DataFrame sono ampiamente utilizzati nell’analisi dei dati, nella manipolazione dei dati e nella visualizzazione dei dati. In questo articolo, esploreremo cos’è un DataFrame, perché è essenziale, come crearlo, come lavorare con esso e alcuni metodi utili per la manipolazione dei dati.

Cos’è un DataFrame?

Un DataFrame è una struttura dati bidimensionale, di dimensioni mutevoli e potenzialmente eterogenea, con assi etichettati (righe e colonne). Fondamentalmente, è simile a un foglio di calcolo o a una tabella SQL che è possibile manipolare con Python. Ogni DataFrame è composto da righe e colonne, e ogni colonna può contenere dati di diversi tipi, come numeri interi, numeri floating-point, stringhe o oggetti Python più complessi.

Perché Sono Importanti i DataFrame?

I DataFrame sono strumenti essenziali nell’analisi dei dati e nella manipolazione dei dati per diversi motivi:

Rappresentazione dei Dati Tabulari: I DataFrame forniscono una struttura comoda per organizzare dati tabulari, dove le righe rappresentano osservazioni o campioni e le colonne rappresentano variabili o attributi.
Facilità di Manipolazione: Consentono operazioni efficienti di filtraggio, selezione, aggregazione e trasformazione dei dati. È possibile eseguire operazioni complesse con poche righe di codice.
Integrazione con Altre Librerie: Si integrano bene con altre librerie Python, come NumPy per operazioni matematiche e Matplotlib per la visualizzazione dei dati.
Uso Diffuso: Sono utilizzati in una vasta gamma di settori, tra cui scienza dei dati, analisi finanziaria, ricerca scientifica, analisi di mercato e molto altro.

Come Creare un DataFrame

Per creare un DataFrame in Pandas, è possibile utilizzare diversi metodi. Ecco un esempio di creazione di un DataFrame da un dizionario di dati:

import pandas as pd

data = {'Nome': ['Alice', 'Bob', 'Charlie', 'David'],
        'Età': [25, 30, 35, 40]}

df = pd.DataFrame(data)

print(df)

In questo esempio, abbiamo creato un DataFrame df da un dizionario in cui le chiavi del dizionario rappresentano i nomi delle colonne e i valori del dizionario sono le liste di dati corrispondenti a ciascuna colonna.

Come Lavorare con un DataFrame

Una volta creato un DataFrame, è possibile eseguire diverse operazioni su di esso:

Accesso ai Dati

È possibile accedere ai dati in base alle righe e alle colonne utilizzando etichette o indici numerici.

# Accesso a una colonna
nomi = df['Nome']

# Accesso a un elemento
eta_bob = df.at[1, 'Età']

Selezione di Dati

È possibile selezionare un subset dei dati in base a criteri specifici.

# Seleziona righe in cui l'età è maggiore di 30
df_selezionato = df[df['Età'] > 30]

Aggregazione dei Dati

È possibile aggregare i dati utilizzando funzioni come sum(), mean(), max(), ecc.

# Calcola la media delle età
media_eta = df['Età'].mean()

Trasformazione dei Dati

È possibile aggiungere, modificare o eliminare colonne e righe.

# Aggiungi una nuova colonna
df['Genere'] = ['F', 'M', 'M', 'M']

# Elimina una colonna
df = df.drop('Genere', axis=1)

Visualizzazione dei Dati

È possibile utilizzare metodi di visualizzazione per rappresentare i dati in forma di grafici.

import matplotlib.pyplot as plt

# Crea un grafico a dispersione
plt.scatter(df['Età'], df['Salario'])
plt.xlabel('Età')
plt.ylabel('Salario')
plt.show()

Metodi Utili per la Manipolazione dei Dati

Pandas offre una vasta gamma di metodi utili per la manipolazione dei dati. Alcuni dei metodi più comuni includono:

head(): Mostra le prime righe del DataFrame.
tail(): Mostra le ultime righe del DataFrame.
info(): Fornisce informazioni sulla struttura del DataFrame.
describe(): Calcola statistiche di base come media, deviazione standard, minimo e massimo.
groupby(): Consente di raggruppare i dati in base a una o più colonne.

`head()`

Mostra le prime righe del DataFrame.

# Mostra le prime 5 righe
print(df.head())

`describe()`

Calcola statistiche di base come media, deviazione standard, minimo e massimo.

# Statistiche di base per le colonne numeriche
print(df.describe())

Questi sono solo alcuni esempi dei numerosi metodi disponibili per la manipolazione dei dati nei DataFrame di Pandas.

I DataFrame sono una componente fondamentale nell’analisi dei dati con Python e svolgono un ruolo cruciale nella gestione di dati tabulari. Sono uno strumento potente ed essenziale per chiunque lavori con dati in formato tabulare, indipendentemente dal settore di appartenenza.