English | 简体中文 | 繁體中文 | Русский язык | Français | Español | Português | Deutsch | 日本語 | 한국어 | Italiano | بالعربية

Strutture dati di Pandas

Pandas ha tre strutture dati comuni

Series DataFrame Panel

Queste strutture dati sono costruite sugli array di Numpy, il che significa che hanno velocità di esecuzione molto rapide.

Confronto tra Python, Numpy e Pandas

Python

list: tipo di dati nativo di Python, principalmente utilizzato in una dimensione, funzione semplice, efficienza bassa Dict: tipo di dati nativo di Python, coppia chiave/valore multidimensionale, efficienza bassa

Numpy

ndarray: tipo di dati di base di Numpy, tipo di dati singolo Si concentra sulle strutture dati/operazioni/dimensioni (relazioni tra dati)

Pandas

Series: 1D, simile a 1D ndarray con indici DataFrame: 2D, tipo di dati tabellare, simile a 2D ndarray con indici di riga/colonna, che si concentra sulla relazione tra dati e indici (applicazione reale dei dati)

Confronto in termini di utilità, potenza funzionale e operabilità: list < ndarray < Series/DataFrame

Nello studio e nell'analisi dei dati, l'array ndarray è un supplemento necessario, e la maggior parte dei dati dovrebbe utilizzare i tipi di dati Pandas.

Il miglior metodo per considerare queste strutture dati è che le strutture dati ad alta dimensione sono contenitori delle strutture dati a bassa dimensione. Ad esempio, DataFrame è un contenitore di Series, e Panel è un contenitore di DataFrame.

Struttura dati DimensioneSpiegazione
Series1Utilizzato per memorizzare dati unidimensionali di una sequenza
Data Frames2DataFrame, come struttura dati più complessa, viene utilizzata per memorizzare dati multidimensionali
Panel3Etichette 3D universali, array di dimensioni variabili.

Costruire e gestire array bidimensionali è un lavoro laborioso, e quando si scrivono funzioni, è necessario che l'utente consideri la direzione del set di dati. Tuttavia, l'uso delle strutture dati Pandas può ridurre lo sforzo dell'utente.
Ad esempio, per i dati tabellari (DataFrame), considerare l'indice (riga) e le colonne in termini semantici è più utile rispetto agli assi 0 e 1.

Variazione

Tutte le strutture dati di Pandas sono variabili per valore (puoi modificarle), eccetto Series, tutte le dimensioni sono variabili. La serie è invariabile per dimensione.

Nota - DataFrame viene utilizzato ampiamente e rappresenta una delle strutture dati più importanti. Il pannello viene utilizzato molto meno.

Series

Series è una struttura a array unidimensionale con dati uniformi. Ad esempio, la seguente serie è un insieme di interi 10, 23, 56...

10235617526173902672

Series è una struttura a array unidimensionale con dati uniformi. Ad esempio, la seguente serie è un insieme di interi 10, 23, 56...

Punti chiave

Dati omogenei Dimensione invariabile Valori variabili

Data Frames

DataFrame è un array bidimensionale con dati eterogenei. Ad esempio:

NomeEtàGenereRating
Steve32Maschio3.45
Lia28Femmina4.6
Vin45Maschio3.9
Katie38Femmina2.78

La tabella sopra rappresenta i dati del team di vendita dell'organizzazione e il loro punteggio complessivo di prestazioni, i dati sono rappresentati da righe e colonne, ogni colonna rappresenta un attributo, ogni riga rappresenta una persona.

Tipo di dati della colonna
ColonnaTipo
Nome Stringa
Età Integer
Genere Stringa
Rating Float
Punti chiave

Dati eterogenei Dimensione invariabile Dati variabili

Panel

Il Panel è una struttura dati tridimensionale con dati eterogenei. È difficile rappresentare il pannello graficamente. Tuttavia, il pannello può essere considerato un contenitore di DataFrame.

Punti chiave

Dati eterogenei Dimensione variabile Dati variabili