English | 简体中文 | 繁體中文 | Русский язык | Français | Español | Português | Deutsch | 日本語 | 한국어 | Italiano | بالعربية
Pandas ha tre strutture dati comuni
Series DataFrame Panel
Queste strutture dati sono costruite sugli array di Numpy, il che significa che hanno velocità di esecuzione molto rapide.
list: tipo di dati nativo di Python, principalmente utilizzato in una dimensione, funzione semplice, efficienza bassa Dict: tipo di dati nativo di Python, coppia chiave/valore multidimensionale, efficienza bassa
ndarray: tipo di dati di base di Numpy, tipo di dati singolo Si concentra sulle strutture dati/operazioni/dimensioni (relazioni tra dati)
Series: 1D, simile a 1D ndarray con indici DataFrame: 2D, tipo di dati tabellare, simile a 2D ndarray con indici di riga/colonna, che si concentra sulla relazione tra dati e indici (applicazione reale dei dati)
Confronto in termini di utilità, potenza funzionale e operabilità: list < ndarray < Series/DataFrame
Nello studio e nell'analisi dei dati, l'array ndarray è un supplemento necessario, e la maggior parte dei dati dovrebbe utilizzare i tipi di dati Pandas.
Il miglior metodo per considerare queste strutture dati è che le strutture dati ad alta dimensione sono contenitori delle strutture dati a bassa dimensione. Ad esempio, DataFrame è un contenitore di Series, e Panel è un contenitore di DataFrame.
Struttura dati | Dimensione | Spiegazione |
Series | 1 | Utilizzato per memorizzare dati unidimensionali di una sequenza |
Data Frames | 2 | DataFrame, come struttura dati più complessa, viene utilizzata per memorizzare dati multidimensionali |
Panel | 3 | Etichette 3D universali, array di dimensioni variabili. |
Costruire e gestire array bidimensionali è un lavoro laborioso, e quando si scrivono funzioni, è necessario che l'utente consideri la direzione del set di dati. Tuttavia, l'uso delle strutture dati Pandas può ridurre lo sforzo dell'utente.
Ad esempio, per i dati tabellari (DataFrame), considerare l'indice (riga) e le colonne in termini semantici è più utile rispetto agli assi 0 e 1.
Tutte le strutture dati di Pandas sono variabili per valore (puoi modificarle), eccetto Series, tutte le dimensioni sono variabili. La serie è invariabile per dimensione.
Nota - DataFrame viene utilizzato ampiamente e rappresenta una delle strutture dati più importanti. Il pannello viene utilizzato molto meno.
Series è una struttura a array unidimensionale con dati uniformi. Ad esempio, la seguente serie è un insieme di interi 10, 23, 56...
10 | 23 | 56 | 17 | 52 | 61 | 73 | 90 | 26 | 72 |
Series è una struttura a array unidimensionale con dati uniformi. Ad esempio, la seguente serie è un insieme di interi 10, 23, 56...
Dati omogenei Dimensione invariabile Valori variabili
DataFrame è un array bidimensionale con dati eterogenei. Ad esempio:
Nome | Età | Genere | Rating |
Steve | 32 | Maschio | 3.45 |
Lia | 28 | Femmina | 4.6 |
Vin | 45 | Maschio | 3.9 |
Katie | 38 | Femmina | 2.78 |
La tabella sopra rappresenta i dati del team di vendita dell'organizzazione e il loro punteggio complessivo di prestazioni, i dati sono rappresentati da righe e colonne, ogni colonna rappresenta un attributo, ogni riga rappresenta una persona.
Colonna | Tipo |
Nome | Stringa |
Età | Integer |
Genere | Stringa |
Rating | Float |
Dati eterogenei Dimensione invariabile Dati variabili
Il Panel è una struttura dati tridimensionale con dati eterogenei. È difficile rappresentare il pannello graficamente. Tuttavia, il pannello può essere considerato un contenitore di DataFrame.
Dati eterogenei Dimensione variabile Dati variabili