Operazioni SQL di Pandas Installazione di Pandas

Strutture dati di Pandas

Pandas ha tre strutture dati comuni

Series DataFrame Panel

Queste strutture dati sono costruite sugli array di Numpy, il che significa che hanno velocità di esecuzione molto rapide.

Confronto tra Python, Numpy e Pandas

Python

list: tipo di dati nativo di Python, principalmente utilizzato in una dimensione, funzione semplice, efficienza bassa Dict: tipo di dati nativo di Python, coppia chiave/valore multidimensionale, efficienza bassa

Numpy

ndarray: tipo di dati di base di Numpy, tipo di dati singolo Si concentra sulle strutture dati/operazioni/dimensioni (relazioni tra dati)

Pandas

Series: 1D, simile a 1D ndarray con indici DataFrame: 2D, tipo di dati tabellare, simile a 2D ndarray con indici di riga/colonna, che si concentra sulla relazione tra dati e indici (applicazione reale dei dati)

Confronto in termini di utilità, potenza funzionale e operabilità: list < ndarray < Series/DataFrame

Nello studio e nell'analisi dei dati, l'array ndarray è un supplemento necessario, e la maggior parte dei dati dovrebbe utilizzare i tipi di dati Pandas.

Il miglior metodo per considerare queste strutture dati è che le strutture dati ad alta dimensione sono contenitori delle strutture dati a bassa dimensione. Ad esempio, DataFrame è un contenitore di Series, e Panel è un contenitore di DataFrame.

Struttura dati	Dimensione	Spiegazione
Series	1	Utilizzato per memorizzare dati unidimensionali di una sequenza
Data Frames	2	DataFrame, come struttura dati più complessa, viene utilizzata per memorizzare dati multidimensionali
Panel	3	Etichette 3D universali, array di dimensioni variabili.

Costruire e gestire array bidimensionali è un lavoro laborioso, e quando si scrivono funzioni, è necessario che l'utente consideri la direzione del set di dati. Tuttavia, l'uso delle strutture dati Pandas può ridurre lo sforzo dell'utente.
Ad esempio, per i dati tabellari (DataFrame), considerare l'indice (riga) e le colonne in termini semantici è più utile rispetto agli assi 0 e 1.

Variazione

Tutte le strutture dati di Pandas sono variabili per valore (puoi modificarle), eccetto Series, tutte le dimensioni sono variabili. La serie è invariabile per dimensione.

Nota - DataFrame viene utilizzato ampiamente e rappresenta una delle strutture dati più importanti. Il pannello viene utilizzato molto meno.

Series

Series è una struttura a array unidimensionale con dati uniformi. Ad esempio, la seguente serie è un insieme di interi 10, 23, 56...

10	23	56	17	52	61	73	90	26	72

Series è una struttura a array unidimensionale con dati uniformi. Ad esempio, la seguente serie è un insieme di interi 10, 23, 56...

Punti chiave

Dati omogenei Dimensione invariabile Valori variabili

Data Frames

DataFrame è un array bidimensionale con dati eterogenei. Ad esempio:

Nome	Età	Genere	Rating
Steve	32	Maschio	3.45
Lia	28	Femmina	4.6
Vin	45	Maschio	3.9
Katie	38	Femmina	2.78

La tabella sopra rappresenta i dati del team di vendita dell'organizzazione e il loro punteggio complessivo di prestazioni, i dati sono rappresentati da righe e colonne, ogni colonna rappresenta un attributo, ogni riga rappresenta una persona.

Tipo di dati della colonna

Colonna	Tipo
Nome	Stringa
Età	Integer
Genere	Stringa
Rating	Float

Punti chiave

Dati eterogenei Dimensione invariabile Dati variabili

Panel

Il Panel è una struttura dati tridimensionale con dati eterogenei. È difficile rappresentare il pannello graficamente. Tuttavia, il pannello può essere considerato un contenitore di DataFrame.

Punti chiave

Dati eterogenei Dimensione variabile Dati variabili

Operazioni SQL di Pandas Installazione di Pandas

Guida Pandas

Strutture dati di Pandas

Confronto tra Python, Numpy e Pandas

Variazione

Series

Data Frames

Panel