Tutorial di Python Pandas

Pandas è un software open source con licenza BSD Python Biblioteca di supporto per l'analisi dei dati, che fornisce strutture dati e strumenti di analisi dei dati ad alta performance e facili da usare per il linguaggio di programmazione Python. Python con Pandas viene utilizzato in un ampio spettro di campi, inclusi settori accademici e commerciali, come finanza, economia, statistica, analisi, ecc. Pandas è un set di strumenti potenti per l'analisi dei dati strutturati; la sua base è Numpy (che fornisce operazioni matematiche ad alta performance); viene utilizzato per la data mining e l'analisi dei dati, e offre anche funzionalità di pulizia dei dati. In questo tutorial, impareremo le diverse funzionalità di Python Pandas e come utilizzarle nella pratica.

Questo tutorial è destinato a chi desidera imparare le basi di Pandas e le sue diverse funzionalità. È particolarmente utile per chi si occupa di pulizia e analisi dei dati. Dopo aver completato questo tutorial, scoprirai di avere un livello di conoscenza medio, dal quale puoi ottenere un livello di conoscenza più alto.

Prima di imparare Pandas, dovresti avere una comprensione di base dei termini di programmazione informatico. Una comprensione di base di qualsiasi linguaggio di programmazione è un punto a favore. La libreria pandas utilizza la maggior parte delle funzionalità di NumPy. Si consiglia di leggere prima i tutorial su NumPy prima di continuare con questo tutorial;

Pandas è adatto per gestire i seguenti tipi di dati:

Dati tabellari simili a SQL o Excel, con colonne eterogenee; Gli elementi degli array NumPy devono avere lo stesso tipo di dati, quindi hanno la stessa dimensione in memoria; Sequenze temporali ordinate e disordinate (a frequenza non fissa); Matrici di dati con etichette di riga e colonna, inclusi dati omogenei o eterogenei; Ogni altro tipo di set di dati osservativo o statistico, non è necessario etichettarlo preventivamente quando si trasferisce nei dati strutturati di Pandas;

Perché utilizzare Pandas?

La struttura dati principale di Pandas è Series (dati unidimensionali) e DataFrame (dati bidimensionali), che sono sufficienti per gestire la maggior parte dei casi d'uso tipici nei campi di finanza, statistica, scienze sociali e ingegneria. Per gli utenti di R, DataFrame offre funzionalità più ricche rispetto a data.frame del linguaggio R. Pandas è sviluppato su NumPy e può essere integrato perfettamente con altre librerie di calcolo scientifico di terze parti. Pandas è come un multifunzionale Swiss Army Knife, e di seguito è elencato solo una parte delle sue principali caratteristiche:;

Gestisci dati mancanti in dati a virgola mobile e non a virgola mobile, rappresentati come NaN; Dimensioni variabili: inserisci o elimina colonne di DataFrame e altri oggetti multidimensionali; Allineamento automatico e esplicito dei dati: allinea esplicitamente gli oggetti con un insieme di etichette, o ignora le etichette, per allinearsi automaticamente con i dati durante i calcoli di Series e DataFrame; Funzione di raggruppamento (group by) potente e flessibile: suddividi, applica e combina set di dati, aggrega e trasforma dati; Converti facilmente dati irregolari e con indici diversi nei dati strutturati di Python e NumPy in oggetti DataFrame; Suddividi, crea indici stilizzati e decomponi subset di grandi set di dati basati su etichette intelligenti; Unione (merge) e connessione (join) dei set di dati in modo intuitivo; Raffina flexibilmente i set di dati (reshape) e **riorganizza (pivot)** i set di dati; Supporto di etichette strutturate dell'asse: una scala supporta più etichette; Strumenti di IO maturi: lettura di file di testo (CSV e altri file che supportano separatori), file Excel, database e altri dati di origine, utilizzando il formato HDF5 ultraveloce per salvare / caricare dati; Cronologia: supporta la generazione di intervallo di date, conversione di frequenza, statistica della finestra mobile, regressione lineare della finestra mobile, spostamento delle date e altre funzionalità di cronologia.

Queste funzionalità sono principalmente per risolvere i problemi di altri linguaggi di programmazione e ambienti di ricerca. Il trattamento dei dati di solito si suddivide in diverse fasi: pulizia e pulizia dei dati, analisi e modellazione dei dati, visualizzazione e tabulazione dei dati, Pandas è lo strumento ideale per il trattamento dei dati.

Altre note:

Pandas è molto veloce. Molti algoritmi di basso livello di Pandas sono ottimizzati con Cython. Tuttavia, per mantenere la universalità, è necessario sacrificare alcune prestazioni. Se ci si concentra su una funzione specifica, è possibile sviluppare strumenti专用 più veloci di Pandas. Pandas è una dipendenza di statsmodels, quindi è anche una parte importante dell'ecosistema di calcolo statistico in Python. Pandas è stato ampiamente utilizzato nel settore finanziario.

Esempio semplice di Pandas

Esempio

　　$ pip install pandas
　　$ python -i
　　>>> pandaspd
　>>> df = pd.()　
　>>> print(df)
　　DataFrame vuoto
　Colonne:　[]
　Indice:　[]

Operazioni SQL di Pandas

Tutorial di Pandas

Tutorial di Python Pandas

Perché utilizzare Pandas?

Esempio semplice di Pandas