English | 简体中文 | 繁體中文 | Русский язык | Français | Español | Português | Deutsch | 日本語 | 한국어 | Italiano | بالعربية
Questo tutorial è destinato a chi desidera imparare le basi di Pandas e le sue diverse funzionalità. È particolarmente utile per chi si occupa di pulizia e analisi dei dati. Dopo aver completato questo tutorial, scoprirai di avere un livello di conoscenza medio, dal quale puoi ottenere un livello di conoscenza più alto.
Prima di imparare Pandas, dovresti avere una comprensione di base dei termini di programmazione informatico. Una comprensione di base di qualsiasi linguaggio di programmazione è un punto a favore. La libreria pandas utilizza la maggior parte delle funzionalità di NumPy. Si consiglia di leggere prima i tutorial su NumPy prima di continuare con questo tutorial;
Pandas è adatto per gestire i seguenti tipi di dati:
Dati tabellari simili a SQL o Excel, con colonne eterogenee; Gli elementi degli array NumPy devono avere lo stesso tipo di dati, quindi hanno la stessa dimensione in memoria; Sequenze temporali ordinate e disordinate (a frequenza non fissa); Matrici di dati con etichette di riga e colonna, inclusi dati omogenei o eterogenei; Ogni altro tipo di set di dati osservativo o statistico, non è necessario etichettarlo preventivamente quando si trasferisce nei dati strutturati di Pandas;
La struttura dati principale di Pandas è Series (dati unidimensionali) e DataFrame (dati bidimensionali), che sono sufficienti per gestire la maggior parte dei casi d'uso tipici nei campi di finanza, statistica, scienze sociali e ingegneria. Per gli utenti di R, DataFrame offre funzionalità più ricche rispetto a data.frame del linguaggio R. Pandas è sviluppato su NumPy e può essere integrato perfettamente con altre librerie di calcolo scientifico di terze parti. Pandas è come un multifunzionale Swiss Army Knife, e di seguito è elencato solo una parte delle sue principali caratteristiche:;
Gestisci dati mancanti in dati a virgola mobile e non a virgola mobile, rappresentati come NaN; Dimensioni variabili: inserisci o elimina colonne di DataFrame e altri oggetti multidimensionali; Allineamento automatico e esplicito dei dati: allinea esplicitamente gli oggetti con un insieme di etichette, o ignora le etichette, per allinearsi automaticamente con i dati durante i calcoli di Series e DataFrame; Funzione di raggruppamento (group by) potente e flessibile: suddividi, applica e combina set di dati, aggrega e trasforma dati; Converti facilmente dati irregolari e con indici diversi nei dati strutturati di Python e NumPy in oggetti DataFrame; Suddividi, crea indici stilizzati e decomponi subset di grandi set di dati basati su etichette intelligenti; Unione (merge) e connessione (join) dei set di dati in modo intuitivo; Raffina flexibilmente i set di dati (reshape) e **riorganizza (pivot)** i set di dati; Supporto di etichette strutturate dell'asse: una scala supporta più etichette; Strumenti di IO maturi: lettura di file di testo (CSV e altri file che supportano separatori), file Excel, database e altri dati di origine, utilizzando il formato HDF5 ultraveloce per salvare / caricare dati; Cronologia: supporta la generazione di intervallo di date, conversione di frequenza, statistica della finestra mobile, regressione lineare della finestra mobile, spostamento delle date e altre funzionalità di cronologia.
Queste funzionalità sono principalmente per risolvere i problemi di altri linguaggi di programmazione e ambienti di ricerca. Il trattamento dei dati di solito si suddivide in diverse fasi: pulizia e pulizia dei dati, analisi e modellazione dei dati, visualizzazione e tabulazione dei dati, Pandas è lo strumento ideale per il trattamento dei dati.
Pandas è molto veloce. Molti algoritmi di basso livello di Pandas sono ottimizzati con Cython. Tuttavia, per mantenere la universalità, è necessario sacrificare alcune prestazioni. Se ci si concentra su una funzione specifica, è possibile sviluppare strumenti专用 più veloci di Pandas. Pandas è una dipendenza di statsmodels, quindi è anche una parte importante dell'ecosistema di calcolo statistico in Python. Pandas è stato ampiamente utilizzato nel settore finanziario.
$ pip install pandas $ python -i >>> pandaspd >>> df = pd.() >>> print(df) DataFrame vuoto Colonne: [] Indice: []