Operazioni SQL di Pandas Operazioni di IO di Pandas

Dati sparsi di Pandas

Esempio di operazioni su dati sparsi in Pandas

Quando si omette qualsiasi dato che corrisponde a un valore specifico (NaN / valori mancanti, anche se si può scegliere qualsiasi valore), l'oggetto sparsa viene “compresso”. Un oggetto SparseIndex speciale traccia le posizioni in cui i dati sono “dispersi”. In un esempio, questo sarà più significativo. Tutte le strutture dati standard di Pandas applicano il metodo to_sparse:

Esempio

　import pandas as pd
　import numpy as np
　ts = pd.Series(np.random.randn(10))
　ts[2:-2] = np.nan
　sts = ts.to_sparse()
　print sts

Ecco i risultati dell'esecuzione:

　0 -0.810497
　1 -1.419954
　2 NaN
　3 NaN
　4 NaN
　5 NaN
　6 NaN
　7 NaN
　8 0.439240
　9 -1.095910
　dtype: float64
　BlockIndex
　Posizioni dei blocchi: array([0, 8], dtype=int32)
　Lunghezze dei blocchi: array([2, 2], dtype=int32)

Per motivi di efficienza di memoria, esistono oggetti sparsi.
Ora supponiamo che tu abbia un grande DataFrame con valori NA e esegui il seguente codice-

Esempio

　import pandas as pd
　import numpy as np
　df = pd.DataFrame(np.random.randn(10000, 4))
　df.ix[:9998] = np.nan
　sdf = df.to_sparse()
　print sdf.density

Ecco i risultati dell'esecuzione:

　　　0.0001

Qualsiasi oggetto sparsa può essere convertito indietro alla forma densa standard chiamando to_dense

Esempio

　import pandas as pd
　import numpy as np
　ts = pd.Series(np.random.randn(10))
　ts[2:-2] = np.nan
　sts = ts.to_sparse()
　print sts.to_dense()

Ecco i risultati dell'esecuzione:

　0 -0.810497
　1 -1.419954
　2 NaN
　3 NaN
　4 NaN
　5 NaN
　6 NaN
　7 NaN
　8 0.439240
　9 -1.095910
　dtype: float64

Tipi di dati sparsi

I dati sparsi devono avere lo stesso dtype della loro rappresentazione densa. Attualmente, sono supportati float64, int64 e booldtypes. A seconda del dtype originale, il valore di riempimento predefinito cambia -

float64 − np.nan

int64 − 0

bool − False

Eseguiamo il seguente codice per comprenderli:

Esempio

　import pandas as pd
　import numpy as np
　s = pd.Series([1, np.nan, np.nan])
　print s
　s.to_sparse()
　print s

Ecco i risultati dell'esecuzione:

　0 1.0
　1 NaN
　2 NaN
　dtype: float64
　0 1.0
　1 NaN
　2 NaN
　dtype: float64

Operazioni SQL di Pandas Operazioni di IO di Pandas

Tutorial di Pandas

Dati sparsi di Pandas

Tipi di dati sparsi