English | 简体中文 | 繁體中文 | Русский язык | Français | Español | Português | Deutsch | 日本語 | 한국어 | Italiano | بالعربية

Metodi di base di Pandas

Esempio di metodo di base Pandas

Finora abbiamo scoperto tre Pandas DataStructures e come crearli. Poiché è molto importante per il processing dei dati in tempo reale, ci concentreremo principalmente sull'oggetto DataFrame e discuteremo altri alcuni DataStructures.

MetodoDescrizione
axesRestituisce l'elenco dei tag dell'asse delle righe.
dtypeRestituisce il dtype dell'oggetto.
emptySe la Series è vuota, restituisce True.
ndimRestituisce le dimensioni dei dati di base secondo la definizione.
sizeRestituisce il numero di elementi dei dati di base.
valuesRestituisce una Series come ndarray.
head()Restituisce le prime n righe.
tail()Restituisce le ultime n righe.
Prossimamente creiamo una Series e guardiamo tutte le operazioni sugli attributi delle liste.
 import pandas as pd
 import numpy as np
 # Crea una serie con 100 numeri casuali
 s = pd.Series(np.random.randn(4))
 print(s)

Risultato dell'esecuzione:

0 0.967853
1 -0.148368
2 -1.395906
3 -1.758394
dtype: float64

axes

Restituisce l'elenco dei tag della serie.

 import pandas as pd
 import numpy as np
 # Crea una serie con 100 numeri casuali
 s = pd.Series(np.random.randn(4))
 print ("Gli assi sono:")
 print(s.axes)

Risultato dell'esecuzione:

 Gli assi sono:
 [RangeIndex(start=0, stop=4, step=1)]

I risultati sono da 0 a 5 (cioè [0,1,2,3,4]).

empty

Restituisce un valore booleano che indica se l'oggetto è vuoto. True indica che l'oggetto è vuoto

 import pandas as pd
 import numpy as np
 # Crea una serie con 100 numeri casuali
 s = pd.Series(np.random.randn(4))
 print ("È l'oggetto vuoto?")
 print(s.empty)

Risultato dell'esecuzione:

È l'oggetto vuoto?
False

ndim

Restituisce la dimensione dell'oggetto. Secondo la definizione, la serie è una struttura dati 1D, quindi restituisce

 import pandas as pd
 import numpy as np
 # Creiamo una Series con 4 numeri casuali
 s = pd.Series(np.random.randn(4))
 print(s)
 print ("Le dimensioni dell'oggetto:")
 print(s.ndim)

Risultato dell'esecuzione:

     0 0.175898
1 0.166197
2 -0.609712
3 -1.377000
dtype: float64
Le dimensioni dell'oggetto:
1

size

Restituisce la dimensione (lunghezza) della serie.

 import pandas as pd
 import numpy as np
 # Creiamo una Series con 4 numeri casuali
 s = pd.Series(np.random.randn(2))
 print(s)
 print ("La dimensione dell'oggetto:")
 print(s.size)

Risultato dell'esecuzione:

0 3.078058
1 -1.207803
dtype: float64
La dimensione dell'oggetto:
2

values

Restituisce i dati della serie in forma array.

 import pandas as pd
 import numpy as np
 # Creiamo una Series con 4 numeri casuali
 s = pd.Series(np.random.randn(4))
 print(s)
 print ("La serie di dati effettiva è:")
 print(s.values)

Risultato dell'esecuzione:

0 1.787373
1 -0.605159
2 0.180477
3 -0.140922
dtype: float64
La serie di dati effettiva è:
[1.78737302 -0.60515881 0.18047664 -0.1409218]

Head e Tail

Per visualizzare i dati iniziali della serie o dell'oggetto DataFrame, utilizzare i metodi head() e tail().

head() Restituisce le prime n righe (indici di osservazione). Il numero predefinito di elementi visualizzati è 5, ma puoi passare un numero personalizzato.

 import pandas as pd
 import numpy as np
 # Creiamo una Series con 4 numeri casuali
 s = pd.Series(np.random.randn(4))
 print ("La serie iniziale è:")
 print(s)
 print("Le prime due righe della serie di dati:")
 print(s.head(2))

Risultato dell'esecuzione:

La serie iniziale è:
0 0.720876
1 -0.765898
2 0.479221
3 -0.139547
dtype: float64
Le prime due righe della serie di dati:
0 0.720876
1 -0.765898
dtype: float64

tail() Restituisce l'ultima n righe (osserva il valore dell'indice). Il numero di elementi visualizzati di default è 5, ma puoi passare un numero personalizzato.

 import pandas as pd
 import numpy as np
 # Creiamo una Series con 4 numeri casuali
 s = pd.Series(np.random.randn(4))
 print("La serie iniziale è:")
 print(s)
 print("Le ultime due righe della serie di dati:")
 print(s).tail(2)

Risultato dell'esecuzione:

La serie iniziale è:
0 -0.655091
1 -0.881407
2 -0.608592
3 -2.341413
dtype: float64
Le ultime due righe della serie di dati:
2 -0.608592
3 -2.341413
dtype: float64

Funzionalità di base di DataFrame

Ora capiamo cosa sono le funzionalità di base di DataFrame. La tabella seguente elenca le proprietà o i metodi importanti che aiutano le funzionalità di base di DataFrame.

Proprietà/MetodoDescrizione
TLe righe e le colonne si scambiano
axesRestituisce una lista con unici membri di etichette dell'asse delle righe e delle colonne.
dtypesRestituisce i dtypes di questo oggetto.
emptySe NDataFrame è completamente vuoto [senza elementi], allora è true; altrimenti è false. Se la lunghezza di qualsiasi asse è 0.
ndimNumero di assi/dimensione dell'array.
shapeRestituisce una tupla che rappresenta le dimensioni del DataFrame.
sizeNumero di elementi in NDataFrame.
valuesRappresentazione numerica di NDataFrame.
head()Restituisce le prime n righe.
tail()Restituisce le ultime n righe.

Ora creiamo un DataFrame e visualizziamo tutti i modi di accedere alle sue proprietà menzionate.

Esempio

 import pandas as pd
 import numpy as np
 # Creare il dizionario Series
 d = {'Nome':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),}
    'Età':pd.Series([25,26,25,23,30,29,23]),
    'Valutazione':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
 # Creare un DataFrame
 df = pd.DataFrame(d)
 print("La nostra serie di dati è:")
 print(df)

Risultato dell'esecuzione:

La nostra serie di dati è:
    Età Nome  Valutazione
0 25 Tom  4.23
1 26 James  3.24
2 25 Ricky  3.98
3 23 Vin  2.56
4 30 Steve  3.20
5 29 Smith  4.60
6 23 Jack  3.80

T (Transpose)

Restituisce la trasposizione del DataFrame. Le righe e le colonne si scambiano.

 import pandas as pd
 import numpy as np
  
 # Creare il dizionario Series
 d = {'Nome':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),}
    'Età':pd.Series([25,26,25,23,30,29,23]),
    'Valutazione':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
 # Creare un DataFrame
 df = pd.DataFrame(d)
 print("La trasposizione della serie di dati è:")
 print(df.T)

Risultato dell'esecuzione:

La trasposizione della serie di dati è:
         0 1 2 3 4 5 6
Age 25 26 25 23 30 29 23
Name Tom James Ricky Vin Steve Smith Jack
Rating 4.23 3.24 3.98 2.56 3.2 4.6 3.8

axes

Ritorna una lista delle etichette dell'asse delle righe e dell'asse delle colonne.

 import pandas as pd
 import numpy as np
 # Creare il dizionario Series
 d = {'Nome':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),}
    'Età':pd.Series([25,26,25,23,30,29,23]),
    'Valutazione':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
 # Creare un DataFrame
 df = pd.DataFrame(d)
 print ("Le etichette dell'asse delle righe e dell'asse delle colonne sono:")
 print(df.axes)

Risultato dell'esecuzione:

  Le etichette dell'asse delle righe e dell'asse delle colonne sono:
 [RangeIndex(start=0, stop=7, step=1), Index([u'Age', u'Name', u'Rating'],
 dtype='object')]

dtypes

Ritorna il tipo di dati di ogni colonna.

 import pandas as pd
 import numpy as np
 # Creare il dizionario Series
 d = {'Nome':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),}
    'Età':pd.Series([25,26,25,23,30,29,23]),
    'Valutazione':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
 # Creare un DataFrame
 df = pd.DataFrame(d)
 print ("Il tipo di dati di ogni colonna è il seguente:")
 print(df.dtypes)

Risultato dell'esecuzione:

Il tipo di dati di ogni colonna è il seguente:
Età     int64
Nome    object
Valutazione  float64
dtype: object

empty

Ritorna un valore booleano che indica se l'oggetto è vuoto; True indica che l'oggetto è vuoto.

 import pandas as pd
 import numpy as np
  
 # Creare il dizionario Series
 d = {'Nome':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),}
    'Età':pd.Series([25,26,25,23,30,29,23]),
    'Valutazione':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
  
 # Creare un DataFrame
 df = pd.DataFrame(d)
 print ("È l'oggetto vuoto?")
 print(df.empty)

Risultato dell'esecuzione:

 È l'oggetto vuoto?
 False

ndim

Ritorna il numero di dimensioni dell'oggetto. Secondo la definizione, un DataFrame è un oggetto 2D.

 import pandas as pd
 import numpy as np
 # Creare il dizionario Series
 d = {'Nome':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),}
    'Età':pd.Series([25,26,25,23,30,29,23]),
    'Valutazione':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
 # Creare un DataFrame
 df = pd.DataFrame(d)
 print("Il nostro oggetto è:")
 print(df)
 print ("La dimensione dell'oggetto è:")
 print(df.ndim)

Risultato dell'esecuzione:

     Il nostro oggetto è:
      Età    Nome     Valutazione
0     25     Tom      4.23
1     26     James    3.24
2     25     Ricky    3.98
3     23     Vin      2.56
4     30     Steve    3.20
5     29     Smith    4.60
6     23     Jack     3.80
La dimensione dell'oggetto è:
2

shape

Ritorna un tuple che rappresenta le dimensioni del DataFrame. Il tuple (a, b), dove a rappresenta il numero di righe e b il numero di colonne.

 import pandas as pd
 import numpy as np
  
 # Creare il dizionario Series
 d = {'Nome':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),}
    'Età':pd.Series([25,26,25,23,30,29,23]),
    'Valutazione':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
  
 # Creare un DataFrame
 df = pd.DataFrame(d)
 print("Il nostro oggetto è:")
 print(df)
 print ("The shape of the object is:")
 print(df.shape)

Risultato dell'esecuzione:

     Il nostro oggetto è:
   Età Nome  Valutazione
0  25    Tom     4.23
1  26    James   3.24
2  25    Ricky   3.98
3  23    Vin     2.56
4  30    Steve   3.20
5 29 Smith 4.60
6 23 Jack 3.80
La forma dell'oggetto è:
(7, 3)

size

Restituisce il numero di elementi nel DataFrame.

 import pandas as pd
 import numpy as np
  
 # Creare il dizionario Series
 d = {'Nome':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),}
    'Età':pd.Series([25,26,25,23,30,29,23]),
    'Valutazione':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
  
 # Creare un DataFrame
 df = pd.DataFrame(d)
 print("Il nostro oggetto è:")
 print(df)
 print("Il numero totale di elementi nel nostro oggetto è:")
 print(df.size)

Risultato dell'esecuzione:

     Il nostro oggetto è:
    Età Nome  Valutazione
0 25 Tom  4.23
1 26 James  3.24
2 25 Ricky  3.98
3 23 Vin  2.56
4 30 Steve  3.20
5 29 Smith  4.60
6 23 Jack  3.80
Il numero totale di elementi nel nostro oggetto è:
21

values

Restituisce i dati effettivi nel DataFrame in forma di NDarray.

 import pandas as pd
 import numpy as np
  
 # Creare il dizionario Series
 d = {'Nome':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),}
    'Età':pd.Series([25,26,25,23,30,29,23]),
    'Valutazione':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
  
 # Creare un DataFrame
 df = pd.DataFrame(d)
 print("Il nostro oggetto è:")
 print(df)
 print("I dati effettivi nel nostro data frame sono:")
 print(df.values)

Risultato dell'esecuzione:

     Il nostro oggetto è:
    Età Nome  Valutazione
0 25 Tom  4.23
1 26 James  3.24
2 25 Ricky  3.98
3 23 Vin  2.56
4 30 Steve  3.20
5 29 Smith  4.60
6 23 Jack  3.80
I dati effettivi nel nostro data frame sono:
[[25 'Tom' 4.23]
[26 'James' 3.24]
[25 'Ricky' 3.98]
[23 'Vin' 2.56]
[30 'Steve' 3.2]
[29 'Smith' 4.6]
[23 'Jack' 3.8]

Testa e Coda

Per visualizzare i dati in testa e in coda del DataFrame, utilizzare i metodi head() e tail(). head() restituisce le prime n righe (osserva il valore dell'indice). Il numero di elementi visualizzati di default è 5, ma puoi passare un numero personalizzato.

 import pandas as pd
 import numpy as np
  
 # Creare il dizionario Series
 d = {'Nome':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),}
    'Età':pd.Series([25,26,25,23,30,29,23]),
    'Valutazione':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
 # Creare un DataFrame
 df = pd.DataFrame(d)
 print("Il nostro data frame è:")
 print(df)
 print("Le prime due righe del data frame sono:")
 print(df.head(2))

Risultato dell'esecuzione:

     Il nostro data frame è:
    Età Nome  Valutazione
0 25 Tom  4.23
1 26 James  3.24
2 25 Ricky  3.98
3 23 Vin  2.56
4 30 Steve  3.20
5 29 Smith  4.60
6 23 Jack  3.80
Le prime due righe del data frame sono:
   Age Nome Valutazione
0 25 Tom 4.23
1 26 James 3.24

tail() Restituisce l'ultima n righe (osserva il valore dell'indice). Il numero di elementi visualizzati di default è 5, ma puoi passare un numero personalizzato.

 import pandas as pd
 import numpy as np
 # Creare il dizionario Series
 d = {'Nome':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack']),}
    'Età':pd.Series([25,26,25,23,30,29,23]), 
    'Valutazione':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}
  
 # Creare un DataFrame
 df = pd.DataFrame(d)
 print( "Il nostro frame di dati è:")
 print(df)
 print( "Le ultime due righe del frame di dati sono:")
 print(df.tail(2))

Risultato dell'esecuzione:

Il nostro frame di dati è:
    Età Nome  Valutazione
0 25 Tom  4.23
1 26 James  3.24
2 25 Ricky  3.98
3 23 Vin  2.56
4 30 Steve  3.20
5 29 Smith  4.60
6 23 Jack  3.80
Le ultime due righe del frame di dati sono:
    Età Nome  Valutazione
5 29 Smith  4.6
6 23 Jack  3.8