{ "cells": [ { "cell_type": "markdown", "metadata": { "toc": true }, "source": [ "

Table of Contents

\n", "
" ] }, { "cell_type": "markdown", "metadata": { "header": true }, "source": [ "
\n", "D. Malchiodi, Superhero data science. Vol 1: probabilità e statistica: Pandas.\n", "
\n", "
" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "\n", "\n", "\n", "
\n", "\n", "# Pandas\n", "Vedremo come la libreria pandas faciliti le operazioni viste finora per caricare dati, organizzarli in opportune strutture e analizzarli. Per poter procedere dobbiamo ricaricare le librerie usate finora, nonché il file `heroes.csv`. Useremo anche la _matplotlib magic_ che ci permette di visualizzare i grafici direttamente nel notebook." ] }, { "cell_type": "code", "execution_count": 1, "metadata": {}, "outputs": [], "source": [ "import csv\n", "import numpy as np\n", "import matplotlib.pyplot as plt\n", "import pandas as pd\n", "\n", "plt.style.use('fivethirtyeight')\n", "plt.rc('figure', figsize=(5.0, 2.0))\n", "\n", "with open('data/heroes.csv', 'r') as heroes_file:\n", " heroes_reader = csv.reader(heroes_file, delimiter=';', quotechar='\"')\n", " heroes = list(heroes_reader)[1:]\n" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Va notato come pandas (così come, in generale, gran parte del software open source dedicato all'analisi dei dati) sia caratterizzato da una comunità di sviluppatori molto attiva. Ciò significa che il tempo tra il rilascio di due release successive sia di norma breve: se avete effettuato l'installazione in modo autonomo è quindi possibile che stiate utilizzando una versione più (o meno) recente di quella più aggiornata quando è stato scritto questo documento. Per verificare quale sia la versione installata è sufficiente accedere alla proprietà `pd.__version__`:" ] }, { "cell_type": "code", "execution_count": 2, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "'1.1.3'" ] }, "execution_count": 2, "metadata": {}, "output_type": "execute_result" } ], "source": [ "pd.__version__" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Utilizzando una versione diversa da questa, può capitare che il risultato ottenuto eseguendo alcune celle sia diverso da quello indicato. Alcune funzionalità potrebbero anche non essere implementate, deprecate o perfino rimosse. Se state invece utilizzando l'ambiente fornito tramite immagine Docker o tramite mybinder non dovreste avere problemi di questo genere." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "\n", "\n", "\n", "
\n", "\n", "## Serie\n", "Una delle classi principali implementate in pandas è `Series`. Le sue istanze rappresentano serie di osservazioni di un certo carattere fatto su un insieme di individui. La cella seguente recupera dalla lista `heroes` precedentemente creata i nomi dei supereroi e il loro anno di prima apparizione e li utilizza per creare una serie:" ] }, { "cell_type": "code", "execution_count": 3, "metadata": {}, "outputs": [], "source": [ "years = [int(h[7]) if h[7] else None for h in heroes]\n", "names = [h[0] for h in heroes]\n", "first_appearance = pd.Series(years, index = names)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Nella creazione della lista `year` è stata utilizzata una list comprehension in cui l'espressione `int(h[7]) if h[7] else None` utilizza un operatore ternario tramite cui la stringa vuota viene trasformata nel valore speciale `None`, mentre tutte le altre vengono convertite nel corrispondente intero.\n", "\n", "La differenza tra una serie e una lista o una tupla è legata alla possibilità di invocare su di essa delle funzioni specifiche. Inoltre a ogni serie è associato un *indice* che permette di identificare ogni elemento osservato. Nell'esempio sopra riportato, il primo argomento specificato nel costruttore è una lista (ma sarebbe andata bene anche una tupla) di anni che indicano la prima apparizione di un supereroe e il secondo rappresenta appunto l'indice, che in questo caso è la lista dei corrispondenti nomi. Quando si visualizza una serie, ogni osservazione viene associata al corrispondente elemento usando appunto l'indice:" ] }, { "cell_type": "code", "execution_count": 4, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "A-Bomb 2008.0\n", "Abraxas NaN\n", "Abomination NaN\n", "Adam Monroe NaN\n", "Agent 13 NaN\n", " ... \n", "Alan Scott 1940.0\n", "Amazo 1960.0\n", "Ant-Man 1962.0\n", "Ajax 1998.0\n", "Alex Mercer NaN\n", "Length: 735, dtype: float64" ] }, "execution_count": 4, "metadata": {}, "output_type": "execute_result" } ], "source": [ "first_appearance" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "La visualizzazione della serie (che in questo caso riporta solo i primi e gli ultimi elementi perché la serie è troppo lunga) termina indicando il tipo di dato usato per rappresentare le varie osservazioni. Nell'esempio precedente viene utilizzato il tipo `float64` (pandas utilizza internamente gli array di numpy, in cui è presente un'implementazione dei tipi in virgola mobile diversa da quella standard di python), nonostante i dati originari fossero numeri interi. Ciò è dovuto alla presenza di valori mancanti. Di norma vengono indicati con la sigla NA (dall'inglese \"not available\"), ma in pandas essi vengono rappresentati utilizzando il concetto di \"not a number\" dello standard IEEE per la virgola mobile: si noti come tutte le occorrenze di `None` nella lista originale siano state automaticamente convertite in `np.nan`.\n", "\n", "L'accesso ai dati contenuti in una serie può avvenire in due modi:\n", "- specificando un valore per l'indice tra parentesi quadre dopo la serie o dopo la sua proprietà `loc`:" ] }, { "cell_type": "code", "execution_count": 5, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(1941.0, 1941.0)" ] }, "execution_count": 5, "metadata": {}, "output_type": "execute_result" } ], "source": [ "(first_appearance['Wonder Woman'], first_appearance.loc['Wonder Woman'])" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- indicando un valore per la posizione tra parentesi quadre dopo la serie o dopo la sua proprietà `iloc`:" ] }, { "cell_type": "code", "execution_count": 6, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(1992.0, 1992.0)" ] }, "execution_count": 6, "metadata": {}, "output_type": "execute_result" } ], "source": [ "(first_appearance[128], first_appearance.iloc[128])" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "
\n", "Se l'indice di una serie è basato su valori interi, i valori tra parentesi quadre immediatamente dopo la serie faranno riferimento all'indice e non alla posizione: ciò potrebbe essere fuorviante se gli elementi dell'indice non partono da zero e non sono consecutivi.\n", "
" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "È inoltre possibile utilizzare una notazione simile al _list slicing_ specificando valori dell'indice oppure posizioni. Va però notato che gli _slicing_ basati su indice comprenderanno il primo e l'ultimo valore specificato:" ] }, { "cell_type": "code", "execution_count": 7, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "Wonder Girl 1996.0\n", "Wonder Woman 1941.0\n", "dtype: float64" ] }, "execution_count": 7, "metadata": {}, "output_type": "execute_result" } ], "source": [ "first_appearance['Wonder Girl':'Wonder Woman']" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "mentre gli _slice_ basati su posizione escluderanno l'ultimo elemento:" ] }, { "cell_type": "code", "execution_count": 8, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "Vegeta NaN\n", "Vixen 1981.0\n", "Valkyrie NaN\n", "dtype: float64" ] }, "execution_count": 8, "metadata": {}, "output_type": "execute_result" } ], "source": [ "first_appearance[60:63]" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "L'accesso posizionale può anche fare riferimento a numeri negativi, contando in analogia a liste e tuple a partire dall'ultimo elemento:" ] }, { "cell_type": "code", "execution_count": 9, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "Alan Scott 1940.0\n", "Amazo 1960.0\n", "Ant-Man 1962.0\n", "Ajax 1998.0\n", "Alex Mercer NaN\n", "dtype: float64" ] }, "execution_count": 9, "metadata": {}, "output_type": "execute_result" } ], "source": [ "first_appearance[-5:]" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "È possibile accedere ai primi e ultimi elementi di una serie anche utilizzando le funzioni `head` e `tail`, che mostrano rispettivamente solo le prime e le ultime righe:" ] }, { "cell_type": "code", "execution_count": 10, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "A-Bomb 2008.0\n", "Abraxas NaN\n", "Abomination NaN\n", "Adam Monroe NaN\n", "Agent 13 NaN\n", "Air-Walker NaN\n", "Agent Bob 2007.0\n", "dtype: float64" ] }, "execution_count": 10, "metadata": {}, "output_type": "execute_result" } ], "source": [ "first_appearance.head(7)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "L'accesso alle liste può anche essere fatto specificando una lista (ma non una tupla) di posizioni al posto di una sola posizione, con l'effetto di ottenere i corrispondenti elementi." ] }, { "cell_type": "code", "execution_count": 11, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "Abraxas NaN\n", "Warbird NaN\n", "Astro Boy NaN\n", "dtype: float64" ] }, "execution_count": 11, "metadata": {}, "output_type": "execute_result" } ], "source": [ "first_appearance[[1, 42, 709]]" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Questo tipo di accesso può essere fatto anche specificando una lista di valori per l'indice. Infine, si può utilizzare una lista di valori booleani in cui `True` indica gli elementi da estrarre e `False` quelli da filtrare:" ] }, { "cell_type": "code", "execution_count": 12, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "Thundra 1972.0\n", "Swamp Thing 1972.0\n", "Shang-Chi 1973.0\n", "Rambo 1972.0\n", "Ra's Al Ghul 1971.0\n", "Namorita 1972.0\n", "Mockingbird 1971.0\n", "Metron 1971.0\n", "Man-Bat 1970.0\n", "Man-Thing 1971.0\n", "Luke Cage 1972.0\n", "Jennifer Kale 1972.0\n", "Iron Fist 1974.0\n", "Ghost Rider 1972.0\n", "Etrigan 1972.0\n", "Drax the Destroyer 1973.0\n", "Diamondback 1972.0\n", "Doc Samson 1971.0\n", "Darkseid 1970.0\n", "Deathlok 1974.0\n", "Brother Voodoo 1973.0\n", "Blade 1973.0\n", "dtype: float64" ] }, "execution_count": 12, "metadata": {}, "output_type": "execute_result" } ], "source": [ "first_appearance[[1970 <= y <1975 for y in first_appearance]]" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "
\n", "L'uso di questa modalità di accesso richiede che la lista di valori booleani abbia la stessa lunghezza della serie. L'uso di liste di dimensioni minori l'accesso, che comporta un filtraggio effettuato solo nei primi elementi della serie, è deprecato e va quindi evitato. \n", "
" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Infine, è possibile effettuare delle _query_ su una serie specificando tra parentesi quadre un'espressione logica che indica quali elementi visualizzare, utilizzando la serie come simbolo che ne indica un suo generico elemento:" ] }, { "cell_type": "code", "execution_count": 13, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "Venompool 2011.0\n", "The Cape 2011.0\n", "Spider-Man 2011.0\n", "Simon Baz 2012.0\n", "Rey 2015.0\n", "Kylo Ren 2015.0\n", "Jyn Erso 2016.0\n", "K-2SO 2016.0\n", "Jessica Cruz 2013.0\n", "Garbage Man 2011.0\n", "Evil Deadpool 2011.0\n", "Captain Cold 2012.0\n", "Bloodhawk 2099.0\n", "dtype: float64" ] }, "execution_count": 13, "metadata": {}, "output_type": "execute_result" } ], "source": [ "first_appearance[first_appearance > 2010]" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "
\n", "Tecnicamente, l'espressione `first_appearance > 2010` genera una nuova serie che ha lo stesso indice di `first_appearance` e in cui i valori sono `True` in corrispondenza degli anni successivi al 2010 e `False` altrimenti. Questa nuova serie viene utilizzata per filtrare `first_appearance`.\n", "
" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Vediamo ora come utilizzando le serie sia molto più semplice calcolare e visualizzare le frequenze assolute: il metodo `value_counts` restituisce un'altra serie in cui gli indici sono i valori osservati e i valori le corrispondenti frequenze assolute, ordinate in senso non crescente." ] }, { "cell_type": "code", "execution_count": 14, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "1964.0 18\n", "1963.0 18\n", "1965.0 14\n", "2004.0 11\n", "1976.0 10\n", " ..\n", "1939.0 1\n", "1956.0 1\n", "1978.0 1\n", "1983.0 1\n", "2013.0 1\n", "Length: 71, dtype: int64" ] }, "execution_count": 14, "metadata": {}, "output_type": "execute_result" } ], "source": [ "first_appearance.value_counts()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Va notato come il tipo delle frequenze sia, correttamente, intero e come i valori mancanti siano automaticamente esclusi dal calcolo delle frequenze, mentre sono sempre presenti gli _outlier_. Per ottenere una serie i cui elementi siano ordinati per valore non decrescente della voce nell'indice è sufficiente invocare il metodo `sort_index`; già che ci siamo, è un buon momento per eliminare i valori fuori scala dal conteggio effettuando una _query_ sulla serie:" ] }, { "cell_type": "code", "execution_count": 15, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "1933.0 1\n", "1939.0 1\n", "1940.0 9\n", "1941.0 7\n", "1943.0 2\n", "1944.0 2\n", "1945.0 1\n", "1947.0 2\n", "1948.0 1\n", "1950.0 1\n", "dtype: int64" ] }, "execution_count": 15, "metadata": {}, "output_type": "execute_result" } ], "source": [ "first_app_freq = first_appearance[first_appearance < 2090].value_counts().sort_index()\n", "first_app_freq.head(10)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "\n", "\n", "\n", "
\n", "\n", "## Visualizzazione grafica di una serie\n", "Pandas mette a disposizione l'oggetto `plot` per visualizzare graficamente i contenuti di una serie, utilizzando matplotlib dietro le quinte; in particolare, il metodo `bar` visualizza un grafico a barre:" ] }, { "cell_type": "code", "execution_count": 16, "metadata": {}, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "# Don't try this at home (men che meno all'esame!)\n", "\n", "first_appearance.plot.bar()\n", "plt.show()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Il grafico ottenuto, diciamolo, fa schifo. Questo perché `bar` considera un punto per ogni elemento della serie, in cui le ascisse corrispondono alla posizione (zero per la prima osservazione, uno per la seconda e così via, sebbene nel grafico sull'asse delle ascisse vengano poi visualizzati i valori dell'indice) e le ordinate al valore osservato. Per ognuno dei punti così ottenuti viene poi tracciato un segmento che lo congiunge perpendicolarmente all'asse delle ascisse. Il risultato è decisamente poco informativo, sia da un punto di vista grafico (le etichette sull'asse delle ascisse si sovrappongono, così che non si riesce a leggere nulla), sia da un punto di vista analitico: le barre hanno altezze simili e quindi le loro differenze sono poco apprezzabili a colpo d'occhio; inoltre il grafico dipende per esempio dall'ordine in cui sono elencate le osservazioni e non ci permette di solito di trarre alcuna informazione sulla relazione che lega tra loro le osservazioni.\n", "\n", "Si ottengono dei risultati decisamente più interessanti se si visualizza un grafico analogo per le frequenze assolute:" ] }, { "cell_type": "code", "execution_count": 17, "metadata": {}, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "first_app_freq.plot.bar()\n", "plt.show()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Il grafico ottenuto è sicuramente migliore di quello precedente, ma rimane il problema di leggibilità dell'asse delle ascisse. Ciò è dovuto al fatto che pandas non inserisce le barre sul grafico nelle ascisse corrispondenti agli anni, ma le posiziona una accanto all'altra, come possiamo renderci conto visualizzando un po' meglio solo alcune delle etichette (in prima istanza non è importante capire come venga generato questo grafico, ma se siete cursori potete leggere l'approfondimento che trovate dopo il commento al grafico stesso):" ] }, { "cell_type": "code", "execution_count": 18, "metadata": {}, "outputs": [ { "data": { "image/png": "iVBORw0KGgoAAAANSUhEUgAAAVwAAACqCAYAAADhqvecAAAAOXRFWHRTb2Z0d2FyZQBNYXRwbG90bGliIHZlcnNpb24zLjQuMywgaHR0cHM6Ly9tYXRwbG90bGliLm9yZy/MnkTPAAAACXBIWXMAAAsTAAALEwEAmpwYAAAWv0lEQVR4nO3dfVgT9wEH8G/AgoA4YoupImotKNBhrWJhlgpq5UEkUtFtgls7+rDhG7Mray0bvrYVkbp27qlIa/Xp07ruqUCt6DY7p8WXIaKyZVprg4yhTCEqWXmRUg37w5kmEDSEy13u+H6ep8/T3CW/++aIX467y53KaDR2goiInM5N6gBERP0FC5eISCQsXCIikbBwiYhEwsIlIhIJC5eISCQsXCIikbBwiYhE0m8KV6/Xy2pcobh6PluY2fnkkFcOGXur3xSu0vjtqIffjvp7TiMi18HCJSISCQuXiEgkLFwiIpGwcImIRMLCJSISCQuXiEgkLFwiIpGwcImIRMLCJSISCQuXiEgkLFwiIpGwcImIRMLCJSISCQuXiEgkdhXusWPHsGDBAoSGhsLPzw87d+60mr948WL4+flZ/ffUU085JTARkVwNsOdJra2tCAsLQ0pKChYtWmTzObGxsSgsLDQ/9vDwECYhEZFC2FW4cXFxiIuLAwAsWbLE5nM8PT2h0WiES0ZEpDCC7cMtLy9HUFAQJk2ahJ///OcwGAxCDU1EpAgqo9HY2ZsXBAQEYOPGjVi4cKF5WnFxMby8vDBq1CjU1dXh1VdfhclkwmeffQZPT0+b4yjxfkVimnzUGwBQGd1212lEJK7g4OAe59m1S+Fe5s2bZ/7/Rx55BBMmTEB4eDj279+POXPm9DqUM+j1eqcs01nj3tPR2/cus1q2jWmS5esDZnY+OeSVQ8becsppYcOGDcPw4cNRU1PjjOGJiGTJKYV77do1XL58mQfRiIgs2LVLoaWlxby1ajKZcOnSJeh0OqjVaqjVamzYsAFz5syBRqNBXV0d1q1bB39/fyQmJjo1PBGRnNi1hVtVVYWpU6di6tSpuHHjBnJzczF16lSsX78e7u7u+Pzzz5GamoqIiAgsXrwYQUFB+PTTT+Hr6+vs/EREsmHXFu6TTz4Jo9HY4/ySkhKh8pCA/HbUA/CGUVnHHYhki9dSICISCQuXiEgkLFwiIpGwcImIRMLCJSISCQuXiEgkLFwiIpGwcImIRMLCJSISCQuXiEgkLFwiIpGwcImIRMLCJSISCQuXiEgkLFwiIpGwcImIRMLCJSISCQuXiEgkLFwikpTfjvr/3w5K+Vi4REQisatwjx07hgULFiA0NBR+fn7YuXOn1fzOzk7k5uYiJCQEDz74IGbPno1z5845JTARkVzZVbitra0ICwvDhg0b4OXl1W3+b3/7W7z11lvIy8vDwYMH4e/vj7lz56K5uVnwwEREcmVX4cbFxWHVqlVISkqCm5v1Szo7O1FQUIDnn38eSUlJCAsLQ0FBAVpaWlBUVOSU0EREctTnfbj//ve/0dDQgOnTp5uneXl5YcqUKaioqOjr8EREitHnwm1oaAAA+Pv7W0339/dHY2NjX4cnIlKMAVItWK/XK2aZUrwXwNvGsrtOs/Uc1zb5qDcAb1RCb/H4tsroNqtpdx67ijvrWcp8vVlfrvO56Plz6joZ7RccHNzjvD4XrkajAQAYDAYEBgaapxsMBgwdOtShUM6g1+udskxnjXtPR2+ft2i17K7TbD3H1fXwHmxNc6X3ZfU5kDKfnetLss+tLT2sL5fKKJA+71IYNWoUNBoNDh06ZJ7W3t6O8vJyREZG9nV4IiLFsGsLt6WlBTU1NQAAk8mES5cuQafTQa1WIzAwEIsXL8ZvfvMbBAcHIygoCK+//jp8fHwwf/58p4YnIpITuwq3qqoKWq3W/Dg3Nxe5ublISUlBQUEBli9fjhs3buDFF1+E0WjEpEmTUFJSAl9fX6cFJyKSG7sK98knn4TRaOxxvkqlQnZ2NrKzs4XKRUSkOJKdpWCPOxe0MKYFSJyEesvyYiRS/Py6fnac+Vm6PbY3jD0c33HmuuC/EXnhxWuIiETCwiUiEgkLl4hIJCxcIiKRsHCJiETCwnUBUt5ipD/d3qSr/vzeSRosXCIikbBwiYhEwsIlIhIJC5eISCQsXCIikbBwiYhE4tIXr+mKF+og6h+6XhBIKf/2uYVLRCQSFi4RkUhYuEREImHhEhGJhIVLRCQSFm4/wwu29A3Xn+uSw8+GhUtEJBJBCjc3Nxd+fn5W/40dO1aIoYmIFEOwLz4EBwdj79695sfu7u5CDU1EpAiCFe6AAQOg0WiEGo6ISHEE24dbW1uLkJAQjB8/Hs899xxqa2uFGpqISBEE2cKNiIjAli1bEBwcjKtXryI/Px9xcXE4fvw4hgwZYvM1er3ejpG9uzy36+PecfR1zh/Xkfdl6zX2rK+7P2fyUW/zMyuj2+xOc+d1377m23H69r5sjWPP+nJkXTiSz55l3Xtd2LPebT+n9+vr9jjewNH6Xv2Me8rTlzFs5bM9rftzevrM9ebn6ejn/W6Cg4N7nCdI4c6cOdPqcUREBCZMmIDf//73WLZsWa9DmR2tt35u18e9oNfrHXqdKOM68r5svcae9XWv5xz99rSaPuVx5jj2rC9H1oUj+exZlj3rwtHnOLK+HP3Z9JDHKZ9/IT7LvVh2r1/nIKecFjZo0CCEhISgpqbGGcMTEcmSUwq3vb0der2eB9GIiCwIskshJycH8fHxGDFihHkfbltbG1JSUoQYnohIEQQp3P/85z9IT0/HtWvX8MADDyAiIgJ/+ctfMHLkSCGGJyJSBEEKd/v27UIM0y84euV6JVzxXgnvQUxSri9byxYqj6u9LzHxWgpERCJh4RIRiYSFS0QkEhYuEZFIWLhERCJh4RIRiYSF64LkcKsQIlu6fnb5WbbGwiUiEgkLl4hIJCxcIiKRsHCJiETCwiUiEolgN5GUguXRzzsXo7Dn4hTCXoTDG8a7XChe6otlCKHre7C13vsybl/HEYoSflaO6s/vvStHOsTezzK3cImIRMLCJSISCQuXiEgkLFwiIpGwcImIRCLZWQo9HeUT+ijpt0cPez6bwJ6zHew5CskjvdJw5np39ueSnxXnccWzabiFS0QkEkELd9u2bRg/fjw0Gg1iYmLwt7/9TcjhiYhkTbDCLSkpwcsvv4ysrCwcPnwYjz/+OL7//e/j4sWLQi2CiEjWBCvct956C6mpqXj22Wcxbtw45OfnQ6PR8BbqRET/J0jhdnR04O9//zumT59uNX369OmoqKgQYhFERLKnMhqNnX0d5PLlywgNDcW+ffvwxBNPmKfn5eVh165dOHnyZF8XQUQkezxLgYhIJIIU7v333w93d3cYDAar6QaDAUOHDhViEUREsidI4Xp4eGDChAk4dOiQ1fRDhw4hMjJSiEUQEcmeYN80W7p0KTIyMjBp0iRERkZi+/btuHLlCtLS0oRaBBGRrAlWuMnJybh+/Try8/PR0NCA0NBQfPTRRxg5cqRQiyAikjVBzlIgIqJ741kKREQi6ReFazQacfr0adTX19/7yS4wrpDkkNGSTqfD7t27UV5ejs5OefzxJbd1DLhW5oMHD+LmzZvmx7t27UJ0dDSGDx+Oxx57DFu3bpUwnbAUV7jr1q1DW1sbAOCbb77B8uXLMWbMGMyYMQPh4eH40Y9+hPb2dpcZV0hyyGgpPT0dzc3NAICWlhbMmzcPMTExSE9PR0JCAqZPnw6j0ShtyC7kto4B1888f/58NDU1AQA++eQTLFq0CFFRUdi0aRPi4+OxevVqFBUVSZZPSIor3DfffBOtra0AgM2bN2Pv3r3Yvn07dDod3n//fZw+fRqbN292mXGFJIeMlkpKSsz/0PPy8lBdXY2//vWvMBgMOHz4MNra2rBx40aJU1qT2zoGXD+z5V8yBQUFyMrKwuuvv46UlBTk5uYiJycHW7ZskSyfkBRXuJY/vN27d2PNmjV4+umnERgYiNmzZ+O1115DcXGxy4wrJDlktGSZ98CBA1izZg0mTpwIlUqF8PBwvPLKK9i/f7+ECbuT2zoG5JX5woULSEhIsJo2a9YsVFdXS5RIWJLd8cGZVCoVAKC+vh6TJk2ymjdx4kSHLxnprHGFJIeMlu7kbWxsREhIiNW8kJAQl9jH2JXc1jHg+pnPnj0LPz8/DBw4ELdu3bKaZzKZYDKZJEomLEUW7rvvvgsfHx94eHjg+vXrVvO++uoreHh4uNS4QpJDRktr166Fl5cXVCoVrly5gtDQUPO869evw8fHR8J0tsltHQOunzk5Odm8JX78+HGrXwo6nQ4jRoyQKpqgFFe4I0aMwM6dOwHc/sqxTqdDdHS0ef6RI0cQHNzDzc0kGFdIcshoacqUKfjXv/4F4PbWbNetrE8//bTbVq/U5LaOAdfP/I9//MPq8aBBg6we3znQpwT97osPlZWV8PDwwKOPPiqLcYUkh4yWamtrcd999yEgQD43WpTbOgbkmVmu+l3hEpFrunDhAioqKtDY2AgAGDp0KCIjI/Hwww9LnEw4itul0JNZs2Zh69atGDVqlGBj6nQ61NTUQKPRICoqynxgQipNTU0YMGAAfH19Adw+ELFjxw5cvHgRI0eORFpaGsLCwiTNaOl3v/sdkpKSZHe9jfLycpw6dQqxsbH47ne/i7Nnz+Ltt9+GyWSCVqtFXFyc1BFtKisrw/Hjx9HQ0AA3NzeMGjUKCQkJkhfaf//7XyxatAh//vOf4ePjgwceeAAAcPXqVbS1tSE+Ph5bt27F4MGDJc0pBMVt4e7Zs8fm9LS0NLz22msYPnw4AGDOnDm9Gjc9PR1vvPEGfH190dLSgmeffRYHDx6Eu7s7bt26hQkTJuDjjz+Gn59fX9+Cw+Lj47Fs2TIkJiairKwM8+bNw8SJEzFu3DhUV1fj1KlTKCoqwtSpUyXLaEmtVsPNzQ2xsbH4yU9+goSEBLi7u0sd66527dqFjIwMBAQE4Pr169i2bRsyMjIwceJEuLu747PPPsOWLVvwwx/+UOqoZgaDAQsWLEBVVRXc3NxgMpkwfvx4XL58GVevXsXSpUuxbt06yfJlZGRAp9PhjTfeQFRUlNW8iooK/OIXv8D48eMV8Y0zxRWuWq2GSqW669dCVSpVtyO19zJkyBCcP38e/v7+WLlyJfbs2YMdO3bgsccew5kzZ5Ceno4ZM2Zg/fr1fX0LDgsMDERZWRnGjBmDWbNmYcqUKVi5cqV5/qZNm/CnP/0JBw4ckCyjJbVajU2bNmHPnj04fPgw/P39kZqaih//+McYM2aM1PFsio6OxoIFC7Bs2TLs27cPixYtQmZmJl566SUAt7faP/roIxw5ckTipN967rnn8PXXX6OgoACenp7IyclBc3Mztm7dirKyMqSlpeHFF1/E4sWLJck3cuRIlJSUICIiwub8EydOYP78+airqxM5mfAU98WHGTNmYObMmaiurkZTU5P5P3d3d5SXl6OpqanXZQvI4yT9zs5OfPPNNwCA6upqPP3001bzk5OT8cUXX0iQrGdarRa7d+/G6dOnsXDhQnz44YeIiIiAVqtFcXExOjo6pI5opaamBlqtFgCQkJCA9vZ2zJ492zxfq9Waz7xwFQcOHEBOTg4GDx4MT09PrFmzBsXFxfjqq68QExOD3Nxcye+ufbfdcVLvqhOS4gq3qKgI0dHRiImJwcGDBwUd29VP0p88eTL++Mc/AgCCgoLwz3/+02q+TqeDWq2WIto9jR49GqtWrcLZs2fx3nvvwcvLCz/72c+szst1Bb6+vuZf2EajETdv3rT6Be6K5w57eHhYlZZKpcKtW7fMXzCIjIyUdOsxPj4emZmZqKys7DavsrISzz//PGbNmiVBMuEp8qBZZmYmnnjiCfz0pz/FzJkzBds/5eon6efk5CA5ORltbW1ITk7GypUrUVNTg3HjxkGv16OwsBBZWVmSZrRka8vF3d0dWq0WWq0WFy9exAcffCBBsp7FxMQgKysL6enp2L17N2bOnIm1a9di8+bNcHNzw8qVK7vth5RaVFQUXn31VWzZsgWenp5YvXo1Ro8ebf7lazAYJD32sHHjRqSnpyMuLg6+vr64//77AQDXrl1DS0sLZsyY4XLX1HCU4vbhWmpubkZWVhbOnDmD8+fP49ixYw6fSD979myrgvjBD36AZ555xvx448aNKCsrw759+/qcuy9OnjyJX//61zhx4oTV9GHDhiEzM1Oy/XS2qNVqfPnll/D395c6it0aGxuRkZGByspKfO9738P27dvxyiuv4J133oFKpcJDDz2EoqIiPPTQQ1JHNautrcXcuXNRV1cHlUoFHx8fvPfee4iNjQUA7Ny5E9XV1Vi9erWkOc+fP48TJ06Yb0Y7dOhQPP744xg7dqykuYSk6MK94w9/+AMOHz6MVatW4cEHH3TKMlztJP2rV6+itrYWJpMJGo1G0NPhhFJXV4fAwEBF7KOrra1FW1sbxo4diwEDXO8Px7a2Nhw/fhwdHR2YPHmyeSuSxNUvCpeIXFtrayuKioq6ffEhKioK8+bNk3x3nVAUWbg3btxAUVFRt5O8ExMTERMT43LjCkkOGS3JLS/AzEL74osvMHfuXLS0tGDKlCnmXUwGgwHl5eUYNGgQSkpKXO66Go5QXOHW1NQgKSkJ7e3t8PT0RH19PeLi4nDt2jVUVVVBq9Vi27Ztvf6zz1njCkkOGS3JLS/AzM6QmJgIf39/FBQUYODAgVbz2tvbsWTJEjQ2NmLv3r2S5BOS4k4LW7FiBZ566il8+eWXOHPmDFavXg2TyYQDBw7gxIkTOH36NPLz811mXCHJIaMlueUFmNkZTp06hRUrVnQrWwAYOHAgfvnLX+LUqVMSJBOe4rZwhw8fjiNHjpi/H97R0YGAgACcP38eQ4YMwb59+5CdnQ2dTucS4wpJDhktyS0vwMzOEBoaivz8fCQmJtqcX1paipdeegnnzp0TOZnwXOfvHoF85zvfMd+YELh9dPbmzZu47777AACPPPIIGhoaXGZcIckhoyW55QWY2RmeeeYZLFmyBHq9HtOmTbPah3vo0CG8+eabWLJkiWT5hKS4XQqxsbHIzs7G559/jgsXLmD58uUIDw83X0Hr4sWLDp336axxhSSHjJbklhdgZmfIzs7GCy+8gMLCQkybNg3h4eEIDw/HtGnTUFhYiBdeeAErVqyQLJ+QFLdLwWAwIDU1FSdPnoRKpUJAQAA++OAD88WVP/nkE1y5cgUZGRkuMa6Q5JDRktzyAszsbLW1tVanhY0ePVraQAJTXOHeceHCBXz99deCn4jurHGFJIeMluSWF2Bmcozidinc8fDDDyMsLKzbB+vSpUtYunSpy40rJDlktCS3vAAzC81oNGL//v2oqKjodmnV1tZW5OXlSZRMWIot3J40NTXhww8/lM24QpJDRktyywswsyPOnTuHyMhIpKamIj4+HtOmTbO6epmSCldxf1fc64Nz6dIllxpXSHLIaElueQFmdoa1a9di8uTJKCwsRHNzM15++WXEx8ejtLRU8tv/CE1x+3DVajW8vb17vCCKyWRCe3t7ry9C7qxxhSSHjJbklhdgZmcICgpCaWmp1eVOf/WrX+Hjjz9GaWkpBg8ejJCQEJdap45S3BbusGHDsGHDhh7vWabT6cyXpXOFcYUkh4yW5JYXYGZn6Ojo6PbLYP369ejs7ERiYiLeeecdiZIJT3H7cB999NG7fmPmXvc7E3tcIckhoyW55QWY2RmCgoJQVVXVbXpubi6SkpKwcOFCCVI5h+K2cDMzM9Ha2trj/DFjxqC0tNRlxhWSHDJakltegJmdITExEcXFxUhJSek2Ly8vD7du3cK7774rQTLhKW4fLhGRq1LcLgUiIlfFwiUiEgkLl4hIJCxcIiKRsHCJiETyP5IvKmWXzKgNAAAAAElFTkSuQmCC\n", "text/plain": [ "
" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "years = np.arange(1945, 2010, 10)\n", "index_pos = [first_app_freq.index.get_loc(y) for y in years]\n", "first_app_freq.plot.bar()\n", "plt.xticks(index_pos, years)\n", "plt.ylim((0, 18.5))\n", "plt.show()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Si può osservare che tra due valori successivi evidenziati nell'asse delle ascisse intercorre una distanza di dieci anni, ma le etichette non risultano equispaziate: ciò è dovuto al fatto che in realtà la prima barra ha ascissa 1, la seconda ha ascissa 2 e così via, mentre le etichette mostrate sull'asse delle ascisse corrispondono ai valori degli indici.\n", "\n", "
\n", "Per generare il grafico precedente è necessario utilizzare alcune funzionalità avanzate delle librerie considerate: `np.arange` permette di costruire un array i cui valori vanno di dieci in dieci partendo da 1945 e arrivando a 2005; la proprietà `index` di una serie permette di estrarne l'indice e il metodo `get_loc` di quest'ultimo restituisce la posizione corrispondente a un dato valore dell'indice. Infine, il metodo `xticks` di matplotlib permette di specificare quali valori evidenziare sull'asse delle ascisse e quali etichette utilizzare.\n", "
\n", "\n", "Per ottenere un grafico simile in cui le ascisse siano effettivamente gli anni di prima apparizione è necessario tornare a utilizzare esplicitamente matplotlib, passando al metodo `bar` rispettivamente l'indice e i valori della serie, che si ottengono rispettivamente utilizzando la proprietà `index` e invocando il metodo `get_values`." ] }, { "cell_type": "code", "execution_count": 19, "metadata": {}, "outputs": [ { "data": { "image/png": "iVBORw0KGgoAAAANSUhEUgAAAVwAAACUCAYAAADf2pFBAAAAOXRFWHRTb2Z0d2FyZQBNYXRwbG90bGliIHZlcnNpb24zLjQuMywgaHR0cHM6Ly9tYXRwbG90bGliLm9yZy/MnkTPAAAACXBIWXMAAAsTAAALEwEAmpwYAAARV0lEQVR4nO3de1BU9f8G8AcxDdFpUZZ15ZbGckuMgi94Q80LiaaI0gSaNRSBeKlMUmmScdRpQRwHRw1zvNQkTjlKalaaM6ICLWLpDCaWK3gJM1hXtwQlm9jfH/1aXbkt7NkP7PK8Zpxxzzn7Pp/zZvfhcM7Zs04Gg8EIIiKyuR6dPQAiou6CgUtEJAgDl4hIEAYuEZEgDFwiIkEYuEREgjBwiYgEYeASEQli94Gr1Wo7ewh2iX3rOPauY9g3oGdnD4C6PtnO6y3OMyR5ChwJkX2z+z1cIiJ7wcAlIhKEgUtEJAgDl4hIEAYuEZEgDFwiIkEYuEREgjBwiYgEYeASEQnCwCUiEoSBS0QkCAOXiEgQBi4RkSAMXCIiQSwK3JKSEiQkJCAoKAgymQz5+flm89PS0iCTycz+TZw40SYDJiKyVxbdD7e+vh7BwcFITEzEvHnzml1m3Lhx+Pjjj02Pe/XqJc0IiYgchEWBGx0djejoaADA/Pnzm12md+/eUCgU0o2MiMjBSHYMV6PRwM/PD2FhYXjrrbeg0+mkKk1E5BAk+YqdiRMnYtq0afD19cW1a9ewZs0aTJ8+HcePH0fv3r2bfY6U32/E70rqGMv71keCGo6lu263tbpD31QqVYvzJAncWbNmmf7/9NNPIzQ0FCEhIThy5AimT5/e7kG1h1arlaxWd9KuvhW3/J1m3bH3fM11DPtmo8vClEolBg0ahKqqKluUJyKySzYJXL1ejxs3bvAkGhHRQyw6pFBXV2faW21sbER1dTXKy8vh5uYGNzc3ZGVlYfr06VAoFLh27RpWrVoFuVyOF1980aaDJyKyJxbt4Z49exZjxozBmDFjcO/ePajVaowZMwYffvghnJ2dUVFRgdmzZyM8PBxpaWnw8/PDd999h379+tl6/EREdsOiPdyoqCgYDIYW5xcUFEg1HrIzsp0PTqgZkjw7cSREXR/vpUBEJAgDl4hIEAYuEZEgDFwiIkEYuEREgjBwiYgEYeASEQnCwCUiEoSBS0QkCAOXiEgQBi4RkSAMXCIiQRi4RESCMHCJiARh4BIRCcLAJSIShIFLRCQIA5eISBCLvmKHiKizONLXOHEPl4hIEIsCt6SkBAkJCQgKCoJMJkN+fr7ZfKPRCLVajcDAQAwcOBBTp07FhQsXbDJgIiJ7ZVHg1tfXIzg4GFlZWXBxcWkyf8OGDdi8eTOys7Nx7NgxyOVyxMXF4c6dO5IPmIjIXlkUuNHR0cjMzERsbCx69DB/itFoRF5eHt555x3ExsYiODgYeXl5qKurw969e20yaCIie2T1MdyrV6+ipqYG48ePN01zcXHByJEjcerUKWvLExE5DKuvUqipqQEAyOVys+lyuRw3btxo8XlardbaVdukVndied/6SFxPjP8VWzZuADg9+m67attiWx8eb3vHY+26RK27Y317MLau9hprjkqlanFep10W1tqg2kOr1UpWqztpV9+Kr7e9DKT7mUrGwnED7Ru7zV5zD43X5r18dF0C1t3hvonsi41ZfUhBoVAAAHQ6ndl0nU4HDw8Pa8sTETkMqwPX19cXCoUChYWFpmkNDQ3QaDSIjIy0tjwRkcOw6JBCXV0dqqqqAACNjY2orq5GeXk53Nzc4O3tjbS0NKxfvx4qlQp+fn5Yt24dXF1dER8fb9PBExHZE4sC9+zZs5g2bZrpsVqthlqtRmJiIvLy8vD222/j3r17eO+992AwGBAWFoaCggL069fPZgMnIrI3FgVuVFQUDAZDi/OdnJyQkZGBjIwMqcZFRORw7PbmNQ9uaNEHKL5u9ze1IMuIvJHJo+t6+DVnkOBkeWvb8vC85uZLuS4ShzevISIShIFLRCQIA5eISBAGLhGRIAxcIiJB7PYqBeq4f89Yi7m6w5HPjjvytpFtcA+XiEgQBi4RkSAMXCIiQRi4RESCMHCJiARxmKsUpP7sORF1TS3f46Lrv++5h0tEJAgDl4hIEAYuEZEgDFwiIkEYuEREgjjMVQrUNdjTGWPR2JvO0ZX6zj1cIiJBGLhERIJIErhqtRoymczsn7+/vxSliYgchmTHcFUqFQ4dOmR67OzsLFVpIiKHIFng9uzZEwqFQqpyREQOR7JjuFeuXEFgYCCGDRuG119/HVeuXJGqNBGRQ5BkDzc8PBwfffQRVCoVbt68iZycHERHR6O0tBT9+/dv9jlardbKtfZpda719R3Zg95Z1qfWe21e69Ha5o//V/zg8enRd9us2XT59ozdsnG3XKv1bbGmj23Va2t8bfWx7b5J+3Nqad2PPr9j70trx275z6m1sVtKpVK1OE+SwJ00aZLZ4/DwcISGhmL37t1YuHBhuwdlkeLrrc62ur4je6h3FvWpjV6b1Xq0dluP2zvW9jzfwnG3WEv0trQy3ib121p3e8du7ba1sO6Hn6/Vajv2vhS5LS2MXSo2uSysb9++CAwMRFVVlS3KExHZJZsEbkNDA7RaLU+iERE9RJJDCh988AEmT54MLy8v0zHcu3fvIjExUYryREQOQZLA/e2335CcnAy9Xg93d3eEh4fj6NGj8PHxkaI8EZFDkCRwd+zYIUUZspH23ryjK93soy32NFZbEt2H1r7mRuratibl2NvCeykQEQnCwCUiEoSBS0QkCAOXiEgQBi4RkSD8ih3imX6yqQevrz4wqLr36417uEREgjBwiYgEYeASEQnCwCUiEoSBS0QkCAOXiEiQbnNZWGs32+jqN3Sxp7G2l7U/l9bqiWZPfW8vR9621nTkvdfactzDJSIShIFLRCQIA5eISBAGLhGRIAxcIiJB7OoqBVuegZb6SgBrzurasja1TOq+SlmvM6++cDS2fG+2hXu4RESCSBq427Ztw7Bhw6BQKDB27Fh8//33UpYnIrJrkgVuQUEBli9fjiVLluDkyZOIiIjASy+9hF9//VWqVRAR2TXJAnfz5s2YPXs2XnvtNQQEBCAnJwcKhYJfoU5E9P+cDAaD0doi9+/fh1KpxPbt2zFjxgzT9PT0dFRUVOCbb76xdhVERHZPkj1cvV6Pf/75B3K53Gy6XC5HbW2tFKsgIrJ7vEqBiEgQSQJ3wIABcHZ2hk6nM5uu0+ng4eEhxSqIiOyeJIHbq1cvhIaGorCw0Gx6YWEhIiMjpVgFEZHdk+yTZgsWLEBqairCwsIQGRmJHTt24Pfff0dSUpJUqyAismuSHcOdOXMm1Go1cnJyEBUVhdLSUuzZswc+Pj6tPq+kpAQJCQkICgqCTCZDfn6+2fza2lqkpaUhMDAQSqUSs2bNQmVlZbO1jEYj4uPjIZPJcODAAbN5BoMBKSkp8PHxgY+PD1JSUmAwGKza5s4kVd9+/PFHzJgxA56envDy8kJ0dDT0er1pPvvWtG81NTVISUmBv78/lEolRo0ahT179pgt42h9W79+PZ5//nl4e3vjqaeewssvv4yKigqzZYxGI9RqNQIDAzFw4EBMnToVFy5cMFvGkr6cP38eU6ZMwcCBAxEUFITs7GwYjVZfTNUlSHrSLDk5GefOnUNtbS1OnDiBUaNGtfmc+vp6BAcHIysrCy4uLmbzjEYj5syZg6qqKuTn5+PkyZPw9vZGbGws6uvrm9TatGkTevRofpOSk5NRXl6OvXv3Yu/evSgvL0dqamrHNrQLkKJvP/zwA+Li4jB69GgcPXoUx48fx8KFC9Gz54M/fNi3pn2bN28eLl68iN27d0Oj0SAhIQGpqakoKSkxLeNofSsuLsYbb7yBI0eO4ODBg+jZsydmzJiB27dvm5bZsGEDNm/ejOzsbBw7dgxyuRxxcXG4c+eOaZm2+vLnn38iLi4OHh4eOHbsGLKysrBx40Zs2rRJ6PbaiiTX4UrF09MTa9euxZw5cwAAly5dQnh4OIqKihASEgIAaGxshL+/PzIzM/Hqq6+annvmzBnMnTsXx48fh0qlwqefforY2FgAwC+//ILIyEgcPnwYw4cPBwBoNBrExMTg9OnTUKlUgrdUWh3tW3R0NKKiorBixYpm67JvzffN09MT2dnZeOWVV0y1hg4ditTUVCxatMjh+wYAdXV18PHxQX5+PmJiYmA0GhEYGIg333wT6enpAIB79+5BpVJh9erVSEpKsqgv27dvx8qVK3Hx4kXTL8ScnBzs2LEDFRUVcHJy6rRtlkKXvizsr7/+AgA8/vjjpmk9evRA7969odFoTNPu3LmD5ORk5ObmNrkWGADKysrQt29fsxN4w4cPh6urK06dOmXDLegclvRNp9OhrKwMCoUCkydPhp+fH2JiYnDixAnTc9i35l9vw4cPx/79+3Hr1i00Njbi66+/hl6vx9ixYwF0j77V1dWhsbERMpkMAHD16lXU1NRg/PjxpmVcXFwwcuRI0zZb0peysjKMGDHC7K+PCRMm4MaNG7h69aqALbOtLh24/v7+8PLywqpVq3D79m3cv38fubm5uH79OmpqakzLvfvuu5gwYQImTZrUbJ3a2loMGDDA7Lejk5MT3N3dHfKDGZb07cqVKwAAtVqNOXPmYN++fRgxYgRmzpyJc+fOAWDfWnq97dy5E05OThgyZAg8PDyQkpJiunET0D36tnz5coSEhCAiIgIATP1p7cNPlvSltra22Rr/zbN3XTpwH3vsMezatQuXL1/G4MGDoVQqUVRUhEmTJpmO1X7++ef46aefsHr16k4ebddhSd8aGxsBAElJSZg7dy6eeeYZZGZm4rnnnsPOnTs7c/idxpK+AcCaNWug1+tx4MABFBYWYtGiRUhLSzP9onJ077//PkpLS/HZZ5/B2dm5s4djV7r8DchDQ0NRXFyMP/74A3///Tfc3d0xYcIEPPvsswCAEydO4Oeff4anp/nNgJOSkhAREYHDhw/Dw8MDer0eRqPR9NvVaDTi5s2bDvvBjLb6plAoAAABAQFmzwsICEB1dTUAsG/N9O3y5cvYunWr2XHekJAQaDQabN26FRs3bnTovmVkZKCgoABfffUVnnzySdP0/15POp0O3t7epukPf/jJkr54eHg0+wGq/+bZuy69h/uwJ554Au7u7qisrMTZs2cxZcoUAMCKFStQUlKCoqIi0z8AWL16NbZs2QIAiIiIQF1dHcrKykz1ysrKUF9f7/AfzGipb76+vlAqldBqtWbLV1ZWmt4w7FvTvt29excAmuzZOTs7m/5qcNS+LVu2DPv27cPBgwfh7+9vNs/X1xcKhcLsw08NDQ3QaDSmbbakLxEREdBoNGhoaDAtU1hYCKVSCV9fX1tunhCdvodbV1eHqqoqAP/+mVtdXY3y8nK4ubnB29sb+/fvR//+/eHj44Pz589j+fLlmDp1qung/KBBgzBo0KAmdb28vEy/gQMCAjBx4kQsXrwYubm5AIDFixfjhRdesNszxtb2zcnJCYsWLUJWVhaGDh2KYcOG4csvv8Tp06exdu1aAOxbc33z9/fHkCFDsGTJEqxZswb9+/fHoUOHUFhYiN27dwNwzL6lp6fjiy++wK5duyCTyUzHbF1dXdG3b184OTkhLS0N69evh0qlgp+fH9atWwdXV1fEx8cDsKwv8fHxyM7Oxvz585Geno5Lly4hNzcXS5cutfsrFIAucFlYUVERpk2b1mR6YmIi8vLysGXLFmzcuBG1tbVQKBRISEjA0qVL0atXrxZrymQys8vCgH8vuF66dCm+/fZbAEBMTAzWrl1rOstqb6TqW25uLrZt24Zbt24hMDAQmZmZGDdunGk++9a0b5WVlVi5ciVKS0tRX1+PwYMHY8GCBZg9e7ZpGUfrW0vjXrZsGTIyMgD8e3ggKysLn3zyCQwGA8LCwrBu3ToEBweblrekL+fPn0d6ejrOnDkDmUyGpKQkLFu2jIFLRESWs5tjuERE9o6BS0QkCAOXiEgQBi4RkSAMXCIiQRi4RESCMHCJiARh4BIRCcLAJSIS5P8AZMi/92OhbmgAAAAASUVORK5CYII=\n", "text/plain": [ "
" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "plt.bar(first_app_freq.index, first_app_freq.values)\n", "plt.xlim((1935, 2015))\n", "plt.ylim(0, 18.5)\n", "plt.show()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "\n", "\n", "\n", "
\n", "\n", "## Operazioni con le serie\n", "Consideriamo le seguenti domande:\n", "\n", "1. Quanti supereroi sono apparsi a partire dal 1960?\n", "2. Quanti tra il 1940 e il 1965?\n", "3. Quanti prima del 1970?\n", "\n", "Per rispondere alla prima domanda dobbiamo isolare le frequenze che corrispondono agli anni di apparizione che vanno dal 1960 in avanti. Notiamo che l'indice della serie contiene i valori degli anni; è quindi possibile utilizzare l'accesso tramite *list slicing* per recuperare le frequenze degli anni di apparizione che vanno dal 1960 in avanti:" ] }, { "cell_type": "code", "execution_count": 34, "metadata": { "scrolled": false }, "outputs": [ { "data": { "text/plain": [ "1960.0 8\n", "1961.0 3\n", "1962.0 4\n", "1963.0 18\n", "1964.0 18\n", "1965.0 14\n", "1966.0 6\n", "1967.0 8\n", "1968.0 5\n", "1969.0 2\n", "1970.0 2\n", "1971.0 5\n", "1972.0 9\n", "1973.0 4\n", "1974.0 2\n", "1975.0 10\n", "1976.0 10\n", "1977.0 10\n", "1978.0 1\n", "1979.0 9\n", "1980.0 9\n", "1981.0 8\n", "1982.0 2\n", "1983.0 1\n", "1984.0 6\n", "1985.0 9\n", "1986.0 10\n", "1987.0 9\n", "1988.0 1\n", "1989.0 5\n", "1990.0 4\n", "1991.0 5\n", "1992.0 9\n", "1993.0 10\n", "1994.0 10\n", "1995.0 5\n", "1996.0 2\n", "1997.0 4\n", "1998.0 4\n", "1999.0 5\n", "2000.0 3\n", "2001.0 3\n", "2003.0 4\n", "2004.0 11\n", "2005.0 7\n", "2006.0 7\n", "2007.0 5\n", "2008.0 6\n", "2009.0 1\n", "2010.0 4\n", "2011.0 5\n", "2012.0 2\n", "2013.0 1\n", "2015.0 2\n", "2016.0 2\n", "dtype: int64" ] }, "execution_count": 34, "metadata": {}, "output_type": "execute_result" } ], "source": [ "first_app_freq[1960:]" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "A questo punto è sufficiente invocare la funzione `sum` sulla sotto-serie individuata per ottenere la somma delle frequenze:" ] }, { "cell_type": "code", "execution_count": 35, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "329" ] }, "execution_count": 35, "metadata": {}, "output_type": "execute_result" } ], "source": [ "sum(first_app_freq[1960:])" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "La seconda domanda trova risposta in modo analogo, filtrando le frequenze degli anni di apparizione tra il 1940 e il 1965 (l'estremo destro del list slicing è incluso nel risultato, dato che è un'operazione sull'indice):" ] }, { "cell_type": "code", "execution_count": 36, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "100" ] }, "execution_count": 36, "metadata": {}, "output_type": "execute_result" } ], "source": [ "sum(first_app_freq[1940:1965])" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Analogamente, all'ultima domanda si risponde selezionando gli anni fino al 1969:" ] }, { "cell_type": "code", "execution_count": 38, "metadata": { "scrolled": true }, "outputs": [ { "data": { "text/plain": [ "123" ] }, "execution_count": 38, "metadata": {}, "output_type": "execute_result" } ], "source": [ "sum(first_app_freq[:1969])" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "
\n", "La funzione `sum` accetta come argomento liste, tuple e serie: in tutti i casi restituisce la somma dei valori in esse contenute.\n", "
\n", "\n", "Un modo alternativo per calcolare la somma dei valori in una serie è quella di invocare su di essa l'omonimo metodo `sum`. Le serie sono inoltre in tutto e per tutto dei vettori, sui quali è possibile effettuare operazioni algebriche. Consideriamo per esempio le due serie contenenti altezza e peso dei supereroi:" ] }, { "cell_type": "code", "execution_count": 39, "metadata": {}, "outputs": [], "source": [ "height = pd.Series([float(h[4]) if h[4] else None for h in heroes], index=names)\n", "weight = pd.Series([float(h[5]) if h[5] else None for h in heroes], index=names)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Una prima categoria di operazioni è quella che si ottiene indicando il nome di una serie all'interno di un'espressione aritmetica: il risultato è una nuova serie ottenuta calcolando l'espressione su tutti gli elementi della serie di partenza. Per esempio, la cella seguente crea la serie contenente l'altezza degli eroi misurata in metri e ne visualizza i primi dieci elementi:" ] }, { "cell_type": "code", "execution_count": 40, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "A-Bomb 2.0321\n", "Abraxas NaN\n", "Abomination 2.0304\n", "Adam Monroe NaN\n", "Agent 13 1.7341\n", "Air-Walker 1.8859\n", "Agent Bob 1.7825\n", "Abe Sapien 1.9124\n", "Abin Sur 1.8552\n", "Angela NaN\n", "dtype: float64" ] }, "execution_count": 40, "metadata": {}, "output_type": "execute_result" } ], "source": [ "(height/100)[:10]" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Quando si considerano operazioni più complicate, è possibile utilizzare il metodo `apply` indicando come suo argomento la funzione da applicare agli elementi della serie. Per esempio, nella cella seguente viene creata una nuova serie ottenuta esprimendo le altezze dei supereroi in metri e successivamente elevando il risultato al quadrato." ] }, { "cell_type": "code", "execution_count": 41, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "A-Bomb 4.129430\n", "Abraxas NaN\n", "Abomination 4.122524\n", "Adam Monroe NaN\n", "Agent 13 3.007103\n", "Air-Walker 3.556619\n", "Agent Bob 3.177306\n", "Abe Sapien 3.657274\n", "Abin Sur 3.441767\n", "Angela NaN\n", "dtype: float64" ] }, "execution_count": 41, "metadata": {}, "output_type": "execute_result" } ], "source": [ "height.apply(lambda h: (h/100)**2)[:10]" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Un'altra importante categoria di operazioni è quella che vede due serie indicate come argomenti di un operatore aritmetico binario. In questo caso verrà ancora creata una nuova serie, in cui l'operazione viene calcolata elemento per elemento nelle serie indicate. Per esempio, la cella seguente crea una nuova serie `bmi` contenente l'indice di massa corporea (BMI) dei supereroi (ottenuto dividendo il peso specificato in chilogrammi per il quadrato dell'altezza misurata in metri), e mostra i quindici supereroi con il BMI più elevato." ] }, { "cell_type": "code", "execution_count": 42, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "Utgard-Loki 2501.321629\n", "Giganta 1607.124545\n", "Red Hulk 137.611973\n", "Darkseid 114.366701\n", "Machine Man 114.083519\n", "Thanos 109.414534\n", "Destroyer 107.579152\n", "Abomination 107.211015\n", "A-Bomb 107.024446\n", "Hulk 105.622909\n", "Bloodaxe 104.160435\n", "Juggernaut 103.216295\n", "King Kong 102.732873\n", "Sasquatch 96.810738\n", "Living Brain 91.318046\n", "dtype: float64" ] }, "execution_count": 42, "metadata": {}, "output_type": "execute_result" } ], "source": [ "bmi = weight / height.apply(lambda h: (h/100)**2)\n", "bmi.sort_values(ascending=False)[:15]" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "A parte notare Hulk è solo il quindicesimo della classifica, va sottolineato che le operazioni fatte elemento per elemento allineano i vettori corrispondenti alle serie in base all'indice (e non alla posizione). Consideriamo per esempio la seguente cella, in cui vengono selezionati altezze e pesi più o meno plausibili per un essere umano, calcolando poi i corrispondenti BMI." ] }, { "cell_type": "code", "execution_count": 43, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "A-Bomb NaN\n", "Abe Sapien 17.868501\n", "Abin Sur 26.410852\n", "Abomination NaN\n", "Absorbing Man NaN\n", "Adam Strange 25.952943\n", "Agent 13 20.295282\n", "Agent Bob 25.634923\n", "Agent Zero NaN\n", "Air-Walker NaN\n", "Ajax 24.245355\n", "Alan Scott 27.725061\n", "Alfred Pennyworth 22.966566\n", "Ammo NaN\n", "Angel 20.589542\n", "dtype: float64" ] }, "execution_count": 43, "metadata": {}, "output_type": "execute_result" } ], "source": [ "standard_weight = weight[(weight < 100) & (weight > 40)]\n", "standard_height = height[(height < 210) & (height > 120)]/100\n", "(standard_weight / (standard_height**2))[:15]" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Si nota un numero relativamente elevato di `NaN`, e ciò è appunto dovuto al fatto che il rapporto alla base del calcolo del BMI viene fatto usando peso e altezza di valori che hanno lo stesso indice. Ora, non è detto che un supereroe che ha un peso plausibile abbia anche un'altezza plausibile, e viceversa. Quello che succede quando si esegue un'operazione tra due serie e solo una di essa è definita in corrispondenza di uno specifico valore dell'indice, il risultato conterrà `NaN` per quel valore." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "\n", "\n", "\n", "
\n", "\n", "## Dataframe\n", "Un _dataframe_ è una collezione di serie che hanno lo stesso indice, ed è quindi un insieme di osservazioni di vari _caratteri_ per una popolazione di individui. Tra i vari modi che sono disponibili in pandas per creare un _dataframe_, noi faremo riferimento al metodo `read_csv` della classe `pd.DataFrame`, che permette di leggere i contenuti di un file in formato CSV e convertirli automaticamente in un _dataframe_." ] }, { "cell_type": "code", "execution_count": 2, "metadata": {}, "outputs": [], "source": [ "heroes = pd.read_csv('data/heroes.csv', sep=';', index_col=0)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Usando lo stesso file a cui abbiamo fatto riferimento nei paragrafi precedenti, è stato necessario utilizzare l'argomento opzionale `sep` per indicare il carattere usato per separare i campi in ogni record. La visualizzazione dei dataframe viene automaticamente formattata in un formato tabellare facile da leggere se si utilizza jupyter:" ] }, { "cell_type": "code", "execution_count": 3, "metadata": { "scrolled": false }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
IdentityBirth placePublisherHeightWeightGenderFirst appearanceEye colorHair colorStrengthIntelligence
Name
A-BombRichard Milhouse JonesScarsdale, ArizonaMarvel Comics203.21441.95M2008.0YellowNo Hair100.0moderate
AbraxasAbraxasWithin EternityMarvel ComicsNaNNaNMNaNBlueBlack100.0high
AbominationEmil BlonskyZagreb, YugoslaviaMarvel Comics203.04441.98MNaNGreenNo Hair80.0good
Adam MonroeNaNNaNNBC - HeroesNaNNaNMNaNBlueBlond10.0good
Agent 13Sharon CarterNaNMarvel Comics173.4161.03FNaNBlueBlondNaNNaN
Air-WalkerGabriel LanXandar, a planet in the Tranta system, Androme...Marvel Comics188.59108.23MNaNBlueWhite85.0average
Agent BobBobNaNMarvel Comics178.2581.45M2007.0BrownBrown10.0low
Abe SapienAbraham SapienNaNDark Horse Comics191.2465.35M1993.0BlueNo Hair30.0high
Abin SurNaNUngaraDC Comics185.5290.90M1959.0BlueNo Hair90.0average
AngelaNaNNaNImage ComicsNaNNaNFNaNNaNNaN100.0high
Animal ManBernhard BakerNaNDC Comics183.8083.39M1965.0BlueBlond50.0average
Agent ZeroChristoph NordUnrevealed location in former East GermanyMarvel Comics191.29104.17MNaNNaNNaN30.0good
Colin WagnerNaNNaNHarperCollinsNaNNaNMNaNGreyBrownNaNNaN
Angel DustChristinaNaNMarvel Comics165.7857.21FNaNYellowBlack55.0moderate
Angel SalvadoreAngel Salvadore BohuskNaNMarvel Comics163.5754.67F2001.0BrownBlack10.0moderate
ZoomHunter ZolomonNaNDC Comics185.9081.93MNaNRedBrown10.0average
Lady DeathstrikeYuriko OyamaOsaka, JapanMarvel Comics175.8558.89F1985.0BrownBlack30.0good
YodaYodaNaNGeorge Lucas66.2917.01M1980.0BrownWhite55.0high
ZatannaZatanna ZataraNaNDC Comics170.2957.77FNaNBlueBlack10.0high
Yellowjacket IIRita DeMaraNaNMarvel Comics165.5852.36FNaNBlueStrawberry Blond10.0average
YellowjacketHank PymElmsford, New YorkMarvel Comics183.0383.71MNaNBlueBlond10.0high
Yellow ClawNaNSomewhere in mainland ChinaMarvel Comics188.4095.09MNaNBlueNo HairNaNNaN
Absorbing ManCarl CreelNew York City, New YorkMarvel Comics193.36122.28M1964.0BlueNo Hair80.0moderate
X-ManNate GreyAmerican Northeast of Earth-295Marvel Comics175.8261.80M1995.0BlueBrown55.0high
X-23Laura KinneyThe Facility, location unrevealedMarvel Comics155.6150.39FNaNGreenBlack25.0good
WondraNaNNaNMarvel ComicsNaNNaNFNaNNaNNaNNaNNaN
Adam StrangeAdam StrangeChicago, IllinoisDC Comics185.1088.92M1986.0BlueBlond10.0good
Wonder GirlCassandra Elizabeth SandsmarkNaNDC Comics165.7451.33F1996.0BlueBlond90.0good
Wonder WomanDiana PrinceThemysciraDC Comics183.1374.74F1941.0BlueBlack100.0high
WolverineLoganAlberta, CanadaMarvel Comics160.70135.21MNaNBlueBlack35.0good
....................................
ArdinaArdinaNaNMarvel Comics193.9898.68FNaNWhiteOrange100.0good
ArclightPhilippa SontagVietnamMarvel Comics173.4357.25F1986.0VioletPurple65.0moderate
AresNaNNaNMarvel Comics185.28270.30MNaNBrownBrown85.0good
ArchangelWarren Kenneth Worthington IIICenterport, Long Island, New YorkMarvel Comics183.8268.63M1963.0BlueBlond15.0good
Astro BoyAtomNaNNaNNaNNaNMNaNBrownBlack95.0average
Atom IIIAdam CrayNaNDC ComicsNaNNaNMNaNNaNRedNaNNaN
AqualadGarthPoseidonis, AtlantisDC Comics178.89106.83M1960.0BlueBlack45.0good
ArielArielNaNMarvel Comics165.3559.17F1987.0PurplePink10.0average
AquababyArthur Curry, Jr.NaNDC ComicsNaNNaNM1965.0BlueBlond20.0low
AquamanOrinAtlantisDC Comics185.71146.96M1941.0BlueBlond85.0high
ApocalypseEn Sabah NurAkkaba, EgyptMarvel Comics213.77135.62M1986.0RedBlack100.0high
Anti-MonitorNaNMoon of QwardDC Comics61.37NaNMNaNYellowNo Hair100.0high
Ant-Man IIScott LangCoral Gables, FloridaMarvel Comics183.6786.28M1979.0BlueBlond20.0good
Anti-VenomEddie BrockSan Francisco, CaliforniaMarvel Comics229.46358.05MNaNBlueBlond60.0good
Anti-SpawnJason WynnNaNImage ComicsNaNNaNMNaNNaNNaN60.0good
AnnihilusAnnihilusPlanet of Arthros, Sector 17A, Negative ZoneMarvel Comics180.9490.11M1968.0GreenNo Hair80.0good
AngelWarren Kenneth Worthington IIICenterport, Long Island, New YorkMarvel Comics183.0568.99M1969.0BlueBlond15.0good
AmmoNaNNaNMarvel Comics188.93101.09M1988.0BrownBlackNaNNaN
ArachneJulia CarpenterLos Angeles, CaliforniaMarvel Comics175.1563.75FNaNBlueBlond50.0average
AngelLiamNaNDark Horse ComicsNaNNaNMNaNNaNNaN30.0good
Allan QuatermainNaNNaNWildstormNaNNaNMNaNNaNNaNNaNNaN
AlienXenomorphYour chest :)Dark Horse Comics244.30169.66M1979.0NaNNo Hair30.0average
Alfred PennyworthAlfred Thaddeus Crane PennyworthNaNDC Comics178.2672.98M1943.0BlueBlack10.0good
Ando MasahashiAndo MasahashiNaNNBC - HeroesNaNNaNMNaNNaNNaNNaNNaN
Alex WoolslyAlex WoolslyNaNNBC - HeroesNaNNaNMNaNNaNNaN40.0average
Alan ScottAlan Ladd Wellington ScottGotham CityDC Comics180.9890.81M1940.0BlueBlond80.0good
AmazoNaNNaNDC Comics257.49173.95M1960.0RedNaN100.0good
Ant-ManHank PymElmsford, New YorkMarvel Comics211.74122.44M1962.0BlueBlond20.0high
AjaxFrancisNaNMarvel Comics193.3490.63M1998.0BrownBlack50.0average
Alex MercerAlexander J. MercerNaNWildstormNaNNaNMNaNNaNNaN80.0average
\n", "

735 rows × 11 columns

\n", "
" ], "text/plain": [ " Identity \\\n", "Name \n", "A-Bomb Richard Milhouse Jones \n", "Abraxas Abraxas \n", "Abomination Emil Blonsky \n", "Adam Monroe NaN \n", "Agent 13 Sharon Carter \n", "Air-Walker Gabriel Lan \n", "Agent Bob Bob \n", "Abe Sapien Abraham Sapien \n", "Abin Sur NaN \n", "Angela NaN \n", "Animal Man Bernhard Baker \n", "Agent Zero Christoph Nord \n", "Colin Wagner NaN \n", "Angel Dust Christina \n", "Angel Salvadore Angel Salvadore Bohusk \n", "Zoom Hunter Zolomon \n", "Lady Deathstrike Yuriko Oyama \n", "Yoda Yoda \n", "Zatanna Zatanna Zatara \n", "Yellowjacket II Rita DeMara \n", "Yellowjacket Hank Pym \n", "Yellow Claw NaN \n", "Absorbing Man Carl Creel \n", "X-Man Nate Grey \n", "X-23 Laura Kinney \n", "Wondra NaN \n", "Adam Strange Adam Strange \n", "Wonder Girl Cassandra Elizabeth Sandsmark \n", "Wonder Woman Diana Prince \n", "Wolverine Logan \n", "... ... \n", "Ardina Ardina \n", "Arclight Philippa Sontag \n", "Ares NaN \n", "Archangel Warren Kenneth Worthington III \n", "Astro Boy Atom \n", "Atom III Adam Cray \n", "Aqualad Garth \n", "Ariel Ariel \n", "Aquababy Arthur Curry, Jr. \n", "Aquaman Orin \n", "Apocalypse En Sabah Nur \n", "Anti-Monitor NaN \n", "Ant-Man II Scott Lang \n", "Anti-Venom Eddie Brock \n", "Anti-Spawn Jason Wynn \n", "Annihilus Annihilus \n", "Angel Warren Kenneth Worthington III \n", "Ammo NaN \n", "Arachne Julia Carpenter \n", "Angel Liam \n", "Allan Quatermain NaN \n", "Alien Xenomorph \n", "Alfred Pennyworth Alfred Thaddeus Crane Pennyworth \n", "Ando Masahashi Ando Masahashi \n", "Alex Woolsly Alex Woolsly \n", "Alan Scott Alan Ladd Wellington Scott \n", "Amazo NaN \n", "Ant-Man Hank Pym \n", "Ajax Francis \n", "Alex Mercer Alexander J. Mercer \n", "\n", " Birth place \\\n", "Name \n", "A-Bomb Scarsdale, Arizona \n", "Abraxas Within Eternity \n", "Abomination Zagreb, Yugoslavia \n", "Adam Monroe NaN \n", "Agent 13 NaN \n", "Air-Walker Xandar, a planet in the Tranta system, Androme... \n", "Agent Bob NaN \n", "Abe Sapien NaN \n", "Abin Sur Ungara \n", "Angela NaN \n", "Animal Man NaN \n", "Agent Zero Unrevealed location in former East Germany \n", "Colin Wagner NaN \n", "Angel Dust NaN \n", "Angel Salvadore NaN \n", "Zoom NaN \n", "Lady Deathstrike Osaka, Japan \n", "Yoda NaN \n", "Zatanna NaN \n", "Yellowjacket II NaN \n", "Yellowjacket Elmsford, New York \n", "Yellow Claw Somewhere in mainland China \n", "Absorbing Man New York City, New York \n", "X-Man American Northeast of Earth-295 \n", "X-23 The Facility, location unrevealed \n", "Wondra NaN \n", "Adam Strange Chicago, Illinois \n", "Wonder Girl NaN \n", "Wonder Woman Themyscira \n", "Wolverine Alberta, Canada \n", "... ... \n", "Ardina NaN \n", "Arclight Vietnam \n", "Ares NaN \n", "Archangel Centerport, Long Island, New York \n", "Astro Boy NaN \n", "Atom III NaN \n", "Aqualad Poseidonis, Atlantis \n", "Ariel NaN \n", "Aquababy NaN \n", "Aquaman Atlantis \n", "Apocalypse Akkaba, Egypt \n", "Anti-Monitor Moon of Qward \n", "Ant-Man II Coral Gables, Florida \n", "Anti-Venom San Francisco, California \n", "Anti-Spawn NaN \n", "Annihilus Planet of Arthros, Sector 17A, Negative Zone \n", "Angel Centerport, Long Island, New York \n", "Ammo NaN \n", "Arachne Los Angeles, California \n", "Angel NaN \n", "Allan Quatermain NaN \n", "Alien Your chest :) \n", "Alfred Pennyworth NaN \n", "Ando Masahashi NaN \n", "Alex Woolsly NaN \n", "Alan Scott Gotham City \n", "Amazo NaN \n", "Ant-Man Elmsford, New York \n", "Ajax NaN \n", "Alex Mercer NaN \n", "\n", " Publisher Height Weight Gender First appearance \\\n", "Name \n", "A-Bomb Marvel Comics 203.21 441.95 M 2008.0 \n", "Abraxas Marvel Comics NaN NaN M NaN \n", "Abomination Marvel Comics 203.04 441.98 M NaN \n", "Adam Monroe NBC - Heroes NaN NaN M NaN \n", "Agent 13 Marvel Comics 173.41 61.03 F NaN \n", "Air-Walker Marvel Comics 188.59 108.23 M NaN \n", "Agent Bob Marvel Comics 178.25 81.45 M 2007.0 \n", "Abe Sapien Dark Horse Comics 191.24 65.35 M 1993.0 \n", "Abin Sur DC Comics 185.52 90.90 M 1959.0 \n", "Angela Image Comics NaN NaN F NaN \n", "Animal Man DC Comics 183.80 83.39 M 1965.0 \n", "Agent Zero Marvel Comics 191.29 104.17 M NaN \n", "Colin Wagner HarperCollins NaN NaN M NaN \n", "Angel Dust Marvel Comics 165.78 57.21 F NaN \n", "Angel Salvadore Marvel Comics 163.57 54.67 F 2001.0 \n", "Zoom DC Comics 185.90 81.93 M NaN \n", "Lady Deathstrike Marvel Comics 175.85 58.89 F 1985.0 \n", "Yoda George Lucas 66.29 17.01 M 1980.0 \n", "Zatanna DC Comics 170.29 57.77 F NaN \n", "Yellowjacket II Marvel Comics 165.58 52.36 F NaN \n", "Yellowjacket Marvel Comics 183.03 83.71 M NaN \n", "Yellow Claw Marvel Comics 188.40 95.09 M NaN \n", "Absorbing Man Marvel Comics 193.36 122.28 M 1964.0 \n", "X-Man Marvel Comics 175.82 61.80 M 1995.0 \n", "X-23 Marvel Comics 155.61 50.39 F NaN \n", "Wondra Marvel Comics NaN NaN F NaN \n", "Adam Strange DC Comics 185.10 88.92 M 1986.0 \n", "Wonder Girl DC Comics 165.74 51.33 F 1996.0 \n", "Wonder Woman DC Comics 183.13 74.74 F 1941.0 \n", "Wolverine Marvel Comics 160.70 135.21 M NaN \n", "... ... ... ... ... ... \n", "Ardina Marvel Comics 193.98 98.68 F NaN \n", "Arclight Marvel Comics 173.43 57.25 F 1986.0 \n", "Ares Marvel Comics 185.28 270.30 M NaN \n", "Archangel Marvel Comics 183.82 68.63 M 1963.0 \n", "Astro Boy NaN NaN NaN M NaN \n", "Atom III DC Comics NaN NaN M NaN \n", "Aqualad DC Comics 178.89 106.83 M 1960.0 \n", "Ariel Marvel Comics 165.35 59.17 F 1987.0 \n", "Aquababy DC Comics NaN NaN M 1965.0 \n", "Aquaman DC Comics 185.71 146.96 M 1941.0 \n", "Apocalypse Marvel Comics 213.77 135.62 M 1986.0 \n", "Anti-Monitor DC Comics 61.37 NaN M NaN \n", "Ant-Man II Marvel Comics 183.67 86.28 M 1979.0 \n", "Anti-Venom Marvel Comics 229.46 358.05 M NaN \n", "Anti-Spawn Image Comics NaN NaN M NaN \n", "Annihilus Marvel Comics 180.94 90.11 M 1968.0 \n", "Angel Marvel Comics 183.05 68.99 M 1969.0 \n", "Ammo Marvel Comics 188.93 101.09 M 1988.0 \n", "Arachne Marvel Comics 175.15 63.75 F NaN \n", "Angel Dark Horse Comics NaN NaN M NaN \n", "Allan Quatermain Wildstorm NaN NaN M NaN \n", "Alien Dark Horse Comics 244.30 169.66 M 1979.0 \n", "Alfred Pennyworth DC Comics 178.26 72.98 M 1943.0 \n", "Ando Masahashi NBC - Heroes NaN NaN M NaN \n", "Alex Woolsly NBC - Heroes NaN NaN M NaN \n", "Alan Scott DC Comics 180.98 90.81 M 1940.0 \n", "Amazo DC Comics 257.49 173.95 M 1960.0 \n", "Ant-Man Marvel Comics 211.74 122.44 M 1962.0 \n", "Ajax Marvel Comics 193.34 90.63 M 1998.0 \n", "Alex Mercer Wildstorm NaN NaN M NaN \n", "\n", " Eye color Hair color Strength Intelligence \n", "Name \n", "A-Bomb Yellow No Hair 100.0 moderate \n", "Abraxas Blue Black 100.0 high \n", "Abomination Green No Hair 80.0 good \n", "Adam Monroe Blue Blond 10.0 good \n", "Agent 13 Blue Blond NaN NaN \n", "Air-Walker Blue White 85.0 average \n", "Agent Bob Brown Brown 10.0 low \n", "Abe Sapien Blue No Hair 30.0 high \n", "Abin Sur Blue No Hair 90.0 average \n", "Angela NaN NaN 100.0 high \n", "Animal Man Blue Blond 50.0 average \n", "Agent Zero NaN NaN 30.0 good \n", "Colin Wagner Grey Brown NaN NaN \n", "Angel Dust Yellow Black 55.0 moderate \n", "Angel Salvadore Brown Black 10.0 moderate \n", "Zoom Red Brown 10.0 average \n", "Lady Deathstrike Brown Black 30.0 good \n", "Yoda Brown White 55.0 high \n", "Zatanna Blue Black 10.0 high \n", "Yellowjacket II Blue Strawberry Blond 10.0 average \n", "Yellowjacket Blue Blond 10.0 high \n", "Yellow Claw Blue No Hair NaN NaN \n", "Absorbing Man Blue No Hair 80.0 moderate \n", "X-Man Blue Brown 55.0 high \n", "X-23 Green Black 25.0 good \n", "Wondra NaN NaN NaN NaN \n", "Adam Strange Blue Blond 10.0 good \n", "Wonder Girl Blue Blond 90.0 good \n", "Wonder Woman Blue Black 100.0 high \n", "Wolverine Blue Black 35.0 good \n", "... ... ... ... ... \n", "Ardina White Orange 100.0 good \n", "Arclight Violet Purple 65.0 moderate \n", "Ares Brown Brown 85.0 good \n", "Archangel Blue Blond 15.0 good \n", "Astro Boy Brown Black 95.0 average \n", "Atom III NaN Red NaN NaN \n", "Aqualad Blue Black 45.0 good \n", "Ariel Purple Pink 10.0 average \n", "Aquababy Blue Blond 20.0 low \n", "Aquaman Blue Blond 85.0 high \n", "Apocalypse Red Black 100.0 high \n", "Anti-Monitor Yellow No Hair 100.0 high \n", "Ant-Man II Blue Blond 20.0 good \n", "Anti-Venom Blue Blond 60.0 good \n", "Anti-Spawn NaN NaN 60.0 good \n", "Annihilus Green No Hair 80.0 good \n", "Angel Blue Blond 15.0 good \n", "Ammo Brown Black NaN NaN \n", "Arachne Blue Blond 50.0 average \n", "Angel NaN NaN 30.0 good \n", "Allan Quatermain NaN NaN NaN NaN \n", "Alien NaN No Hair 30.0 average \n", "Alfred Pennyworth Blue Black 10.0 good \n", "Ando Masahashi NaN NaN NaN NaN \n", "Alex Woolsly NaN NaN 40.0 average \n", "Alan Scott Blue Blond 80.0 good \n", "Amazo Red NaN 100.0 good \n", "Ant-Man Blue Blond 20.0 high \n", "Ajax Brown Black 50.0 average \n", "Alex Mercer NaN NaN 80.0 average \n", "\n", "[735 rows x 11 columns]" ] }, "execution_count": 3, "metadata": {}, "output_type": "execute_result" } ], "source": [ "heroes" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Ci riferiremo spesso alle righe e alle colonne di un _dataframe_ per indicare rispettivamente le osservazioni e i caratteri. Per esempio la prima riga si riferisce all'osservazione relativa ad \"A-Bomb\", mentre la prima colonna corrisponde al carattere \"identity\". Vi sono molti modi per interagire con un _dataframe_:\n", "\n", "- l'insieme degli indici, dei caratteri e dei valori si ottengono, nell'ordine, alle proprietà `index`, `columns` e `values`;\n", "- una serie corrispondente a una colonna/carattere può essere selezionata usando una sintassi simile a quella dei dizionari, specificando il nome del carattere come chiave:" ] }, { "cell_type": "code", "execution_count": 62, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "Name\n", "A-Bomb M\n", "Abraxas M\n", "Abomination M\n", "Adam Monroe M\n", "Agent 13 F\n", " ..\n", "Alan Scott M\n", "Amazo M\n", "Ant-Man M\n", "Ajax M\n", "Alex Mercer M\n", "Name: Gender, Length: 735, dtype: object" ] }, "execution_count": 62, "metadata": {}, "output_type": "execute_result" } ], "source": [ "heroes['Gender']" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "
\n", "In alternativa è possibile usare una sintassi basata su _dot notation_ in cui il nome della colonna, senza essere racchiuso tra apici, segue il _dataframe_. In altre parole, `heroes['Gender']` e `heroes.Gender` sono equivalenti. Questa seconda notazione è però utilizzabile solamente se non vi sono spazi nei nomi delle colonne. Nel seguito utilizzeremo quindi sempre la prima delle due notazioni.\n", "
" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "- tramite uno _slicing_ sulle posizioni o sui valori dell'indice è possibile selezionare un sottoinsieme delle righe del _dataframe_ (e come nel caso delle serie, l'estremo superiore è incluse se si usano gli indici ed escluso se si usano le posizioni):" ] }, { "cell_type": "code", "execution_count": 64, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
IdentityBirth placePublisherHeightWeightGenderFirst appearanceEye colorHair colorStrengthIntelligence
Name
Agent 13Sharon CarterNaNMarvel Comics173.4161.03FNaNBlueBlondNaNNaN
Air-WalkerGabriel LanXandar, a planet in the Tranta system, Androme...Marvel Comics188.59108.23MNaNBlueWhite85.0average
\n", "
" ], "text/plain": [ " Identity Birth place \\\n", "Name \n", "Agent 13 Sharon Carter NaN \n", "Air-Walker Gabriel Lan Xandar, a planet in the Tranta system, Androme... \n", "\n", " Publisher Height Weight Gender First appearance Eye color \\\n", "Name \n", "Agent 13 Marvel Comics 173.41 61.03 F NaN Blue \n", "Air-Walker Marvel Comics 188.59 108.23 M NaN Blue \n", "\n", " Hair color Strength Intelligence \n", "Name \n", "Agent 13 Blond NaN NaN \n", "Air-Walker White 85.0 average " ] }, "execution_count": 64, "metadata": {}, "output_type": "execute_result" } ], "source": [ "heroes['Agent 13':'Air-Walker']" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Queste modalità di accesso possono effettivamente creare confusione: usando una sintassi molto simile, specificando un valore si accede a una colonna e specificando uno _slice_ si accede a un insieme di righe. Per scrivere codice più chiaro è meglio selezionare le righe utilizzando le proprietà `loc` e `iloc` nello stesso modo in cui queste funzionano per le serie, con la differenza che quando queste sono usate specificando un solo valore, viene restituita una serie, e quando sono utilizzate con uno _slice_ o con una lista viene restituito un _dataframe_." ] }, { "cell_type": "code", "execution_count": 48, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "Identity Charles Francis Xavier\n", "Birth place New York, New York\n", "Publisher Marvel Comics\n", "Height 183.74\n", "Weight 86.89\n", "Gender M\n", "First appearance 1963\n", "Eye color Blue\n", "Hair color No Hair\n", "Strength 10\n", "Intelligence high\n", "Name: Professor X, dtype: object" ] }, "execution_count": 48, "metadata": {}, "output_type": "execute_result" } ], "source": [ "heroes.loc['Professor X']" ] }, { "cell_type": "code", "execution_count": 65, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
IdentityBirth placePublisherHeightWeightGenderFirst appearanceEye colorHair colorStrengthIntelligence
Name
WarbirdCarol DanversBoston, MassachusettsMarvel Comics180.5654.75FNaNBlueBlondNaNNaN
WildfireDrake BurroughsNaNDC ComicsNaNNaNMNaNNaNNaN35.0average
VultureAdrian ToomesStaten Island, New York CityMarvel Comics180.6179.63MNaNBrownNo Hair25.0good
WarpEmil LaSalleNaNDC Comics173.4267.42M1981.0BrownBlack10.0moderate
\n", "
" ], "text/plain": [ " Identity Birth place Publisher \\\n", "Name \n", "Warbird Carol Danvers Boston, Massachusetts Marvel Comics \n", "Wildfire Drake Burroughs NaN DC Comics \n", "Vulture Adrian Toomes Staten Island, New York City Marvel Comics \n", "Warp Emil LaSalle NaN DC Comics \n", "\n", " Height Weight Gender First appearance Eye color Hair color \\\n", "Name \n", "Warbird 180.56 54.75 F NaN Blue Blond \n", "Wildfire NaN NaN M NaN NaN NaN \n", "Vulture 180.61 79.63 M NaN Brown No Hair \n", "Warp 173.42 67.42 M 1981.0 Brown Black \n", "\n", " Strength Intelligence \n", "Name \n", "Warbird NaN NaN \n", "Wildfire 35.0 average \n", "Vulture 25.0 good \n", "Warp 10.0 moderate " ] }, "execution_count": 65, "metadata": {}, "output_type": "execute_result" } ], "source": [ "heroes.iloc[42:46]" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "È inoltre possibile selezionare una o più righe e visualizzare solo un sottoinsieme dei caratteri, passando a `loc` o `iloc` un secondo argomento in cui si specificano i caratteri da mostrare, utilizzando anche in questo caso un valore, una lista di valori oppure uno _slice_:" ] }, { "cell_type": "code", "execution_count": 66, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "Height 183.74\n", "Weight 86.89\n", "Name: Professor X, dtype: object" ] }, "execution_count": 66, "metadata": {}, "output_type": "execute_result" } ], "source": [ "heroes.loc['Professor X', 'Height':'Weight']" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Va notato che `loc` accetta solo valori simbolici, mentre `iloc` solamente posizioni, e ciò riguarda anche il loro secondo argomento:" ] }, { "cell_type": "code", "execution_count": 67, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
HeightWeight
Name
Tempest163.0254.36
Supergirl165.4054.80
\n", "
" ], "text/plain": [ " Height Weight\n", "Name \n", "Tempest 163.02 54.36\n", "Supergirl 165.40 54.80" ] }, "execution_count": 67, "metadata": {}, "output_type": "execute_result" } ], "source": [ "heroes.iloc[[106, 103], [3, 4]]" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Volendo accedere direttamente a un elemento è possibile utilizzare le proprietà `at` e `iat`:" ] }, { "cell_type": "code", "execution_count": 68, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "100.0" ] }, "execution_count": 68, "metadata": {}, "output_type": "execute_result" } ], "source": [ "heroes.at['Superman', 'Strength']" ] }, { "cell_type": "code", "execution_count": 69, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "'high'" ] }, "execution_count": 69, "metadata": {}, "output_type": "execute_result" } ], "source": [ "heroes.iat[500, -1]" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "
\n", "È anche possibile utilizzare `loc` e `iloc` per estrarre un singolo elemento: per esempio, `heroes.loc['Superman', 'Strength']` equivale alla prima delle due istruzioni appena elencate. Tuttavia, `at` e `iat` sono implementate in modo da essere più efficienti.\n", "
\n", "\n", "È infine possibile riordinare le righe di un dataframe invocando i metodi `sort_values` e `sort_index`: il primo basa l'ordinamento sul valore di una colonna, il cui nome va specificato tramite l'argomento `by` e il secondo è invece basato sui valori dell'indice. È inoltre possibile indicare un valore booleano per l'argomento `ascending` che permette di ordinare in verso crescente o decrescente." ] }, { "cell_type": "code", "execution_count": 54, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
IdentityBirth placePublisherHeightWeightGenderFirst appearanceEye colorHair colorStrengthIntelligence
Name
SasquatchWalter LangkowskiEdmonton, Alberta, CanadaMarvel Comics305.02900.70MNaNRedOrange80.0good
JuggernautCain MarkoBerkeley, CaliforniaMarvel Comics287.95855.82M1965.0BlueRed100.0average
DarkseidUxasNaNDC Comics267.37817.57M1970.0RedNo Hair100.0high
HulkBruce BannerDayton, OhioMarvel Comics244.40630.90M1962.0GreenGreen100.0high
GigantaDoris ZuelNaNDC Comics62.65630.80F1944.0GreenRed90.0high
\n", "
" ], "text/plain": [ " Identity Birth place Publisher \\\n", "Name \n", "Sasquatch Walter Langkowski Edmonton, Alberta, Canada Marvel Comics \n", "Juggernaut Cain Marko Berkeley, California Marvel Comics \n", "Darkseid Uxas NaN DC Comics \n", "Hulk Bruce Banner Dayton, Ohio Marvel Comics \n", "Giganta Doris Zuel NaN DC Comics \n", "\n", " Height Weight Gender First appearance Eye color Hair color \\\n", "Name \n", "Sasquatch 305.02 900.70 M NaN Red Orange \n", "Juggernaut 287.95 855.82 M 1965.0 Blue Red \n", "Darkseid 267.37 817.57 M 1970.0 Red No Hair \n", "Hulk 244.40 630.90 M 1962.0 Green Green \n", "Giganta 62.65 630.80 F 1944.0 Green Red \n", "\n", " Strength Intelligence \n", "Name \n", "Sasquatch 80.0 good \n", "Juggernaut 100.0 average \n", "Darkseid 100.0 high \n", "Hulk 100.0 high \n", "Giganta 90.0 high " ] }, "execution_count": 54, "metadata": {}, "output_type": "execute_result" } ], "source": [ "heroes.sort_values(by='Weight', ascending=False)[:5]" ] }, { "cell_type": "code", "execution_count": 55, "metadata": { "scrolled": false }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
IdentityBirth placePublisherHeightWeightGenderFirst appearanceEye colorHair colorStrengthIntelligence
Name
Yellowjacket IIRita DeMaraNaNMarvel Comics165.5852.36FNaNBlueStrawberry Blond10.0average
YmirYmirNiffleheimMarvel Comics304.63NaNMNaNWhiteNo Hair100.0average
YodaYodaNaNGeorge Lucas66.2917.01M1980.0BrownWhite55.0high
ZatannaZatanna ZataraNaNDC Comics170.2957.77FNaNBlueBlack10.0high
ZoomHunter ZolomonNaNDC Comics185.9081.93MNaNRedBrown10.0average
\n", "
" ], "text/plain": [ " Identity Birth place Publisher Height Weight \\\n", "Name \n", "Yellowjacket II Rita DeMara NaN Marvel Comics 165.58 52.36 \n", "Ymir Ymir Niffleheim Marvel Comics 304.63 NaN \n", "Yoda Yoda NaN George Lucas 66.29 17.01 \n", "Zatanna Zatanna Zatara NaN DC Comics 170.29 57.77 \n", "Zoom Hunter Zolomon NaN DC Comics 185.90 81.93 \n", "\n", " Gender First appearance Eye color Hair color \\\n", "Name \n", "Yellowjacket II F NaN Blue Strawberry Blond \n", "Ymir M NaN White No Hair \n", "Yoda M 1980.0 Brown White \n", "Zatanna F NaN Blue Black \n", "Zoom M NaN Red Brown \n", "\n", " Strength Intelligence \n", "Name \n", "Yellowjacket II 10.0 average \n", "Ymir 100.0 average \n", "Yoda 55.0 high \n", "Zatanna 10.0 high \n", "Zoom 10.0 average " ] }, "execution_count": 55, "metadata": {}, "output_type": "execute_result" } ], "source": [ "heroes.sort_index()[-5:]" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Va notato che entrambi i metodi restituiscono una copia del _dataframe_. Anche per i _dataframe_ è possibile utilizzare una lista di valori booleani che identificano le righe da selezionare, e tale lista può essere prodotta effettuando una query. In questo caso però le condizioni possono riguardare le varie colonne, ognuna delle quali va specificata usando una delle due sintassi precedentemente introdotte (quella analoga ai dizionari oppure quella basata su _dot notation_). Per esempio possiamo selezionare gli eroi per cui l'anno di apparizione esiste e rappresenta un valore non fuori scala nel modo seguente:" ] }, { "cell_type": "code", "execution_count": 59, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
IdentityBirth placePublisherHeightWeightGenderFirst appearanceEye colorHair colorStrengthIntelligence
Name
A-BombRichard Milhouse JonesScarsdale, ArizonaMarvel Comics203.21441.95M2008.0YellowNo Hair100.0moderate
Agent BobBobNaNMarvel Comics178.2581.45M2007.0BrownBrown10.0low
Abe SapienAbraham SapienNaNDark Horse Comics191.2465.35M1993.0BlueNo Hair30.0high
Abin SurNaNUngaraDC Comics185.5290.90M1959.0BlueNo Hair90.0average
Animal ManBernhard BakerNaNDC Comics183.8083.39M1965.0BlueBlond50.0average
\n", "
" ], "text/plain": [ " Identity Birth place Publisher \\\n", "Name \n", "A-Bomb Richard Milhouse Jones Scarsdale, Arizona Marvel Comics \n", "Agent Bob Bob NaN Marvel Comics \n", "Abe Sapien Abraham Sapien NaN Dark Horse Comics \n", "Abin Sur NaN Ungara DC Comics \n", "Animal Man Bernhard Baker NaN DC Comics \n", "\n", " Height Weight Gender First appearance Eye color Hair color \\\n", "Name \n", "A-Bomb 203.21 441.95 M 2008.0 Yellow No Hair \n", "Agent Bob 178.25 81.45 M 2007.0 Brown Brown \n", "Abe Sapien 191.24 65.35 M 1993.0 Blue No Hair \n", "Abin Sur 185.52 90.90 M 1959.0 Blue No Hair \n", "Animal Man 183.80 83.39 M 1965.0 Blue Blond \n", "\n", " Strength Intelligence \n", "Name \n", "A-Bomb 100.0 moderate \n", "Agent Bob 10.0 low \n", "Abe Sapien 30.0 high \n", "Abin Sur 90.0 average \n", "Animal Man 50.0 average " ] }, "execution_count": 59, "metadata": {}, "output_type": "execute_result" } ], "source": [ "heroes_with_year = heroes[heroes['First appearance'] > 1900]\n", "heroes_with_year.head()" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "collapsed": true }, "outputs": [], "source": [] }, { "cell_type": "markdown", "metadata": { "footer": true }, "source": [ "
\n", "D. Malchiodi, Superhero data science. Vol 1: probabilità e statistica: Pandas, 2017.\n", "
\n", "Powered by \"Jupyter\n", "
\n", "\n", "\n", "\n", "\n", "Quest'opera è distribuita con Licenza Creative Commons Attribuzione - Non commerciale - Non opere derivate 4.0 Internazionale.\n", "
" ] } ], "metadata": { "kernelspec": { "display_name": "Python 3 (ipykernel)", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.7.3" }, "latex_envs": { "LaTeX_envs_menu_present": false, "autoclose": true, "autocomplete": true, "bibliofile": "biblio.bib", "cite_by": "apalike", "current_citInitial": 1, "eqLabelWithNumbers": true, "eqNumInitial": 1, "hotkeys": { "equation": "Ctrl-E", "itemize": "Ctrl-I" }, "labels_anchors": false, "latex_user_defs": false, "report_style_numbering": true, "user_envs_cfg": true }, "toc": { "base_numbering": 1, "nav_menu": {}, "number_sections": true, "sideBar": false, "skip_h1_title": false, "title_cell": "Table of Contents", "title_sidebar": "Contents", "toc_cell": true, "toc_position": {}, "toc_section_display": true, "toc_window_display": false } }, "nbformat": 4, "nbformat_minor": 2 }