{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "# 5) Deskriptive Datenanalyse\n", "\n", "Beginnen wir wieder mit dem Import von **Pandas** und laden wir den uns bereits bekannten Datensatz." ] }, { "cell_type": "code", "execution_count": 1, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
sexagewohnortvolksmusikhardrock
015022.6666673.666667
115711.0000003.333333
226632.0000004.333333
\n", "
" ], "text/plain": [ " sex age wohnort volksmusik hardrock\n", "0 1 50 2 2.666667 3.666667\n", "1 1 57 1 1.000000 3.333333\n", "2 2 66 3 2.000000 4.333333" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "import pandas as pd\n", "\n", "daten = pd.read_csv(\"C:\\\\Datenfiles\\\\daten.csv\")\n", "\n", "daten.head(3)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### 5.1) Häufigkeitsanalyse\n", "\n", "Anhand dieser Daten werden wir in diesem Kapitel nun erste deskriptive/explorative Auswertungen vornehmen. Beginnen wir zuerst mit Häufigkeitsanalysen.\n", "\n", "Die Funktion **value_counts()** liefert uns die Häufigkeiten für die Ausprägungen der angegebenen Spalte (Variable).\n", "\n", "[pandas.Series.value_counts](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.value_counts.html)" ] }, { "cell_type": "code", "execution_count": 2, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "3 139\n", "1 95\n", "2 60\n", "Name: wohnort, dtype: int64" ] }, "execution_count": 2, "metadata": {}, "output_type": "execute_result" } ], "source": [ "daten['wohnort'].value_counts()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Damit die Sortierung aufsteigend nach den Ausprägungen der Variable (und nicht nach Häufigkeiten) erfolgt, fügen wir noch **sort_index()** an." ] }, { "cell_type": "code", "execution_count": 3, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "1 95\n", "2 60\n", "3 139\n", "Name: wohnort, dtype: int64" ] }, "execution_count": 3, "metadata": {}, "output_type": "execute_result" } ], "source": [ "daten['wohnort'].value_counts().sort_index() # 'sort_index()' sortiert nach den Kategorien, nicht nach den Häufigkeiten" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Möchten wir nach Häufigkeiten sortieren, fügen wir **sort_values()** an. Je nachdem, ob wir nach Häufigkeiten auf- oder absteigend sortieren möchten, schreiben wir *ascending = True* oder *ascending = False* in die Klammer (wobei *True* die Standardeinstellung ist, man dies also nicht explizit hinschreiben muss)." ] }, { "cell_type": "code", "execution_count": 4, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "3 139\n", "1 95\n", "2 60\n", "Name: wohnort, dtype: int64" ] }, "execution_count": 4, "metadata": {}, "output_type": "execute_result" } ], "source": [ "daten['wohnort'].value_counts().sort_values(ascending = False)" ] }, { "cell_type": "code", "execution_count": 5, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "2 60\n", "1 95\n", "3 139\n", "Name: wohnort, dtype: int64" ] }, "execution_count": 5, "metadata": {}, "output_type": "execute_result" } ], "source": [ "daten['wohnort'].value_counts().sort_values() # True ist standard" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Wir können auch den relativen Anteil (d.h. Prozent) jeder einzelnen Merkmalsausprägung ermitteln. Dazu fügen wir *normalize = True* hinzu. Für die Umrechnung in Prozent wurde hier noch mit 100 multipliziert, die Zahlen wurden dabei zuvor aus Gründen der Übersichtlichkeit auf 4 Dezimalstellen reduziert. Außerdem werden nur die ersten 5 Zeilen angezeigt, da die Variable Alter viele Ausprägungen hat und der Output sonst zu lang wird." ] }, { "cell_type": "code", "execution_count": 6, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "15 0.34\n", "20 0.34\n", "21 2.38\n", "22 4.76\n", "23 5.44\n", "Name: age, dtype: float64" ] }, "execution_count": 6, "metadata": {}, "output_type": "execute_result" } ], "source": [ "daten['age'].value_counts(sort = False, normalize = True).head().round(4)*100\n", "# Nach Kategoriennummer sortiert und in Prozent (relative Häufigkeiten) angegeben" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Man kann erkennen, dass bspw. nur jeweils 0,34% 15 bzw. 20 Jahre alt sind.\n", "\n", "Interessant ist ebenfalls, die kumulierten Summen zu ermitteln. Durch hinzufügen von **cumsum()** erhalten wir diese. Hier sieht man, dass insgesamt 0,68% bis inkl. 20 Jahre alt sind.\n", "\n", "[Creating a Cumulative Frequency Column in a Dataframe Python](https://stackoverflow.com/questions/38891974/creating-a-cumulative-frequency-column-in-a-dataframe-python)" ] }, { "cell_type": "code", "execution_count": 7, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "15 0.34\n", "20 0.68\n", "21 3.06\n", "22 7.82\n", "23 13.27\n", "Name: age, dtype: float64" ] }, "execution_count": 7, "metadata": {}, "output_type": "execute_result" } ], "source": [ "daten['age'].value_counts(sort = False, normalize = True).cumsum().head().round(4)*100 # kumulative Prozentwerte" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "##### Exkurs: Variablennamen als Attribute des Dataframes\n", "\n", "Variablen(Spalten)namen können in neueren Versionen von **Pandas** nicht mehr nur in der Form *dataframename['variablenname']* geschrieben werden, sondern auch als Attribut des Dataframes in der Form *dataframename.variablenname*. Im Folgenden als Beispiel dieser Schreibweise nochmals der Befehl von vorhin, diesmal in Attributschreibweise." ] }, { "cell_type": "code", "execution_count": 8, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "15 0.34\n", "20 0.68\n", "21 3.06\n", "22 7.82\n", "23 13.27\n", "Name: age, dtype: float64" ] }, "execution_count": 8, "metadata": {}, "output_type": "execute_result" } ], "source": [ "daten.age.value_counts(sort = False, normalize = True).cumsum().head().round(4)*100" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "##### Grafische Darstellung der Häufigkeiten\n", "\n", "Aus den Häufigkeitsdaten können wir eine informative Grafik erstellen. Sollen die relativen und die kumulierten relativen Häufigkeiten in einem Diagramm abgebildet werden, weisen wir beides jeweils einem Objekt (unten mit *grafik1* und *grafik2* bezeichnet zu. Dann erstellen wir ein neues Dataframe (*grafik*), fügen diesem Dataframe die beiden vorhin erstellten Objekte hinzu und vergeben gleichzeitig informative Spaltennamen." ] }, { "cell_type": "code", "execution_count": 9, "metadata": {}, "outputs": [], "source": [ "grafik1 = daten['age'].value_counts(sort = False, normalize = True).cumsum()*100\n", "grafik2 = daten['age'].value_counts(sort = False, normalize = True)*100\n", "grafik = pd.DataFrame()\n", "grafik ['kumulierte Häufigkeiten'] = grafik1\n", "grafik ['Häufigkeiten'] = grafik2" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Den Inhalt des Dataframes veranschaulichen wir nun mit **plot.line()** als Liniendiagramm. Wie im Output ersichtlich, werden beide Häufigkeiten in der Grafik abgebildet." ] }, { "cell_type": "code", "execution_count": 10, "metadata": {}, "outputs": [ { "data": { "image/png": "iVBORw0KGgoAAAANSUhEUgAAAXcAAAD4CAYAAAAXUaZHAAAAOXRFWHRTb2Z0d2FyZQBNYXRwbG90bGliIHZlcnNpb24zLjMuNCwgaHR0cHM6Ly9tYXRwbG90bGliLm9yZy8QVMy6AAAACXBIWXMAAAsTAAALEwEAmpwYAAAv3klEQVR4nO3deVxUZf//8dfFIiAgiiCiqLjvOypqWe5ZLuWSZYu2eferzO7qW95339Lub4vdqbdl222lZotWaqJmZZq2qJnijihuiAgiggs7DHP9/jgDouLGdg7D5/l48JiZM+fMfGaYec8517nOdZTWGiGEEM7FxewChBBClD0JdyGEcEIS7kII4YQk3IUQwglJuAshhBNyM7sAgICAAB0aGmp2GUIIUalERkae1loHFnefJcI9NDSUbdu2mV2GEEJUKkqpY1e6T5plhBDCCUm4CyGEE5JwF0IIJ2SJNvfi5OXlER8fT3Z2ttmliCrA09OTkJAQ3N3dzS5FiDJh2XCPj4/H19eX0NBQlFJmlyOcmNaalJQU4uPjady4sdnlCFEmrtkso5Sap5Q6pZTaW2Sav1LqZ6XUQcdlrSL3/UMpdUgpdUApNbikhWVnZ1O7dm0JdlHulFLUrl1bthKFU7meNvcFwG2XTJsCrNNaNwfWOW6jlGoD3AO0dSzzgVLKtaTFSbCLiiKfNeFsrtkso7X+TSkVesnkEcCtjuufARuAFx3TF2utc4CjSqlDQHdgcxnVK4QQV6S1Jt+uydcaux3yHbfthdN04TStKTKvLjJvkeWKLG/XXJi3uOW0Jt+OY159ybxc8hwX7m9R15ehHeqV+XtR0jb3IK11IoDWOlEpVccxvT7wZ5H54h3TLqOUmghMBGjYsGEJyyg/sbGxDB06lL1791575jJ+vm3btrFw4ULefffdG1p+06ZNjBs37oae18fHh/T09MLbCxYsYNu2bbz33nsA9OrVi9WrVzNu3DhWr159zcd79913+fDDD+nSpQtjx45l3759TJky5Yrzb9iwgRkzZrBq1arrqveVV16hT58+DBgwgNmzZzNx4kSqV69+XcsK89ntmhNns0g6n83p9FxSMnJITc8lJSOX0+k5pKTnciYzl1yb3Qi/gpAuNoQvD/HKaFjHepYK9yspbtu22Hdcaz0XmAsQFhZWOf8r5SQsLIywsLDrnt9msxEbG8tXX311w+F+LZs2bQK4rmAH+OCDD/jhhx8Kd0wOHz68TOv517/+VXh99uzZ3H///RLuFqS15uT5bA6cTCMmKY0DJ9M5eCqNg0npZOXlXzZ/DU83Anw88PeuRgP/6ni4ueCiFK4uynFJkesXLove76KuPP3iaQpXpVCKy6ZfmJdL5r18+pUe16W4eRzTL59Wfs2BJQ33JKVUsGOtPRg45ZgeDzQoMl8IkFCaAq3gyJEjjBo1irlz5/L+++8zdOhQRo8eDVxY892wYQNTp04lKCiInTt3MnLkSNq3b88777xDVlYWy5cvp2nTpkyYMKHY5YsqujabkZHBpEmT2LNnDzabjWnTpjFixAgWLFjA999/T3Z2NhkZGWRmZhIdHU2nTp0YP348Tz/9NFOmTGHDhg3k5OTw5JNP8re//e2GXndERARvvPEGubm5BAQE8MUXXxAUFMS0adPw8fHh+eefB6Bdu3asWrWK6dOnc+TIEYYPH87DDz9MrVq1CrcCDh8+zH333Ud+fj5Dhgxh1qxZl73urVu3MnHiRJYuXcqZM2d49tlnSU9PJyAggAULFhAcHFz4/iUkJJCQkEDfvn0JCAhg/fr1rFmzhqlTp5KTk0PTpk2ZP38+Pj4+hIaGMn78eFauXEleXh7ffvstrVq1KunHQRRht2uS03M4fCrdCPEk4zImKY20bFvhfHV8PWhZ15d7uzekRZAP9Wp64e9drTDQq7nJITdlraThvgIYD0x3XEYUmf6VUmoWUA9oDvxV2iJfXRnFvoTzpX2Yi7SpV4Opw9pec74DBw5wzz33MH/+fDp16nTVeXft2kV0dDT+/v40adKERx99lL/++ot33nmHOXPmMHv27Buu8/XXX6dfv37MmzePs2fP0r17dwYMGADA5s2b2b17N/7+/pc1b8ydOxc/Pz+2bt1KTk4OvXv3ZtCgQZd19cvKyrrodaWmphaubffp04fhw4ejlOKTTz7h3//+NzNnzrxirR999BE//vgj69evLwzkApMnT2by5Mnce++9fPTRR5ctu2nTJiZNmkRERATBwcHcf//9REREEBgYyNdff81LL73EvHnzCud/+umnmTVrVuFznT59mtdee421a9fi7e3NW2+9xaxZs3jllVcACAgIYPv27XzwwQfMmDGDTz755Mb+EVWQ1pozmXkknM0i8Vw2ieeySDhbcGlcTzqfja1Ic0jN6u60CPLlzk71aVHXl5ZBvrQI8qFm9WomvpKq6ZrhrpRahLHzNEApFQ9MxQj1b5RSjwBxwBgArXWUUuobYB9gA57UWl++DVZJJCcnM2LECJYuXUrbttf+IejWrRvBwcEANG3alEGDBgHQvn171q9fX6Ia1qxZw4oVK5gxYwZgdBGNi4sDYODAgfj7+19xud27d7NkyRIAzp07x8GDBy8Ldy8vL3bu3Fl4u6DNHYxjDcaOHUtiYiK5ubml6gO+efNmli9fDsC4ceMK1/oBoqOjmThxImvWrKFevXrs3buXvXv3MnDgQADy8/ML39cr+fPPP9m3bx+9e/cGIDc3l549exbeP3LkSAC6du3KsmXLSvw6KqPsvHySzmeTlm0jLdtGeo6NtOw8x2XBX9HbeZxOzyXxXBbZefaLHsvdVVHXz5NgPy+6hdaiXk0vgmt60bi2Ny3q+hDo4yE9jyzienrL3HuFu/pfYf7XgddLU9SlrmcNuzz4+fnRoEEDNm7cWBjubm5u2O3GB15rTW5ubuH8Hh4ehdddXFwKb7u4uGCz2a65fHG01ixdupSWLVteNH3Lli14e3tfdbk5c+YweHCJDzVg0qRJPPvsswwfPpwNGzYwbdq0y14DUOr+4cHBwWRnZ7Njxw7q1auH1pq2bduyefP1d7LSWjNw4EAWLVpU7P0F/wtXV9fC/4Wzycu3cywlgwMnLzSNHEhKI/Z0Blfb11jN1QVfTzd8PN2MSw832gTXoH+rOgTX9KKen6cjxD0J8PYo13ZiUXYse4SqFVSrVo3ly5czePBgfHx8GDduHKGhoURGRnL33XcTERFBXl7eDT3mjS4/ePBg5syZw5w5c1BKsWPHDjp37nzZfL6+vqSlpV203Icffki/fv1wd3cnJiaG+vXrX/UH4VLnzp2jfn2js9Nnn3120WsoaP7Zvn07R48eveZjhYeHs3TpUsaOHcvixYsvuq9mzZp8+umnDBo0CG9vb3r16kVycjKbN2+mZ8+e5OXlERMTc9nWU8FrDggIIDw8nCeffJJDhw7RrFkzMjMziY+Pp0WLFtf9eisbrTU7j59l1e5ENh46zeHkdPLyjRR3URBa25vmQT4MbR9MA//q1PByx9fDDV9P98Ig9/V0w8OtxIeiCAuTcL8Gb29vVq1axcCBA/H29uaxxx5jxIgRdO/enf79+99QWAI3vPzLL7/MM888Q4cOHdBaXxSsRXXo0AE3Nzc6duzIhAkTmDx5MrGxsXTp0gWtNYGBgYXNItdr2rRpjBkzhvr16xMeHl4Y4qNGjWLhwoV06tSJbt26XVeAFvRsmTlzJnfccQd+fn4X3R8UFMTKlSsZMmQI8+bNY8mSJTz99NOcO3cOm83GM888c1m4T5w4kSFDhhAcHMz69etZsGAB9957Lzk5OQC89tprThHutnw7qZm5pGbkkpJudBmMTkxj1e4E4s9kUc3VhfCmtbm1ZR1aBPnQIsiXZnV88HSX0K7KlNbm90IMCwvTl56sIzo6mtatW5tUkShrmZmZeHl5oZRi8eLFLFq0iIiIiGsvWIHM/MylpOdw4KTRjBKTlMaR5AxSMnJJSc/hTOblW3euLoqbmgUwrGM9BrYJws9LBjyripRSkVrrYvtNy5q7qBCRkZE89dRTaK2pWbPmRT1fqrpl2+N5/ttdhe3iNau70yzQhxZBPtRuUpvaPtWo7eNBbe9qxp+PB3X9PPHxkK+vuDL5dIgKcfPNN7Nr1y6zy7CcQ6fSeem7vXRtVIvJ/VtIjxNRZiTchTBJdl4+kxbtwKuaK++N60JQDU+zSxJORMJdCJO8uTqa6MTzzJsQJsEuypwc8yuECdZEneSzzcd45KbG9GsVZHY5wgnJmrsQFSDXZufo6QwOJKVxMCmNhZuP0b6+Hy/c1vLaCwtRArLmfhU+Pj4X3V6wYAFPPfVU4e1evXpx9uxZbr/99ut6vHfffZfWrVtz3333sWLFCqZPn37V+Tds2MDQoUOvu95XXnmFtWvXAka/8szMzOteVpSPfLvmo18P0+HVnxg8+zeeXrSDDzYcJqSWF3Pu7SwHEIlyI2vupSDD4YqriT2dwXPf7iLy2BkGtA5iWMdgWgT50iTQW0JdlDtZcy+hiIgIevToQefOnRk4cCBJSUmAcVRnwSBfYAyHGxsby+OPP144HO5//vOfi7YCDh8+THh4ON26deOVV165bIsBjOFwO3fuzJEjR4iMjOSWW26ha9euDB48mMTERAAmTJjAkiVLePfddwuHw+3bty9gDCTWs2dPunTpwpgxYwqH2w0NDWXq1Kl06dKF9u3bs3///nJ936oCrTWf/3mMIe/8TkxSGv8Z25GPH+zKiE71aR1cQ4JdVIjKseb+wxQ4uadsH7Nuexhy9WYRGQ5X3Khcm51/LNvD0u3x9GkRyFuj2hPs52V2WaIKqhzhbhIZDlfciLOZufzt80i2HE3l7wNa8HT/ZnIwkjBN5Qj3a6xhm0GGwxVFHT2dwcMLtnLiTBbv3NOJEZ2KPXWwEBVG2txL6GrD4W7fvh248eFwgWKHw/3+++/55z//yYYNG2jZsmXhcLgAeXl5REVFXfaYRYcADg8PZ+PGjRw6dAgwBvGKiYm50ZcsLmG3a/48ksL/Lt/D8Pf+4FxWHl891kOCXViChHsJFQyHe/PNNxMQEFA4fdSoUaSmptKpUyc+/PDD6x4Od9asWXTv3p3ExMQrDof75JNPsmPHDpYsWcKLL75Ix44d6dSpU2GvnaIKhsPt27cvgYGBhcPhdujQgfDwcNlxWgr5ds3bP+2n5/R13DP3T5ZEGu3r3z3Ri7DQ4s+MJURFkyF/LaAyDIdbFVzvZ25pZDzPfbuLvi0DuatLCP1b1cFbRmgUJpAhfy1OhsOtPHJs+cz6OYb29f34dHw3OeWcsCwJdwuQ4XArjy//jOPE2Symj2ovwS4szdJt7lZoMhJVw/V81tJzbLy3/hC9m9Xm5uaBFVCVECVn2XD39PQkJSVFAl6UO601KSkpeHpefdjdj387QmpGLi8MblVBlQlRcpZtlgkJCSE+Pp7k5GSzSxFVgKenJyEhIVe8/3R6Dp/8foQh7erSsUHNiitMiBKybLi7u7uX6qhPIcrSe78cIttm5/nBMkSvqBwsG+5CWMGxlAzeWXeQ5TtOcHdYA5oGXj6omxBWJOEuRDFOnM1izrqDfBsZj5uL4pGbGjN5wLUPSBPCKiTchbjEibNZ3Db7N3Ly7DwQ3ognbm1KHTnHqahkJNyFKEJrzT+X7SHfrvnhmZulGUZUWpbtCimEGZZtP8GvMcm8MLilBLuo1CTchXA4lZbNv1btI6xRLR7sGWp2OUKUioS7EA7TVkSRlZfP9FEdZGgBUemVKtyVUn9XSkUppfYqpRYppTyVUv5KqZ+VUgcdl7XKqlghysuPexNZveckk/s3p1kdaY4RlV+Jd6gqpeoDTwNttNZZSqlvgHuANsA6rfV0pdQUYArwYplUK0QZys7L59eYZFbtTuTnfSdpW68GE/s0MbssIcpEaXvLuAFeSqk8oDqQAPwDuNVx/2fABiTchYVorZn+w36+2hJHWo4Nf+9qjOwSwhO3NsXdVVoqhXMocbhrrU8opWYAcUAWsEZrvUYpFaS1TnTMk6iUqlPc8kqpicBEgIYNG5a0DCFu2Od/HuO/vx3hjg7BjA1rQK+mtXGTUBdOpsSfaEdb+gigMVAP8FZK3X+9y2ut52qtw7TWYYGBMnyqqBj7Es7z2vfR9GtVh/fu7UyfFoES7MIpleZTPQA4qrVO1lrnAcuAXkCSUioYwHF5qvRlClF6mbk2nlq0nZpe7rw9ugNKSY8Y4bxKE+5xQLhSqroyviX9gWhgBTDeMc94QE4GKixhakQUR09nMPueTtT28TC7HCHKVWna3LcopZYA2wEbsAOYC/gA3yilHsH4ARhTFoUKURoRO0/wbWQ8k/o1o1fTALPLEaLclaq3jNZ6KjD1ksk5GGvxQlhCSnoOLy/fS9dGtZjcv7nZ5QhRIWRPknB6M9bEkJmbz1uj2svOU1FlyCddOLW9J86xeGsc43uF0qyOr9nlCFFhJNyF09JaM3VFFLW9qzF5gDTHiKpFwl04rYidCUQeO8MLg1tRw9Pd7HKEqFAS7sIppefYeGN1NB1C/BjdNcTscoSocHImJuF0svPyef37aE6l5fDRA11l+F5RJUm4C6eRa7PzzbbjvL/+EInnsnmwZyO6NJQRp0XVJOEunMLafUlMWxlF/JksujaqxcwxHenVTA5WElWXhLuo9GJPZ/DkV9tpHODNgoe6cUuLQBk3RlR5Eu6iUrPbNS8u3U01VxcWPNSdun6eZpckhCVIbxlRqS3aGseWo6m8dEdrCXYhipBwF5VW4rks3ly9n15NazO2WwOzyxHCUiTcRaWkteal7/aSb9dMHyljswtxKQl3UelorfliSxy/7D/F84Nb0rB2dbNLEsJyZIeqqDS01mw6nMLMNQfYHneW7qH+TOgVanZZQliShLuoFPaeOMf/rdrHlqOpBPt58vpd7RjTtQGucvSpEMWScBeWt2p3As99s4saXu5MG9aGe7o3xNPd1eyyhLA0CXdhWVprPthwmLd/OkBYo1rMfTAMf+9qZpclRKUg4S4sKddm55/f7WFJZDx3dqrHW6M74OEma+tCXC8Jd2E5ZzNzefyLSP48ksozA5ozuX9z6eooxA2ScBeWEns6g4cXbCX+TBazx3bizs71zS5JiEpJwl1Yxl9HU5n4+TYU8OVjPegW6m92SUJUWhLuwnQHk9JYvvMEH/92lBB/L+ZP6Eaj2t5mlyVEpSbhLkxxJiOXL7ccY+WuRA4kpeGioH/rIGaM7ohfdTnfqRClJeEuKlxmro0H5m1h74nzdAutxavD2zKkfV3q+MqojkKUFQl3UaHsds1z3+wiKuE8n44Po3/rILNLEsIpycBhokL9Z20MP+w9yUu3t5ZgF6IcSbiLChOx8wRzfjnE2LAGPHJTY7PLEcKpSbiLCvFrTDL/s2Q3PRr78393tpODkoQoZ9LmLspVZq6N6T/sZ+HmYzSv48NH93elmpusUwhR3koV7kqpmsAnQDtAAw8DB4CvgVAgFrhba32mNM8jKqfIY2d47pudxKZk8lDvUF4Y3AqvajI+jBAVobSrUO8AP2qtWwEdgWhgCrBOa90cWOe4LaoQrTUfbjjMmI82kZev+eqxHkwd1laCXYgKVOI1d6VUDaAPMAFAa50L5CqlRgC3Omb7DNgAvFiaIkXlkWuz8/LyvXy97Th3dAhm+sj2+HrKQUlCVLTSNMs0AZKB+UqpjkAkMBkI0lonAmitE5VSdUpfpqgMzmXm8f++jGTT4RSe7teMZwa0wEXOlCSEKUrTLOMGdAE+1Fp3BjK4gSYYpdREpdQ2pdS25OTkUpQhrCAuJZORH25ka2wqM8d05NlBLSXYhTBRacI9HojXWm9x3F6CEfZJSqlgAMflqeIW1lrP1VqHaa3DAgMDS1GGMNu22FTu/GAjKRm5fPFID0Z1DTG7JCGqvBKHu9b6JHBcKdXSMak/sA9YAYx3TBsPRJSqQmFpETtPMO7jLfh5ufPdE73p0aS22SUJISh9P/dJwJdKqWrAEeAhjB+Mb5RSjwBxwJhSPoewIK017647xH/WxtC9sT//vb8rteT8pkJYRqnCXWu9Ewgr5q7+pXlcYV1aa37Zf4pZP8cQlXCekV3q8+bI9nJ+UyEsRo5QFdft94PJzFwTw87jZ2noX52ZYzoyskt9GUpACAuScBfXZfbaGGavPUg9P0/eHNme0V1DcHeVYQSEsCoJd3FN768/xOy1BxndNYTX72onTTBCVAIS7uKq5v52mLd/OsBdnevz1qgOuErfdSEqBdmuFlc0f+NR3li9nzs6BPP2aAl2ISoTCXdRrF9jknl15T4Gtw1i9thOuEn7uhCVinxjxWVybXZeXRFF4wBv3r23s+w4FaISkm+tuMyCTUc5cjqDV4a1kZ2nQlRSEu7iIqfOZ/PO2oP0b1WHvi1lQE8hKisJd3GRt348QF6+5uWhbcwuRQhRChLuotD2uDMs3R7PIzc3JjTA2+xyhBClIOEuALDbNa+uiCKohgdP9W1mdjlCiFKScBcArNiVwK74c0wZ0gpvDzm2TYjKTsJdkGuzM/PnA7StV4MRHeubXY4QogxIuAsW/RXH8dQsXritlZwaTwgnIeFexWXk2Jjzy0HCm/jTp3mA2eUIIcqIhHsV9+kfRzmdnsuLt7WScdmFcCIS7lVYakYuc387wuC2QXRuWMvscoQQZUjCvQr7YP0hMnNt/M/glteeWQhRqUi4V1HHUzNZ+OcxRncNoVkdX7PLEUKUMQn3KuqN1dG4KsXfB7YwuxQhRDmQcK+CNh46zQ97T/Jk36YE+3mZXY4QohxIuFcxefl2Xl0ZRQN/Lx69uYnZ5QghyomEexXzxZ/HiElK5+U72uDpLmO1C+GsJNyrkJT0HGb9HMPNzQMY2CbI7HKEEOVIwr0KmbHmAFm5+Uwd1kYOWBLCyUm4VxHLd5xg8dbjjO8VKl0fhagCJNyrgFW7E3j2m52EN67N84PkgCUhqgIJdyf3496TTF68k7BG/nw6IQyvarITVYiqQMLdia3dl8SkRdvpGOLHvIe6Ub2anIRDiKpCvu1O6FhKBu+sO8jyHSdoV9+PBQ93x0fOriRElVLqb7xSyhXYBpzQWg9VSvkDXwOhQCxwt9b6TGmfR1yd1prjqVl8+Oshvt0Wj6uL4uHejZnUvzk1PN3NLk8IUcHKYnVuMhAN1HDcngKs01pPV0pNcdx+sQyeRxSRl2/n+92JbI87w4GTaRw8lU5qRi7VXF24r0dDnujbjKAanmaXKYQwSanCXSkVAtwBvA4865g8ArjVcf0zYAMS7mUm365ZvuME76w7SFxqJj4ebrQI8mFw2yCa1/FlcLu61K8p48UIUdWVds19NvACULTjdJDWOhFAa52olKpT3IJKqYnARICGDRuWsoyqYU3USab/uJ8jyRm0rVeDT8eH0a9VHTkgSQhxmRKHu1JqKHBKax2plLr1RpfXWs8F5gKEhYXpktZRVXy9NY4Xl+6hRZAPH93fhcFt60qoCyGuqDRr7r2B4Uqp2wFPoIZS6gsgSSkV7FhrDwZOlUWhVdnSyHimLNvDLS0CmftgVzzcpK+6EOLqStzPXWv9D611iNY6FLgH+EVrfT+wAhjvmG08EFHqKquwiJ0n+J8lu+jdNID/PiDBLoS4PuVxENN0YKBS6iAw0HFblIAxbMAuujf25+MHw2SIXiHEdSuTI1u01hswesWgtU4B+pfF41ZVGTk23lgdzZdb4ghrVItPx3eTYQOEEDdEDlu0mK2xqTz3zS6On8nksZsb89yglrLGLoS4YRLuFvL++kPMWHOAkFpeLH4snB5NaptdkhCikpJwt4jd8WeZseYAt7cL5q3RHWQsGCFEqciokBZgt2umrYiitnc13hzVXoJdCFFqEu4WsHznCbbHneWF21rJIF9CiDIh4W6y9Bwbb/6wn44hfozuEmJ2OUIIJyHb/yab88tBktNymPtAV1xcZDgBIUTZkDV3Ex1JTmfeH0cZ3TWEzg1rmV2OEMKJSLib6PXvo/Fwc+WF2+Sk1UKIsiXhbpK/jqaybv8pnujblDq+clINIUTZknA3gdaat37cTx1fDx7q1djscoQQTkjC3QTrok8ReewMkwc0lzFjhBDlQsK9guXbNW//dIDGAd7cHdbA7HKEEE5Kwr2CRew8wYGkNJ4b1AJ3V3n7hRDlQ9KlAuXY8pm5JoZ29Wtwe7tgs8sRQjgxCfcK9NWWOE6czeLF21rJAUtCiHIl4V5BtNYs2BRLt9Ba3NQswOxyhBBOTsK9guw5cY5jKZmM7hqCUrLWLoQoXxLuFWTlrgTcXRW3tZW2diFE+ZNwrwB2u2bV7kRuaRGIX3UZ0lcIUf4k3CvAtmNnSDyXzbCO9cwuRQhRRUi4V4CVuxLwdHdhQOsgs0sRQlQREu7lzJZvZ/WeRPq3DsJbTp8nhKggEu7lbPORFFIychnWQZpkhBAVR8K9nK3YmYCPhxu3tgw0uxQhRBUi4V6Ocmz5/Bh1kkFtg/B0l9EfhRAVR8K9HP0Wc5q0bJv0khFCVDgJ93K0clcCtaq7y3ADQogKJ+FeTjJzbfy8L4kh7YNlaF8hRIWT1Ckn66JPkZWXL71khBCmkHAvJyt3JVDH14Pujf3NLkUIUQWVONyVUg2UUuuVUtFKqSil1GTHdH+l1M9KqYOOy1plV27lcD47jw0HkhnaoR6uMm67EMIEpVlztwHPaa1bA+HAk0qpNsAUYJ3WujmwznG7SlkTlURuvp1hHWUESCGEOUoc7lrrRK31dsf1NCAaqA+MAD5zzPYZcGcpa6x0VuxKIKSWF50a1DS7FCFEFVUmbe5KqVCgM7AFCNJaJ4LxAwDUucIyE5VS25RS25KTk8uiDEtISc9h46HTDOtYT07KIYQwTanDXSnlAywFntFan7/e5bTWc7XWYVrrsMBA5zk0/4e9J8m3a4bLgUtCCBOVKtyVUu4Ywf6l1nqZY3KSUirYcX8wcKp0JVYuK3cl0KyOD63q+ppdihCiCitNbxkFfApEa61nFblrBTDecX08EFHy8iqXk+ey+Ss2lWEdpElGCGGu0gww3ht4ANijlNrpmPZPYDrwjVLqESAOGFOqCiuRVbsT0BrpJSOEMF2Jw11r/QdwpdXT/iV93MrKlm9n4eZjdGxQkyaBPmaXI4So4uQI1TKyYlcCcamZPHlrU7NLEUIICfeykG/XvLf+EK3q+jKwjZwnVQhhPgn3MrB6TyJHkjOY1K+57EgVQliChHsp2e2a9345RLM6PgxpV9fscoQQApBwL7U1+5I4kJTGU32b4SKDhAkhLELCvRS01sz55SChtasztIN0fxRCWIeEeymsP3CKqITzPNG3GW5ytiUhhIVIIpXCZ5uOEeznyV2d65tdihBCXETCvYROnc/m94PJjOoSIudIFUJYjqRSCUXsTMCu4a4ustYuhLAeCfcSWrbjBJ0a1KSpDDUghLAgCfcS2JdwnujE84yUtXYhhEVJuJfAdzvicXdVDO0gJ+QQQliThPsNsuXbWb4zgb4t6+DvXc3scoQQolgS7jdo4+EUktNyGNklxOxShBDiiiTcb9Cy7fH4ebnTt5XznPdVCOF8JNxvQHqOjZ+iTjKsYzAebq5mlyOEEFck4X4DVu9JJDvPLk0yQgjLk3C/AV9tiaNJoDedG9Q0uxQhhLgqCffrtCf+HDuPn+WB8EZyQg4hhOVJuF+nhZtjqV7NlVFdpUlGCGF9bmYXUBmcychlxa4ERncNoYan+/UvuHcpHPz54mmN+0CncWVboBBCXELC/Tp8G3mcHJudB3uGGhPSTkLUciO87Xkw5G1o0O3CAnY7/PIv+OM/4F0H3D2N6bYc2LUIss5Azycr+mUIIaoQCfdryLdrPv/zGN0b+9PSdgAWTIPYPwANQe0g6yzMGwQ3/R1umQJ2G3z3N4heAV0fgtvfBlfH2n6+DZY+DD/9E1yrQffHTHxlQghnJuF+Db/GnOJ4ahav3uQFX44G9+pwy4vQbiQEtoTsc/DjP+H3mRDzkxHaCTtg0OvG2nnRna+ubjDqUyPkVz8PLm4Q9pB5L04I4bQk3K9h4eZjNPGx0TdyEqBgwirwb3JhBk8/uPN9aHUHrJwMuekw9gtoPbT4B3R1hzHz4esHYNUzcPqg0aRTp43xuK430KZfFjJT4VQ0nNoHZ2LBLwTqtDbq8Q68+MdJGPLz4K+Poc0I8JORQYU1SbhfxbGUDP6IOcm6oPdRZ2LhwYiLg72oVrdDaG/ISb/2F97NA+5eCMsehS0fwp/vG9Nd3KHLA3D7DHAp5yNgo1cazUNn4y5Mc60G+bkXbvsEQb//hc4PWD/ks84ACrxqXn5fXjZ8Ox5yM4wtrtYjwLv21R/vfILx41bcj+2GN40tteiVMOF7cJFOZ8J6lNba7BoICwvT27ZtM7uMi+TbNRMXbuPWw//mAdc1MPw9I3jLWl4WnI6BU/sh9jfY8YURpsPeLZ/QyDoLP7wAu7+Guh2gw90X1tR9gyEj2ViLP7Uf9kVA3CZocRsMewd865Z9PWXh9CFYcLvx4/jQ91Ar9MJ9Whv7QHZ/DbUaw5mjoFyhya1G81rDHpc/XuxGWDgCGobDuG+gWvUL9x3ZAAvvNN6vU1HGD3Fp952kn4I9S4wmOnev0j2WqFKUUpFa67Bi75NwL94bq6PJ3/geL7t/Ab0mwaDXKuaJf3kdfvs3hD0Md8y6eI35fAJ41rw4bG7EoXUQ8RSkJ0Gf/4E+z1+9Gchuh7/+C2unGaFzx0xoO7L0a/Fn4+C3tyH1KNz5AdRsWPLHSj0C8+8wtjjsNvCoAQ+thpoNjPt/mwG//J+xBXLz85C01+jltGuxsb/k/qXQqFeRxzsKH/cztq7STho/AvcuNno8pSfDR72N/8HE9bD4PojfCk9sLvlryMuCBXfAiUhoNxpGfWL9rSRhGRLuN+ibrcfZvXwmr7nPh9bDYcyC8m8mKaC1EaYbZ0OPx42dslHfwd5lkLgTqgfATc9A2CPXH/InImH9G3BoLQS0hLs+gvpdrr+m5BhY/rjxOA3Cod9LRn/9Avl5xhpt3Gaw51+Y7uYBAS2MLYPazSHztBG22xcaAebqYfxo3LsYQrpe/B7E/Ahxf15cR4360HoY1Ag2bp85ZgRjboaxLyQ/Fz4bAdVrwUM/QPw2+OYBaH83jJx7cWimJRnLpiXCA99Bg+5G2H8y0Pjxe+wX4/kjnoDmg+Duz+Hr++Hob0awB7U1nv+DntCoJ9y35MLjn4s3thS8A401/MCW4OF7+fuqNSx52Pj/th5m9LDq+xLc8sL1/29ElWZKuCulbgPeAVyBT7TW0680r5XCfcuRFCLmvckbbh9jb34bLmM/B7cKPimH1vDTSxfa4gHqdTF20h79HY6sN9rDb34Oujx45U35xF2wYTocWA1e/tB7MvT4W8k2/fNtsH0B/DYT0hIg9GbjuWP/MEIp64zR3OFSZDdOfi7g+Hy5uAGO8OvygLEWnZsOX44xwvSu/xo7KA+thfWvGz2OXNyMxzTeFMfjKWjU2wjDPz+A7LMwfiUEdzRmi99mNJt41zaaO4LawvhVF441KOp8otGck3Ea7l9mtKUf/dUI+4Ifr23zjR3fBU06d8yEbo9eeIwt/zWaue78CJr2NdriIxdcvO8CjOW7PQrdHrnw/m94Cza8AQOmQe9n4LvHYfdiY2Wi7V03/j8SVU6Fh7tSyhWIAQYC8cBW4F6t9b7i5i/rcLfbNdm2fHLy7GTb8snOs5PjuMzOyyc7L58cm3G9YJ4cx33Jf8xnmv6A/Mb9cL9vkbH2aQatYdMc4yCptnddvCP32Cb45TU4thGq+UDLIdBuFDTtZ6w1Ri2Dvd8ZbcKeftBzEoQ/Xvza443Ky4bI+fD7LMg4Be7exs7ktiOhWf+L3y9bjtEbqKA3Tn4udJ8ItRpdmCfjNCweB8e3ONqx94FfQ2PtteO9RvfRAskxjte21NhP4VEDHlwO9Yus9QPEbYHP7wKvWsZatk+dK7+ec/Ew/3Y4dxy03di30HXCxfP89bHRdbXVUKMnVNEtALsd5t8GSVFGs1B+HnS+z/jh1fYLr/3IrxD7O/jUNe7z9IPvJhqv8c4Pjce05cBnwyBxt9G0dK2tq+xzxr6R5GhjX0rBVlLNRmW3v0ZrsGVD9nnIcfxln4ectIuve9d2bKW0gur+F5bNOgOZKca+nIK/zFSjS7F3IHgHOC4DoXrtil+RquTMCPeewDSt9WDH7X8AaK3fLG7+kob7kb1bcFn2CFqDXWs0xueppK9JAU1cEslt0BuvB7+19s4trY2Q3/31hTVn9+qQl2nc3yDc6BnSYWzxPUhKKzcDEnZCvc4l3wdQIC/b6EZ6bJPR5NT5gat/ybU2QtPd88q9l1KPQjXvqwd7gTPH4Kuxxo9U/1eKnydxtxGexW0BJMfA53caa/u3vHDlmmI3GlslxzYatxuEw/gVF/8gpicbbf5ZZ67e6yonDc6fKP4+9+pGl1ZVwoAvCPSCALfbbmx5nyBAGc1wN7qsp5/R9FjRXYLN1GwADH69RIuaEe6jgdu01o86bj8A9NBaP1Xc/CUN94TDUZz8bgouSuHqooq5BFeXq9932fQa9YwveGkDqyIVtHnH/Gj0FGl7l/HlFtajtdH0E73K6K3jU8wZvZIPGM07tuwrP457dceaehuo08rYSkmOMbYSkvdfOfivl6sHeNYwtvY8ajiuF/z5Frnta/ylJzm2UqKN51cuF9bIvQONNfuC617+xkpIxmnHmrzjMqPIpc6/do3OokGPEg9HYka4jwEGXxLu3bXWk4rMMxGYCNCwYcOux44dK/M6hBDCmV0t3Mvr6It4oEGR2yFAQtEZtNZztdZhWuuwwEA5H6kQQpSl8gr3rUBzpVRjpVQ14B5gRTk9lxBCiEuUy/ADWmubUuop4CeMrpDztNZR5fFcQgghLlduY8torVcDq8vr8YUQQlyZjHgkhBBOSMJdCCGckIS7EEI4IQl3IYRwQpYYFVIplQxY5SimAOC02UVchZXrs3JtYO36rFwbWLs+K9cG5VtfI611sQcKWSLcrUQpte1KR3xZgZXrs3JtYO36rFwbWLs+K9cG5tUnzTJCCOGEJNyFEMIJSbhfbq7ZBVyDleuzcm1g7fqsXBtYuz4r1wYm1Sdt7kII4YRkzV0IIZyQhLsQQjihKh3uSqkGSqn1SqlopVSUUmqyY7q/UupnpdRBx2UtE2rzVEr9pZTa5ajtVavUVqRGV6XUDqXUKgvWFquU2qOU2qmU2mbB+moqpZYopfY7Pn89rVCfUqql4z0r+DuvlHrGCrUVqfHvju/EXqXUIsd3xRL1KaUmO+qKUko945hmSm1VOtwBG/Cc1ro1EA48qZRqA0wB1mmtmwPrHLcrWg7QT2vdEegE3KaUCrdIbQUmA9FFblupNoC+WutORfoYW6m+d4AftdatgI4Y76Pp9WmtDzjes05AVyAT+M4KtQEopeoDTwNhWut2GEOK32OF+pRS7YDHgO4Y/9OhSqnmptWmtZY/xx8QAQwEDgDBjmnBwAGT66oObAd6WKU2jLNrrQP6Aasc0yxRm+P5Y4GAS6ZZoj6gBnAUR4cGq9VXpJ5BwEYr1QbUB44D/hhDlq9y1Gl6fcAY4JMit18GXjCrtqq+5l5IKRUKdAa2AEFa60QAx2Udk2pyVUrtBE4BP2utLVMbMBvjg2svMs0qtQFoYI1SKtJxvl6wTn1NgGRgvqNZ6xOllLeF6itwD7DIcd0StWmtTwAzgDggETintV5jkfr2An2UUrWVUtWB2zFON2pKbRLugFLKB1gKPKO1Pm92PQW01vna2DwOAbo7NvtMp5QaCpzSWkeaXctV9NZadwGGYDS39TG7oCLcgC7Ah1rrzkAG5jdhXcRxeszhwLdm11KUo716BNAYqAd4K6XuN7cqg9Y6GngL+Bn4EdiF0fRriiof7kopd4xg/1JrvcwxOUkpFey4Pxhjzdk0WuuzwAbgNqxRW29guFIqFlgM9FNKfWGR2gDQWic4Lk9htBl3t1B98UC8Y0sMYAlG2FulPjB+FLdrrZMct61S2wDgqNY6WWudBywDelmlPq31p1rrLlrrPkAqcNCs2qp0uCulFPApEK21nlXkrhXAeMf18Rht8RVdW6BSqqbjuhfGh3q/FWrTWv9Dax2itQ7F2HT/RWt9vxVqA1BKeSulfAuuY7TJ7rVKfVrrk8BxpVRLx6T+wD4sUp/DvVxokgHr1BYHhCulqju+v/0xdkZboj6lVB3HZUNgJMZ7aE5tFb3TwUp/wE0YbbO7gZ2Ov9uB2hg7Cw86Lv1NqK0DsMNR217gFcd002u7pM5bubBD1RK1YbRp73L8RQEvWak+Ry2dgG2O/+9yoJZV6sPYgZ8C+BWZZonaHLW8irGisxf4HPCwSn3A7xg/1LuA/ma+dzL8gBBCOKEq3SwjhBDOSsJdCCGckIS7EEI4IQl3IYRwQhLuQgjhhCTchRDCCUm4CyGEE/r/vbakSsrsqxYAAAAASUVORK5CYII=\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "ax = grafik.plot.line(rot = 0)\n", "# 'rot' würde eine Drehung (in Grad) der X-Achsen Beschriftung ermöglichen; in diesem Fall erfolgt keine Drehung" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "\"Einfacher\" (d.h. mit nur einer Codezeile, welche dafür aber etwas länger ist...) geht es mit folgender direkten Methode:" ] }, { "cell_type": "code", "execution_count": 11, "metadata": {}, "outputs": [], "source": [ "grafikneu = pd.DataFrame({'kum. H.' : daten['age'].value_counts(sort = False, normalize = True).cumsum()*100,\n", " 'H.' : daten['age'].value_counts(sort = False, normalize = True)*100})" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Wir erhalten das gleiche Ergebnis wie vorhin." ] }, { "cell_type": "code", "execution_count": 12, "metadata": {}, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "ax = grafikneu.plot.line(rot = 0)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Grafiken können natürlich auch gespeichert werden (mehr dazu in Kapitel 11 bzw. unter untenstehendem Link). Dazu müssen wir die Grafik mit **ax.get_figure()** zuerst einem neuen Objekt (*fig*) zuweisen.\n", "\n", "[savefig()](https://matplotlib.org/3.1.1/api/_as_gen/matplotlib.figure.Figure.html?highlight=savefig#matplotlib.figure.Figure.savefig)" ] }, { "cell_type": "code", "execution_count": 13, "metadata": {}, "outputs": [], "source": [ "fig = ax.get_figure()" ] }, { "cell_type": "code", "execution_count": 14, "metadata": {}, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "execution_count": 14, "metadata": {}, "output_type": "execute_result" } ], "source": [ "fig" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Nun können wir die Grafik mit **savefig()** an einem selbst einzugebenden Pfad speichern (**ax.savefig** hätte nicht funktioniert), z.B. als PNG Datei mit einer Auflösung von 150 dpi - dies kann frei bestimmt werden, je größer der Wert, desto besser die Auflösung/Qualität, desto höher allerdings auch der Speicherplatzbedarf)." ] }, { "cell_type": "code", "execution_count": 15, "metadata": {}, "outputs": [], "source": [ "fig.savefig('C:\\\\Datenfiles\\\\test.png', dpi=150)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Durch *subplots = True* kann erreicht werden, dass die beiden Linien jeweils in eigenen Digrammen angezeigt werden. Die Legendenbeschriftung wird dabei von **Pandas** jeweils dort platziert, wo am ehesten Platz dafür vorhanden ist.\n", "\n", "[pandas.DataFrame.plot.line](https://pandas.pydata.org/pandas-docs/version/0.23/generated/pandas.DataFrame.plot.line.html)" ] }, { "cell_type": "code", "execution_count": 16, "metadata": {}, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "ax = grafik.plot.line(rot = 0, subplots = True)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### 5.2) Weitere deskriptive / explorative Analysen\n", "\n", "Nach den Ausführungen zur Häufigkeitsanalyse geht es nun mit div. Lage- und Streuungsmaßen weiter. Den Anfang macht der arithmetische Mittelwert, den wir mit der Funktion **mean()** erhalten. Wie alle in weiterer Folge vorgestellten Maße lässt sich auch diese Funktion sowohl auf das ganze Dataframe (also alle Variablen) wie auch auf einzelne Spalten anwenden." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "[pandas.DataFrame.mean](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.mean.html#pandas.DataFrame.mean)" ] }, { "cell_type": "code", "execution_count": 17, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "sex 1.435374\n", "age 38.517007\n", "wohnort 2.149660\n", "volksmusik 3.769274\n", "hardrock 2.978458\n", "dtype: float64" ] }, "execution_count": 17, "metadata": {}, "output_type": "execute_result" } ], "source": [ "daten.mean() # Mittelwert für alle Variablen im Dataframe, nicht gerundet" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Wir können uns die Mittelwerte mit der Funktion **round()** auch gerundet - bspw. auf 2 Dezimalstellen - ausgeben lassen.\n", "\n", "[pandas.DataFrame.round](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.round.html)" ] }, { "cell_type": "code", "execution_count": 18, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "sex 1.44\n", "age 38.52\n", "wohnort 2.15\n", "volksmusik 3.77\n", "hardrock 2.98\n", "dtype: float64" ] }, "execution_count": 18, "metadata": {}, "output_type": "execute_result" } ], "source": [ "daten.mean().round(2)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "In obiger Ausgabe sind auch nominale und ordinale Variblen enthalten. Sinn macht, den arithmetischen Mittelwert für metrische Variablen zu berechnen. Wie können wir uns den Mittelwert einer Variable (Spalte) ausgeben lassen, bspw. des Alters? Einfach..." ] }, { "cell_type": "code", "execution_count": 19, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "38.51700680272109" ] }, "execution_count": 19, "metadata": {}, "output_type": "execute_result" } ], "source": [ "daten.age.mean() # oder: daten['age'].mean()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Schöner - bzw. für manche Zwecke der Darstellung in Texten brauchbarer - wäre aber ein gerundeter Wert." ] }, { "cell_type": "code", "execution_count": 20, "metadata": {}, "outputs": [ { "ename": "AttributeError", "evalue": "'float' object has no attribute 'round'", "output_type": "error", "traceback": [ "\u001b[1;31m---------------------------------------------------------------------------\u001b[0m", "\u001b[1;31mAttributeError\u001b[0m Traceback (most recent call last)", "\u001b[1;32m\u001b[0m in \u001b[0;36m\u001b[1;34m\u001b[0m\n\u001b[1;32m----> 1\u001b[1;33m \u001b[0mdaten\u001b[0m\u001b[1;33m.\u001b[0m\u001b[0mage\u001b[0m\u001b[1;33m.\u001b[0m\u001b[0mmean\u001b[0m\u001b[1;33m(\u001b[0m\u001b[1;33m)\u001b[0m\u001b[1;33m.\u001b[0m\u001b[0mround\u001b[0m\u001b[1;33m(\u001b[0m\u001b[1;36m2\u001b[0m\u001b[1;33m)\u001b[0m\u001b[1;33m\u001b[0m\u001b[1;33m\u001b[0m\u001b[0m\n\u001b[0m", "\u001b[1;31mAttributeError\u001b[0m: 'float' object has no attribute 'round'" ] } ], "source": [ "daten.age.mean().round(2)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Offenbar funktioniert die Funktion **round()** für einzelne Variablen nicht; zumindest nicht in dieser Schreibweise. Vgl. dazu auch so manche Diskussionen im Internet, bspw.: [AttributeError: 'float' object has no attribute 'round'](https://stackoverflow.com/questions/48732158/int-object-has-no-attribute-round)\n", "\n", "Möglich ist folgende Schreibweise:" ] }, { "cell_type": "code", "execution_count": 21, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "age 38.52\n", "dtype: float64" ] }, "execution_count": 21, "metadata": {}, "output_type": "execute_result" } ], "source": [ "daten[['age']].mean().round(2)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Allerdings bekommen wird dann nicht nur den Mittelwert, sondern auch den *dtype* ausgegeben. Das ist für Texte nicht zu gebrauchen, vgl. folgendes Beispiel:" ] }, { "cell_type": "code", "execution_count": 22, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Der Mittelwert des Alters beträgt: age 38.52\n", "dtype: float64 Jahre\n" ] } ], "source": [ "print(\"Der Mittelwert des Alters beträgt:\", daten[['age']].mean().round(2), \"Jahre\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Folgende Schreibweise führt zum Erfolg:" ] }, { "cell_type": "code", "execution_count": 23, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "38.52" ] }, "execution_count": 23, "metadata": {}, "output_type": "execute_result" } ], "source": [ "round(daten.age.mean(), 2)" ] }, { "cell_type": "code", "execution_count": 24, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Der Mittelwert des Alters beträgt: 38.52 Jahre\n" ] } ], "source": [ "print(\"Der Mittelwert des Alters beträgt:\", round(daten['age'].mean(), 2), \"Jahre\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Es handelt sich dabei um die **round()** Funktion von Python ('built-in' Funktion [round](https://docs.python.org/3/library/functions.html#round)), nicht um die **round()** Funktion aus Pandas [pandas.DataFrame.round](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.round.html)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Dieses Problem der Rundung beschäftigt uns auch bei der Ausgabe der Standardabweichung, wie wir gleich sehen werden.\n", "\n", "Die Standardabweichung erhalten wir mit **std()**, sie ist in der selben Einheit wie der Mittelwert, nämlich in Jahren. Fügen wir dies gleich mit einer **print()** Funktion ein.\n", "\n", "[pandas.DataFrame.std](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.std.html#pandas.DataFrame.std)" ] }, { "cell_type": "code", "execution_count": 25, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "13.93 Jahre\n" ] } ], "source": [ "print(round(daten.age.std(), 2),\"Jahre\") # Standardabweichung" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Wenn wir schon dabei sind, geben wir gleich den Mittelwert und die Standardabweichung (welche ohnehin zumeist gemeinsam interpretiert werden) in einer leicht lesbaren Form aus." ] }, { "cell_type": "code", "execution_count": 26, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Durchschnittsalter: 38.52 Jahre (Standardabweichung: 13.93 Jahre)\n" ] } ], "source": [ "print(\"Durchschnittsalter:\", round(daten.age.mean(), 2),\n", " \"Jahre (Standardabweichung:\", round(daten.age.std(), 2),\"Jahre)\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Für die Rundung von Mittelwert und Standardabweichung (wenn wir uns die Werte einer einzelnen Variable (Spalte) ausgeben lassen möchten) benötigen wir also die 'built-in' Funktion **round()** von Python, und nicht jene von **Pandas**." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Eine übliche Kennzahl zum Vergleich der Streuung von verschiedenen Variablen ist der Variationskoeffizient. Er berechnet sich aus (Standardabweichung/Mittelwert)*100 (und kann somit als Prozentzahl interpretiert werden).\n", "\n", "Sehen wir uns nachfolgend an, welche der beiden Variablen *volksmusik* und *hardrock* eine breitere Streuung der Antworten aufweist." ] }, { "cell_type": "code", "execution_count": 27, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
sexagewohnortvolksmusikhardrock
015022.6666673.666667
115711.0000003.333333
226632.0000004.333333
\n", "
" ], "text/plain": [ " sex age wohnort volksmusik hardrock\n", "0 1 50 2 2.666667 3.666667\n", "1 1 57 1 1.000000 3.333333\n", "2 2 66 3 2.000000 4.333333" ] }, "execution_count": 27, "metadata": {}, "output_type": "execute_result" } ], "source": [ "daten.head(3)" ] }, { "cell_type": "code", "execution_count": 28, "metadata": {}, "outputs": [], "source": [ "vk_vm, vk_hr = ((daten.volksmusik.std())/(daten.volksmusik.mean())*100,\n", " (daten.hardrock.std())/(daten.hardrock.mean())*100)" ] }, { "cell_type": "code", "execution_count": 29, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Die Variable 'Volksmusik' weist einen Variationskoeffizienten von 29.904393232025267 auf, die Variable 'Hardrock' einen Variationskoeffizienten von 36.047401216687\n" ] } ], "source": [ "print(\"Die Variable 'Volksmusik' weist einen Variationskoeffizienten von\", vk_vm,\n", " \"auf, die Variable 'Hardrock' einen Variationskoeffizienten von\", vk_hr)\n", "\n", "# Man könnte die Variationskoeffizienten auch noch runden (vgl. Python 'built-in' Funktion 'round()',\n", "# aber dann wäre die Formel noch länger und unübersichtlicher" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Die breitere Streuung um den Mittelwert weist also die Variable *hardrock* auf.\n", "\n", "Sehen wir uns in weiterer Folge nun noch andere Lage- und Streuunsmaße an.\n", "\n", "Den Standardfehler des Mittelwerts erhalten wir mit der Funktion **sem()**. Ab hier funktioniert übrigens die **round()** Funktion aus **Pandas** wieder. Diese ist in der Handhabung einfacher und wird daher von mir bevorzugt, wann immer möglich.\n", "\n", "[pandas.DataFrame.sem](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sem.html#pandas.DataFrame.sem)" ] }, { "cell_type": "code", "execution_count": 30, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "0.812" ] }, "execution_count": 30, "metadata": {}, "output_type": "execute_result" } ], "source": [ "daten['age'].sem().round(3) # Standardfehler des Mittelwerts" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Den Median, ein gegenüber Ausreißern robustes Lagemaß (der mittlere Wert einer geordneten Zahlenreihe), erhalten wir mit **median()**. Er liegt in diesem Fall um rund 2,5 Jahre unter dem Mittelwert, was auf eine leicht rechtsschiefe Verteilung des Alters schließen lässt." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "[pandas.DataFrame.median](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.median.html#pandas.DataFrame.median)" ] }, { "cell_type": "code", "execution_count": 31, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "36.0" ] }, "execution_count": 31, "metadata": {}, "output_type": "execute_result" } ], "source": [ "daten['age'].median() # Median" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Testen wir die Schiefe nach dieser Behauptung gleich mit **skew()**.\n", "\n", "[pandas.DataFrame.skew](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.skew.html#pandas.DataFrame.skew)" ] }, { "cell_type": "code", "execution_count": 32, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "0.661" ] }, "execution_count": 32, "metadata": {}, "output_type": "execute_result" } ], "source": [ "daten['age'].skew().round(3) # Schiefe (in diesem Fall leicht rechtsschief)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Der Modalwert (bzw. Modus) ist der häufigste Wert einer Variable; es können auch mehrere Werte gleich häufig vorkommen, dann gibt es mehrere Modalwerte. In diesem Beispiel erhalten wir nach Anwendung der Funktion **mode()** das Ergebnis, dass ein Alter von 25 sowie von 26 Jahren jeweils am häufigsten vorkommt - es gibt 2 Modalwerte.\n", "\n", "[pandas.DataFrame.mode](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.mode.html#pandas.DataFrame.mode)" ] }, { "cell_type": "code", "execution_count": 33, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "0 25\n", "1 26\n", "dtype: int64" ] }, "execution_count": 33, "metadata": {}, "output_type": "execute_result" } ], "source": [ "daten['age'].mode() # Modalwert (2 in diesem Fall)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Überprüfen wir dieses Ergebnis mit bereits bekannter Methode, nämlich der Funktion **value_counts()**, so sehen wir, das tatsächlich 25 Jahre und 26 Jahre jeweils gleich oft am häufigsten vorkommt, nämlich je 17 Mal." ] }, { "cell_type": "code", "execution_count": 34, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "25 17\n", "26 17\n", "23 16\n", "22 14\n", "24 12\n", "55 11\n", "36 11\n", "27 11\n", "50 10\n", "35 10\n", "Name: age, dtype: int64" ] }, "execution_count": 34, "metadata": {}, "output_type": "execute_result" } ], "source": [ "daten['age'].value_counts().sort_values(ascending = False).head(10) # output mit 'head()' eingeschränkt, da sonst zu lang" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Den kleinsten bzw. den größten Wert einer Variable liefern uns **min()** bzw. **max()**.\n", "\n", "[pandas.DataFrame.min](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.min.html#pandas.DataFrame.min)" ] }, { "cell_type": "code", "execution_count": 35, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "15" ] }, "execution_count": 35, "metadata": {}, "output_type": "execute_result" } ], "source": [ "daten['age'].min() # Minimaler Wert" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "[pandas.DataFrame.max](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.max.html#pandas.DataFrame.max)" ] }, { "cell_type": "code", "execution_count": 36, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "92" ] }, "execution_count": 36, "metadata": {}, "output_type": "execute_result" } ], "source": [ "daten['age'].max() # Maximaler Wert" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Mit **quantile()** können wir uns beliebige, also selbst definierbare, Quantile einer Variable ausgeben lassen. In folgenden Beispiel sehen wir uns die Dezile für die 3 metrischen Variablen im Datensatz an. Man beachte: Wird mehr als eine Variable des Dataframes ausgewählt, müssen die Variablen in doppelter eckiger Klammer angeführt werden!\n", "\n", "[pandas.DataFrame.quantile](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.quantile.html#pandas.DataFrame.quantile)\n", "\n", "[Spezielle Quantile](https://de.wikipedia.org/wiki/Empirisches_Quantil#Spezielle_Quantile)" ] }, { "cell_type": "code", "execution_count": 37, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
agevolksmusikhardrock
0.015.01.0000001.000000
0.123.02.0000001.333333
0.225.03.0000002.000000
0.327.03.3333332.333333
0.431.03.6666672.666667
0.536.04.0000003.000000
0.641.04.3333333.333333
0.748.04.6666673.666667
0.851.45.0000004.000000
0.957.05.0000004.333333
1.092.05.0000005.000000
\n", "
" ], "text/plain": [ " age volksmusik hardrock\n", "0.0 15.0 1.000000 1.000000\n", "0.1 23.0 2.000000 1.333333\n", "0.2 25.0 3.000000 2.000000\n", "0.3 27.0 3.333333 2.333333\n", "0.4 31.0 3.666667 2.666667\n", "0.5 36.0 4.000000 3.000000\n", "0.6 41.0 4.333333 3.333333\n", "0.7 48.0 4.666667 3.666667\n", "0.8 51.4 5.000000 4.000000\n", "0.9 57.0 5.000000 4.333333\n", "1.0 92.0 5.000000 5.000000" ] }, "execution_count": 37, "metadata": {}, "output_type": "execute_result" } ], "source": [ "daten[['age', 'volksmusik', 'hardrock']].quantile([0, .1, .2, .3, .4, .5, .6, .7, .8, .9, 1]) # Quantile, beliebige einstellbar\n", "# Durch die Angabe von '0' und '1' erhält man den Minimal- bzw. Maximalwert" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Die Funktion **describe()** schließlich liefert uns auf einen Schlag gleich mehrere gebräuchliche Kennzahlen, entweder für alle Variablen im Datensatz oder für ausgewählte Variablen.\n", "\n", "[pandas.DataFrame.describe](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.describe.html#pandas.DataFrame.describe)" ] }, { "cell_type": "code", "execution_count": 38, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
sexagewohnortvolksmusikhardrock
count294.000000294.000000294.00000294.000000294.000000
mean1.43537438.5170072.149663.7692742.978458
std0.49665113.9300320.881001.1271791.073657
min1.00000015.0000001.000001.0000001.000000
25%1.00000026.0000001.000003.0000002.333333
50%1.00000036.0000002.000004.0000003.000000
75%2.00000050.0000003.000004.6666673.666667
max2.00000092.0000003.000005.0000005.000000
\n", "
" ], "text/plain": [ " sex age wohnort volksmusik hardrock\n", "count 294.000000 294.000000 294.00000 294.000000 294.000000\n", "mean 1.435374 38.517007 2.14966 3.769274 2.978458\n", "std 0.496651 13.930032 0.88100 1.127179 1.073657\n", "min 1.000000 15.000000 1.00000 1.000000 1.000000\n", "25% 1.000000 26.000000 1.00000 3.000000 2.333333\n", "50% 1.000000 36.000000 2.00000 4.000000 3.000000\n", "75% 2.000000 50.000000 3.00000 4.666667 3.666667\n", "max 2.000000 92.000000 3.00000 5.000000 5.000000" ] }, "execution_count": 38, "metadata": {}, "output_type": "execute_result" } ], "source": [ "daten.describe()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Solche tabellarischen Übersichten können wir uns auch gerundet ausgeben lassen; das ist ev. übersichtlicher." ] }, { "cell_type": "code", "execution_count": 41, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
sexagewohnortvolksmusikhardrock
count294.00294.00294.00294.00294.00
mean1.4438.522.153.772.98
std0.5013.930.881.131.07
min1.0015.001.001.001.00
25%1.0026.001.003.002.33
50%1.0036.002.004.003.00
75%2.0050.003.004.673.67
max2.0092.003.005.005.00
\n", "
" ], "text/plain": [ " sex age wohnort volksmusik hardrock\n", "count 294.00 294.00 294.00 294.00 294.00\n", "mean 1.44 38.52 2.15 3.77 2.98\n", "std 0.50 13.93 0.88 1.13 1.07\n", "min 1.00 15.00 1.00 1.00 1.00\n", "25% 1.00 26.00 1.00 3.00 2.33\n", "50% 1.00 36.00 2.00 4.00 3.00\n", "75% 2.00 50.00 3.00 4.67 3.67\n", "max 2.00 92.00 3.00 5.00 5.00" ] }, "execution_count": 41, "metadata": {}, "output_type": "execute_result" } ], "source": [ "daten.describe().round(2)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Im folgenden Beispiel wählen wir nur zwei metrische Variablen aus. Ausserdem wollen wir nicht alle standardmäßig ausgegebenen Kennzahlen, sondern nur die Anzahl (*count*), den Mittelwert (*mean*), die Standardabweichung (*std*) sowie den Median (*50%*). Diese Auswahl übergeben wir mit **loc** (wieder in doppelter eckiger Klammer, da wir mehrere Zeilen auswählen).\n", "\n", "[pandas.DataFrame.loc](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.loc.html)" ] }, { "cell_type": "code", "execution_count": 42, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
agehardrock
count294.000000294.000000
mean38.5170072.978458
std13.9300321.073657
50%36.0000003.000000
\n", "
" ], "text/plain": [ " age hardrock\n", "count 294.000000 294.000000\n", "mean 38.517007 2.978458\n", "std 13.930032 1.073657\n", "50% 36.000000 3.000000" ] }, "execution_count": 42, "metadata": {}, "output_type": "execute_result" } ], "source": [ "daten[['age', 'hardrock']].describe().loc[['count', 'mean', 'std', '50%']] # 50% Quantil = Median" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Die Art der Darstellung kann mit **unstack()** auch geändert werden. Die Variablen sind nun nicht mehr horizontal nebeneinander sondern vertikal untereinander gelistet." ] }, { "cell_type": "code", "execution_count": 43, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "sex mean 1.44\n", " std 0.50\n", "age mean 38.52\n", " std 13.93\n", "wohnort mean 2.15\n", " std 0.88\n", "volksmusik mean 3.77\n", " std 1.13\n", "hardrock mean 2.98\n", " std 1.07\n", "dtype: float64" ] }, "execution_count": 43, "metadata": {}, "output_type": "execute_result" } ], "source": [ "daten.describe().loc[['mean', 'std']].unstack().round(2)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "##### M-Estimator nach Huber\n", "\n", "Bei den M-Schätzern handelt es sich um eine etwas fortgeschrittenere Methode; da sie aber gut zum Thema dieses Kapitels passen sei hier kurz gezeigt, wie man den M-Schätzer nach Huber erhalten kann.\n", "\n", "M-Schätzer sind im Vergleich zum arithmetischen Mittelwert robuster gegenüber Ausreißern, weil sie diese bei Berechnung des Mittelwerts geringer gewichten. Ein bekannter M-Schätzer ist jener von Huber, bei dem man einen Bereich definieren kann, innerhalb dessen sämtliche Werte voll gewichtet werden. Außerhalb dieses Bereichs werden Werte mit zunehmender Entfernung immer geringer gewichtet (im Gegensatz zu manchen anderen M-Schätzern aber nie mit 0).\n", "\n", "Die Berechnung von M-Schätzern ist mit **Pandas** nicht möglich, wir greifen dazu auf eine Funktion des Pakets **Statsmodels** zurück.\n", "\n", "[statsmodels.robust.scale.Huber](https://www.statsmodels.org/stable/generated/statsmodels.robust.scale.Huber.html#statsmodels.robust.scale.Huber)\n", "\n", "[M-Schätzer](https://de.wikipedia.org/wiki/M-Sch%C3%A4tzer)\n", "\n", "[Weight Functions](https://www.statsmodels.org/stable/rlm_techn1.html)\n", "\n", "\n", "Für (einigermaßen) normalverteilte Daten zeigt folgende Tabelle eine Übersicht gebräuchlicher Tuningkonstanten k (bzw. c auf Englisch) sowie den Bereich der Daten, der voll gewichtet wird. Kleinere Tuningkonstanten gewichten somit mehr Daten geringer als größere Tuningkonstanten. In der dritten Spalten stehen die üblichen Bezeichnungen (Hubers Proposal 2).\n", "\n", "|Tuningkonstante c|voll gewichteter Bereich|Bezeichnung|\n", "|-|-|-|\n", "|1.960|~95%|H19|\n", "|1.645|~90%|H16|\n", "|1.282|~80%|H12|\n", "|0.842|~60%|H8|" ] }, { "cell_type": "code", "execution_count": 44, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "(array(37.68428874), array(15.33869259))" ] }, "execution_count": 44, "metadata": {}, "output_type": "execute_result" } ], "source": [ "import statsmodels.api as sm\n", "\n", "sm.robust.scale.Huber(c = 1.2)(daten['age']) # c = die Tuningkonstante, vgl. obige Tabelle" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Die Ausgabe oben zeigt als erste Zahl den geschätzten Mittelwert nach Huber und als zweite Zahl die dazugehörige Streuung. Diese beiden Werte dienen als robuste Alternative zum arithmetischen Mittelwert und dessen Standardabweichung. Die Grafik unten dient nur dazu, die div. Mittelwerte (Mittelwert, Median, M-Schätzer) und deren Streuungen zu verorten." ] }, { "cell_type": "code", "execution_count": 45, "metadata": {}, "outputs": [ { "data": { "image/png": "iVBORw0KGgoAAAANSUhEUgAAAX4AAAD4CAYAAADrRI2NAAAAOXRFWHRTb2Z0d2FyZQBNYXRwbG90bGliIHZlcnNpb24zLjMuNCwgaHR0cHM6Ly9tYXRwbG90bGliLm9yZy8QVMy6AAAACXBIWXMAAAsTAAALEwEAmpwYAAARyElEQVR4nO3de7BdZX3G8e8joFzUQiTBlItH2wzKMHLxSLVYRok4KBbQDhandjIONbWlrbTO2GhbL390Js60Vjt1rBG08VoBUSi2VIxFa8eCJwIaDEwcjYhEckQtig4I/PrHXhkOIcnZuay99+H9fmbO7LXes1f2Mwfy5D3vXmvtVBWSpHY8btwBJEmjZfFLUmMsfklqjMUvSY2x+CWpMfuPO8AwDj/88Jqamhp3DElaUNavX//Dqlq8/fiCKP6pqSlmZmbGHUOSFpQk393RuEs9ktQYi1+SGmPxS1JjLH5JaozFL0mNsfglqTEWvyQ1xuKXpMZY/JLUmAVx5e5CNbXqs3t87ObVZ+3DJJL0MGf8ktQYi1+SGtNr8Sc5NMnlSW5NsjHJ85MsSnJtkk3d42F9ZpAkPVLfM/73ANdU1TOBE4CNwCpgXVUtA9Z1+5KkEemt+JM8GTgNuASgqu6vqp8A5wBru6etBc7tK4Mk6dH6nPE/A5gFPpTkxiQXJzkEOKKqtgB0j0t2dHCSlUlmkszMzs72GFOS2tJn8e8PnAy8r6pOAu5lN5Z1qmpNVU1X1fTixY/6ABlJ0h7qs/jvAO6oquu7/csZ/ENwV5KlAN3j1h4zSJK201vxV9UPgO8lObYbWg58E7gKWNGNrQCu7CuDJOnR+r5y90+BjyV5PPBt4LUM/rG5NMkFwO3AeT1nkCTN0WvxV9VNwPQOvrW8z9eVJO2cV+5KUmMsfklqjMUvSY2x+CWpMRa/JDXG4pekxlj8ktQYi1+SGmPxS1JjLH5JaozFL0mNsfglqTEWvyQ1xuKXpMZY/JLUGItfkhpj8UtSYyx+SWqMxS9JjbH4JakxFr8kNcbil6TGWPyS1BiLX5IaY/FLUmP27/MPT7IZ+CnwIPBAVU0nWQR8EpgCNgOvqqof95lDkvSwUcz4X1RVJ1bVdLe/ClhXVcuAdd2+JGlExrHUcw6wttteC5w7hgyS1Ky+i7+AzyVZn2RlN3ZEVW0B6B6X7OjAJCuTzCSZmZ2d7TmmJLWj1zV+4NSqujPJEuDaJLcOe2BVrQHWAExPT1dfASWpNb3O+Kvqzu5xK/Bp4BTgriRLAbrHrX1mkCQ9Um/Fn+SQJE/atg28BNgAXAWs6J62AriyrwySpEfrc6nnCODTSba9zser6pokXwUuTXIBcDtwXo8ZJEnb6a34q+rbwAk7GL8bWN7X60qSds0rdyWpMRa/JDXG4pekxlj8ktQYi1+SGmPxS1JjLH5JaozFL0mNsfglqTEWvyQ1xuKXpMZY/JLUGItfkhpj8UtSYyx+SWqMxS9JjbH4JakxFr8kNcbil6TGWPyS1BiLX5IaY/FLUmMsfklqjMUvSY3pvfiT7JfkxiRXd/uLklybZFP3eFjfGSRJDxvFjP8NwMY5+6uAdVW1DFjX7UuSRqTX4k9yFHAWcPGc4XOAtd32WuDcPjNIkh6p7xn/u4E3AQ/NGTuiqrYAdI9LdnRgkpVJZpLMzM7O9hxTktrRW/EneTmwtarW78nxVbWmqqaranrx4sX7OJ0ktWv/YZ6U5Piq2rCbf/apwNlJXgYcCDw5yUeBu5IsraotSZYCW3fzz5Uk7YVhZ/z/nOSGJH+c5NBhDqiqN1fVUVU1BZwPfKGqXgNcBazonrYCuHI3M0uS9sJQxV9VLwB+DzgamEny8SRn7OFrrgbOSLIJOKPblySNyFBLPQBVtSnJXwMzwD8CJyUJ8JaqumKeY68Druu27waW72lgSdLeGWrGn+TZSf6Bwfn4pwO/XVXP6rb/ocd8kqR9bNgZ/z8BH2Awu//FtsGqurP7LUCStEAMW/wvA35RVQ8CJHkccGBV/byqPtJbOknSPjfsWT2fBw6as39wNyZJWmCGnfEfWFU/27ZTVT9LcnBPmTRGU6s+u8fHbl591j5MIqkvw874701y8radJM8BfrGL50uSJtSwM/6LgMuS3NntLwV+t5dEkqReDVX8VfXVJM8EjgUC3FpVv+w1mSSpF0NfwAU8F5jqjjkpCVX14V5SSZJ6M+xN2j4C/BpwE/BgN1yAxS9JC8ywM/5p4Liqqj7DSJL6N+xZPRuAp/YZRJI0GsPO+A8HvpnkBuC+bYNVdXYvqSRJvRm2+N/eZwhJ0ugMezrnF5M8DVhWVZ/vrtrdr99okqQ+DHtb5tcBlwPv74aOBD7TUyZJUo+GfXP3QgafoXsPDD6UBVjSVyhJUn+GLf77qur+bTtJ9mdwHr8kaYEZtvi/mOQtwEHdZ+1eBvxbf7EkSX0ZtvhXAbPAN4A/BP4d8JO3JGkBGvasnocYfPTiB/qNI0nq27D36vkOO1jTr6pn7PNEkqRe7c69erY5EDgPWLTv40iS+jbUGn9V3T3n6/tV9W7g9H6jSZL6MOxSz8lzdh/H4DeAJ81zzIHAl4AndK9zeVW9Lcki4JMM7u2/GXhVVf14t5M/xvnZt5L6MuxSz9/P2X6ArrDnOeY+4PTug9kPAL6c5D+AVwLrqmp1klUMzhj6y92LLUnaU8Oe1fOi3f2Du3v3/6zbPaD7KuAc4IXd+FrgOix+SRqZYZd6/mJX36+qd+3kuP2A9cCvA++tquuTHFFVW7rjtiTx1g+SNELDXsA1DfwRg5uzHQm8HjiOwTr/Ttf6q+rBqjoROAo4JcnxwwZLsjLJTJKZ2dnZYQ+TJM1jdz6I5eSq+ilAkrcDl1XVHwxzcFX9JMl1wJnAXUmWdrP9pcDWnRyzBlgDMD097X2BJGkfGXbGfwxw/5z9+xmclbNTSRYnObTbPgh4MXArcBWwonvaCuDK4eNKkvbWsDP+jwA3JPk0gzdoXwF8eJ5jlgJru3X+xwGXVtXVSb4CXJrkAuB2BheDSWPjqbNqzbBn9fxtdyrmb3VDr62qG+c55uvASTsYvxtYvrtBJUn7xrBLPQAHA/dU1XuAO5I8vadMkqQeDfvRi29jcK79m7uhA4CP9hVKktSfYWf8rwDOBu4FqKo7meeWDZKkyTRs8d/fXYlbAEkO6S+SJKlPwxb/pUneDxya5HXA5/FDWSRpQZr3rJ4kYXA3zWcC9wDHAm+tqmt7ziZJ6sG8xV9VleQzVfUcwLKXpAVu2KWe/03y3F6TSJJGYtgrd18EvD7JZgZn9oTBLwPP7iuYJKkfuyz+JMdU1e3AS0eUR5LUs/lm/J9hcFfO7yb5VFX9zggySZJ6NN8af+ZsP6PPIJKk0Ziv+Gsn25KkBWq+pZ4TktzDYOZ/ULcND7+5++Re00mS9rldFn9V7TeqIJKk0did2zJLkh4DLH5JaozFL0mNsfglqTEWvyQ1xuKXpMYMe5O2Jk2t+uy4I0jSPueMX5IaY/FLUmMsfklqTG9r/EmOBj4MPBV4CFhTVe9JsojBZ/hOAZuBV1XVj/vKIfVpb98H2rz6rH2URBpenzP+B4A3VtWzgOcBFyY5DlgFrKuqZcC6bl+SNCK9FX9Vbamqr3XbPwU2AkcC5wBru6etBc7tK4Mk6dFGcjpnkingJOB64Iiq2gKDfxySLNnJMSuBlQDHHHPMKGJqAfPUW2l4vb+5m+SJwKeAi6rqnvmev01Vramq6aqaXrx4cX8BJakxvRZ/kgMYlP7HquqKbviuJEu77y8FtvaZQZL0SL0Vf5IAlwAbq+pdc751FbCi214BXNlXBknSo/W5xn8q8PvAN5Lc1I29BVgNXJrkAuB24LweM0iSttNb8VfVlxl8Nu+OLO/rdSVJu+aVu5LUGO/OqYnhKZnSaDjjl6TGWPyS1BiLX5IaY/FLUmMsfklqjMUvSY2x+CWpMRa/JDXG4pekxlj8ktQYi1+SGmPxS1JjvEmbNEZ7c2O6zavP2odJ1BJn/JLUGItfkhrjUs9j0Ljua+/99KWFwRm/JDXG4pekxlj8ktQYi1+SGmPxS1JjLH5JakxvxZ/kg0m2JtkwZ2xRkmuTbOoeD+vr9SVJO9bnjP9fgDO3G1sFrKuqZcC6bl+SNEK9FX9VfQn40XbD5wBru+21wLl9vb4kacdGvcZ/RFVtAegel+zsiUlWJplJMjM7OzuygJL0WDexb+5W1Zqqmq6q6cWLF487jiQ9Zoy6+O9KshSge9w64teXpOaNuvivAlZ02yuAK0f8+pLUvD5P5/wE8BXg2CR3JLkAWA2ckWQTcEa3L0kaod5uy1xVr97Jt5b39ZqSpPlN7Ju7kqR+WPyS1BiLX5IaY/FLUmMsfklqjMUvSY2x+CWpMRa/JDXG4pekxlj8ktQYi1+SGmPxS1JjLH5JaozFL0mN6e22zJL6NbXqs3t87ObVZ+3DJFponPFLUmMsfklqjMUvSY1xjV/Sbtmb9xb2lu9N7BvO+CWpMRa/JDXG4pekxlj8ktQYi1+SGpOqGneGeU1PT9fMzMweHTvOMxAkTY5xnRG0tx20N7mTrK+q6e3HxzLjT3JmktuSfCvJqnFkkKRWjbz4k+wHvBd4KXAc8Ookx406hyS1ahwz/lOAb1XVt6vqfuBfgXPGkEOSmjSOK3ePBL43Z/8O4De2f1KSlcDKbvdnSW4bQbZhHA78cNwhdmKSs4H59sYkZ4PJznc48MO8c9wxdmqXP7u9zP20HQ2Oo/izg7FHvcNcVWuANf3H2T1JZnb0ZskkmORsYL69McnZYLLzTXI2GE++cSz13AEcPWf/KODOMeSQpCaNo/i/CixL8vQkjwfOB64aQw5JatLIl3qq6oEkfwL8J7Af8MGqumXUOfbCxC0/zTHJ2cB8e2OSs8Fk55vkbDCGfAviAi5J0r7jLRskqTEWvyQ1xuLfiSRHJ/mvJBuT3JLkDd34oiTXJtnUPR42pnwHJrkhyc1dvndMUr4uy35Jbkxy9QRm25zkG0luSjIzSfmSHJrk8iS3dv//PX+Csh3b/cy2fd2T5KIJyvfn3d+HDUk+0f09mYhsXb43dNluSXJRNzbyfBb/zj0AvLGqngU8D7iwu7XEKmBdVS0D1nX743AfcHpVnQCcCJyZ5HkTlA/gDcDGOfuTlA3gRVV14pxzqCcl33uAa6rqmcAJDH6GE5Gtqm7rfmYnAs8Bfg58ehLyJTkS+DNguqqOZ3DyyPmTkK3LdzzwOgZ3LzgBeHmSZWPJV1V+DfEFXAmcAdwGLO3GlgK3TUC2g4GvMbgCeiLyMbg+Yx1wOnB1NzYR2brX3wwcvt3Y2PMBTwa+Q3fixSRl20HWlwD/Myn5ePiuAIsYnLF4dZdx7Nm61z4PuHjO/t8AbxpHPmf8Q0gyBZwEXA8cUVVbALrHJWPMtV+Sm4CtwLVVNUn53s3gf+qH5oxNSjYYXC3+uSTru9uDwGTkewYwC3yoWya7OMkhE5Jte+cDn+i2x56vqr4P/B1wO7AF+L+q+twkZOtsAE5L8pQkBwMvY3Ax68jzWfzzSPJE4FPARVV1z7jzzFVVD9bgV+6jgFO6XyXHLsnLga1VtX7cWXbh1Ko6mcFdYi9Mctq4A3X2B04G3ldVJwH3Mv4lsUfpLr48G7hs3Fm26dbGzwGeDvwqcEiS14w31cOqaiPwTuBa4BrgZgZLyiNn8e9CkgMYlP7HquqKbviuJEu77y9lMNseq6r6CXAdcCaTke9U4OwkmxncffX0JB+dkGwAVNWd3eNWBmvUp0xIvjuAO7rf3gAuZ/APwSRkm+ulwNeq6q5ufxLyvRj4TlXNVtUvgSuA35yQbABU1SVVdXJVnQb8CNg0jnwW/04kCXAJsLGq3jXnW1cBK7rtFQzW/kcuyeIkh3bbBzH4n/7WSchXVW+uqqOqaorBcsAXquo1k5ANIMkhSZ60bZvBOvCGSchXVT8Avpfk2G5oOfDNSci2nVfz8DIPTEa+24HnJTm4+/u7nMEb45OQDYAkS7rHY4BXMvgZjj7fON7kWAhfwAsYrAN/Hbip+3oZ8BQGb1pu6h4XjSnfs4Ebu3wbgLd24xORb07OF/Lwm7sTkY3BOvrN3dctwF9NWL4TgZnuv+1ngMMmJVuX72DgbuBX5oxNRD7gHQwmQBuAjwBPmJRsXb7/ZvAP+c3A8nH97LxlgyQ1xqUeSWqMxS9JjbH4JakxFr8kNcbil6TGWPyS1BiLX5Ia8/92A5lMP5WB3AAAAABJRU5ErkJggg==\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "ax = daten.age.plot.hist(bins = 20) # Histogramm mit (max.) 20 Balken" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Wenn wir schon bei robusten Lage- und Streuungsmaßen sind, rufen wir uns nochmal den Median in Erinnerung. Auch dieser ist ein robustes Lagemaß." ] }, { "cell_type": "code", "execution_count": 46, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "36.0" ] }, "execution_count": 46, "metadata": {}, "output_type": "execute_result" } ], "source": [ "daten.age.median() " ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Dazu liegt mit der 'median absolute deviation' auch ein entsprechendes Streuungsmaß vor, welches auch mit der Funktion **mad()** ausgegben werden kann.\n", "\n", "[pandas.DataFrame.mad](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.mad.html)" ] }, { "cell_type": "code", "execution_count": 52, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "11.80832060715442" ] }, "execution_count": 52, "metadata": {}, "output_type": "execute_result" } ], "source": [ "daten.age.mad()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Analog zum Variationskoeffizienten, welcher den arithmetischen Mittelwert und die dazugehörige Standardabweichung verwendet, kann man als robustes Äquivalent auch (median absolute deviation)/(median)*100 berechnen." ] }, { "cell_type": "code", "execution_count": 48, "metadata": {}, "outputs": [], "source": [ "robuster_vk = ((daten.age.mad())/(daten.age.median()))*100" ] }, { "cell_type": "code", "execution_count": 49, "metadata": {}, "outputs": [], "source": [ "normaler_vk = ((daten.age.std())/(daten.age.mean()))*100" ] }, { "cell_type": "code", "execution_count": 56, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Robuster Variationskoeffizient: 32.8 % vs. normaler Variationskoeffizient: 36.17 %\n" ] } ], "source": [ "print(\"Robuster Variationskoeffizient:\", round(robuster_vk, 2), \"% vs. normaler Variationskoeffizient:\", round(normaler_vk, 2), \"%\")" ] } ], "metadata": { "kernelspec": { "display_name": "Python 3", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.7.9" } }, "nbformat": 4, "nbformat_minor": 2 }