"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"\n",
"# 12) Mehrfachantworten auswerten\n",
"\n",
"Dafür gibt es (noch, meines Wissens nach) keine fertige Funktion in **Pandas** (oder sonst wo), im Folgenden daher eine Schritt für Schritt Lösung, welche im Sinne der Nachvollziehbarkeit durchaus etwas länger ist als für die Erreichung des finalen Ziels nötig.\n",
"\n",
"Importieren wird zuerst wieder **Pandas** sowie einen neuen Datensatz, der (fiktive) Daten zur Bekanntheit von 4 Marken enhält. Solche Mehrfachantworten sind typischerweise mit 0/1 kodiert, wobei *1* bsw. für 'kenne die Marke' steht und *0* für 'kenne die Marke nicht'."
]
},
{
"cell_type": "code",
"execution_count": 9,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"
\n",
"\n",
"
\n",
" \n",
"
\n",
"
\n",
"
nike
\n",
"
head
\n",
"
boss
\n",
"
lacoste
\n",
"
\n",
" \n",
" \n",
"
\n",
"
0
\n",
"
1.0
\n",
"
0
\n",
"
0
\n",
"
0
\n",
"
\n",
"
\n",
"
1
\n",
"
1.0
\n",
"
1
\n",
"
0
\n",
"
0
\n",
"
\n",
"
\n",
"
2
\n",
"
1.0
\n",
"
1
\n",
"
1
\n",
"
1
\n",
"
\n",
"
\n",
"
3
\n",
"
0.0
\n",
"
1
\n",
"
0
\n",
"
1
\n",
"
\n",
"
\n",
"
4
\n",
"
0.0
\n",
"
0
\n",
"
0
\n",
"
0
\n",
"
\n",
"
\n",
"
5
\n",
"
0.0
\n",
"
0
\n",
"
0
\n",
"
1
\n",
"
\n",
"
\n",
"
6
\n",
"
NaN
\n",
"
1
\n",
"
0
\n",
"
0
\n",
"
\n",
"
\n",
"
7
\n",
"
0.0
\n",
"
0
\n",
"
0
\n",
"
0
\n",
"
\n",
"
\n",
"
8
\n",
"
1.0
\n",
"
1
\n",
"
1
\n",
"
1
\n",
"
\n",
" \n",
"
\n",
"
"
],
"text/plain": [
" nike head boss lacoste\n",
"0 1.0 0 0 0\n",
"1 1.0 1 0 0\n",
"2 1.0 1 1 1\n",
"3 0.0 1 0 1\n",
"4 0.0 0 0 0\n",
"5 0.0 0 0 1\n",
"6 NaN 1 0 0\n",
"7 0.0 0 0 0\n",
"8 1.0 1 1 1"
]
},
"execution_count": 9,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"import pandas as pd\n",
"\n",
"daten = pd.read_csv(\"C:\\\\Datenfiles\\\\mehrfachantworten.csv\")\n",
"\n",
"daten"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Wie in obiger Tabelle zu sehen, enthält unser Datenfile nur die Werte *1*, *0* und *NaN*. Für die Auswertung spielen *0* und *NaN* keine Rolle, uns interessiert nur der Wert *1* (man kennt die Marke).\n",
"\n",
"Dieser kurze Datensatz ist leicht visuell überprüfbar. Längere Datensätze müsste man mit anderen Methoden prüfen, schließlich will man wissen, welche Werte der Datensatz enthält."
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### 12.1) Überprüfung des Datensatzes\n",
"\n",
"Bspw. kann man eine einfache Häufikgeitsauszählung der 4 Variablen durchführen um zu sehen, welche Werte in den einzelnen Variablen enthalten sind. Um die Werte jeder einzelnen unserer 4 Variablen angezeigt zu bekommen, stellen wir folgende **for**-Schleife auf. Damit wird **value_counts()** für jede der 4 Variablen ausgeführt."
]
},
{
"cell_type": "code",
"execution_count": 10,
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"0.0 4\n",
"1.0 4\n",
"NaN 1\n",
"Name: nike, dtype: int64 \n",
"\n",
"1 5\n",
"0 4\n",
"Name: head, dtype: int64 \n",
"\n",
"0 7\n",
"1 2\n",
"Name: boss, dtype: int64 \n",
"\n",
"0 5\n",
"1 4\n",
"Name: lacoste, dtype: int64 \n",
"\n"
]
}
],
"source": [
"for col in daten.columns:\n",
" print(daten[col].value_counts(dropna = False),'\\n')\n",
" \n",
"# 'dropna = False', damit auch allfällige 'NaN' ausgegeben werden.\n",
"# '\\n' für eine Leerzeile nach jeder Variable aus Gründen der Übersichtlichkeit"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Wie zu sehen (linke Spalte: Werte, rechte Spalte: Häufigkeit des Vorkommens dieser Werte), enthält jede der 4 Variablen die Werte *0* und *1*, sowie die Variable *nike* zusätzlich noch einmal *NaN*. Wir können mit diesen Daten also weiterarbeiten."
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### 12.2) Summe der Nennungen pro Variable\n",
"\n",
"Wir berechnen nun die Summe der Nennungen pro Variable, d.h. alle *1*er werden aufsummiert, *0* und *NaN* spielen keine Rolle für die Summenbildung. ACHTUNG: Die einfache Summenbildung, die hier angewandt wird, funktioniert natürlich nur, wenn nur *1*, *0* oder *NaN* vorkommen und uns die *1* Nennungen interessieren. Würden auch andere Zahlen (z.B. *2*, *3* usw.) vorkommen, funktioniert dies nicht! Typischerweise werden Mehrfachantworten in Umfragen aber mit 0/1 kodiert. Sind unterschiedliche Zahlenwerte vorhanden oder soll ein anderer Wert als *1* gezählt werden, helfen die Ausführungen in Kapitel 9 weiter.\n",
"\n",
"[pandas.DataFrame.sum](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sum.html)\n",
"\n",
"[Pandas: sum DataFrame rows for given columns](https://stackoverflow.com/questions/25748683/pandas-sum-dataframe-rows-for-given-columns)\n"
]
},
{
"cell_type": "code",
"execution_count": 11,
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"boss 2.0\n",
"nike 4.0\n",
"lacoste 4.0\n",
"head 5.0\n",
"dtype: float64"
]
},
"execution_count": 11,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"summe = daten[['nike', 'head', 'boss', 'lacoste']].sum(axis = 0).sort_values(ascending = True)\n",
"\n",
"# 'ascending=True' zeigt es zwar in der Tabelle aufsteigend an, aber im Balkendiagramm absteigend (wie es sein soll)!\n",
"\n",
"summe"
]
},
{
"cell_type": "code",
"execution_count": 12,
"metadata": {},
"outputs": [
{
"data": {
"image/png": "iVBORw0KGgoAAAANSUhEUgAAAYcAAAD4CAYAAAAHHSreAAAAOXRFWHRTb2Z0d2FyZQBNYXRwbG90bGliIHZlcnNpb24zLjMuNCwgaHR0cHM6Ly9tYXRwbG90bGliLm9yZy8QVMy6AAAACXBIWXMAAAsTAAALEwEAmpwYAAANV0lEQVR4nO3dfYxldX3H8fenu8DCokthN2SzPExDiS2wFeqU1tKQ+FAE1wpCKRpKiRpWm0pB05htbLZVWrMpxJhWjS6WAiqlVdpAuw0gTyK0PMyyzyLWlGllNSGrZYEStdJv/5hjO93fILty7z07M+9XMplzzz333u+B7LznnPswqSokSZruJ/oeQJK0/zEOkqSGcZAkNYyDJKlhHCRJjYV9DzAoS5curbGxsb7HkKRZZePGjbuqatme6+dMHMbGxpiYmOh7DEmaVZL820zrPa0kSWoYB0lSwzhIkhrGQZLUMA6SpIZxkCQ1jIMkqWEcJEkN4yBJahgHSVLDOEiSGsZBktSYMx+8t23nbsbWbOh7DEkaqcl1q4Zyvx45SJIaxkGS1DAOkqSGcZAkNYyDJKlhHCRJDeMgSWoYB0lSwzhIkhoDjUOSsSTbB3mf3f1OJlk66PuVJM3MIwdJUmMYcViQ5OokO5LcnuTgJMcluTXJxiRfTvIzAEl+LcmDSTYluSPJkd36I7rbbkryKSBDmFOS9AKGEYfjgY9X1YnAU8B5wHrg0qp6FfB7wCe6be8DfqmqTgFuBN7frf9D4L5u/S3AMUOYU5L0AobxqayPV9XmbnkjMAb8MvD55H8PAA7qvh8F/HWS5cCBwOPd+tOBcwGqakOS/5jpgZKsBlYDLHj5soHuhCTNZ8M4cvjetOXngcOBp6rq5GlfP9td/+fAx6pqJfAuYNG029aLPVBVra+q8aoaX3DIkkHNL0nz3iiekH4aeDzJ+QCZ8sruuiXAzm754mm3uRe4sNv+LOAnRzCnJKkzqlcrXQi8M8kWYAdwdrf+j5g63fRlYNe07T8InJ7kEeAM4N9HNKckiQE/51BVk8BJ0y5fNe3qM2fY/mbg5hnWf5upKPzQewc3pSTpxfg+B0lSwzhIkhrGQZLUMA6SpIZxkCQ1jIMkqWEcJEkN4yBJagzjg/d6sXLFEibWrep7DEmaEzxykCQ1jIMkqWEcJEkN4yBJahgHSVLDOEiSGsZBktQwDpKkhnGQJDWMgySpYRwkSQ3jIElqGAdJUsM4SJIaxkGS1DAOkqSGcZAkNYyDJKlhHCRJDeMgSWoYB0lSwzhIkhrGQZLUMA6SpIZxkCQ1jIMkqbGw7wEGZdvO3Yyt2dD3GJJGbHLdqr5HmJM8cpAkNYyDJKlhHCRJDeMgSWoYB0lSwzhIkhrGQZLUMA6SpIZxkCQ1jIMkqfGicUjy7LCHSHJykjcO+3EkSXtnfzlyOBkwDpK0n9jrOCQ5NMmdSR5Jsi3J2dOu+60kW5NsSfKZbt2x3fZbu+/HdOvPT7K92/beJAcCHwIuSLI5yQVJFie5JsnDSTZNfyxJ0vDty6eyfhd4S1U9nWQp8ECSW4ATgA8Ap1XVriSHd9t/DLi+qq5L8g7gz4BzgLXAG6pqZ5LDqur7SdYC41X1HoAkHwbuqqp3JDkMeCjJHVX1n9MHSrIaWA2w4OXLfrz/ApKkxr6cVgrw4SRbgTuAFcCRwGuBL1TVLoCq+k63/auBG7rlzwC/0i3fD1yb5BJgwQs81hnAmiSbgXuARcAxe25UVeuraryqxhccsmQfdkWS9KPsy5HDhcAy4FVV9V9JJpn6oR2g9uL2BVBV707yi8AqYHOSk2fYNsB5VfXYPswnSRqQfTlyWAI82YXhNcCx3fo7gd9IcgTAtNNK/wS8tVu+ELivu/64qnqwqtYCu4CjgWeAl017rNuAS5Oku80p+7xnkqQf277E4XPAeJIJpn7YfxWgqnYAfwJ8KckW4CPd9r8LvL07DXURcFm3/sruCe3twL3AFuBu4IQfPiENXAEcAGzttrvipeykJGnfpGpvzgjt/w5afnwtv/ijfY8hacT8M6EvTZKNVTW+5/r95X0OkqT9iHGQJDWMgySpYRwkSQ3jIElqGAdJUsM4SJIa+/LxGfu1lSuWMOHrnSVpIDxykCQ1jIMkqWEcJEkN4yBJahgHSVLDOEiSGsZBktQwDpKkhnGQJDWMgySpYRwkSQ3jIElqGAdJUsM4SJIaxkGS1DAOkqSGcZAkNYyDJKlhHCRJDeMgSWoYB0lSwzhIkhrGQZLUMA6SpIZxkCQ1jIMkqWEcJEmNhX0PMCjbdu5mbM2GvseQNGKT61b1PcKc5JGDJKlhHCRJDeMgSWoYB0lSwzhIkhrGQZLUMA6SpIZxkCQ1jIMkqdFLHJJ8KMnru+XJJEv7mEOSNLNePj6jqtb28biSpL0z1COHJGNJHk1ydZIdSW5PcnCSa5P8+h7bHpzk1iSXJFmc5JokDyfZlOTsYc4pSfr/RnFa6Xjg41V1IvAUcN4M2xwK/D1wQ1VdDXwAuKuqfgF4DXBlksV73ijJ6iQTSSaef2730HZAkuabUcTh8ara3C1vBMZm2OZm4C+r6vru8hnAmiSbgXuARcAxe96oqtZX1XhVjS84ZMmAx5ak+WsUzzl8b9ry88DBM2xzP3BWkhuqqoAA51XVYyOYT5K0h/3lpaxrgW8Dn+gu3wZcmiQASU7pazBJmo/2lzgAXA4sSvKnwBXAAcDWJNu7y5KkERnqaaWqmgROmnb5qhm2GZt28e3Tlt81tMEkST/S/nTkIEnaTxgHSVLDOEiSGsZBktQwDpKkhnGQJDWMgySpYRwkSY1e/p7DMKxcsYSJdav6HkOS5gSPHCRJDeMgSWoYB0lSwzhIkhrGQZLUMA6SpIZxkCQ1jIMkqWEcJEkN4yBJahgHSVLDOEiSGsZBktQwDpKkhnGQJDWMgySpYRwkSQ3jIElqGAdJUsM4SJIaxkGS1DAOkqSGcZAkNYyDJKlhHCRJDeMgSWos7HuAQdm2czdjazb0PYZ6MLluVd8jSHOORw6SpIZxkCQ1jIMkqWEcJEkN4yBJahgHSVLDOEiSGsZBktQwDpKkxlDikGQsyfZh3Lckafg8cpAkNYYZh4VJrkuyNckXkhyS5HVJNiXZluSaJAcBJFmX5Cvdtld1685Psj3JliT3DnFOSdIehhmHVwDrq+rngKeB9wHXAhdU1UqmPvTvt5McDrwFOLHb9o+7268F3lBVrwTePMQ5JUl7GGYcvlFV93fLnwVeBzxeVV/r1l0HnM5UOL4LfDrJucBz3fX3A9cmuQRYMNMDJFmdZCLJxPPP7R7WfkjSvDPMONRebVT1A+BU4CbgHODWbv27gT8AjgY2Jzlihtuur6rxqhpfcMiSQc0tSfPeMONwTJJXd8tvA+4AxpL8dLfuIuBLSQ4FllTVPwKXAycDJDmuqh6sqrXALqYiIUkagWH+sZ9HgYuTfAr4F+Ay4AHg80kWAg8DnwQOB25OsggI8N7u9lcmOb5bdyewZYizSpKmGUocqmoSOGGGq+4ETtlj3beYOq20532cO/jJJEl7w/c5SJIaxkGS1DAOkqSGcZAkNYyDJKlhHCRJDeMgSWoYB0lSY5jvkB6plSuWMLFuVd9jSNKc4JGDJKlhHCRJDeMgSWoYB0lSwzhIkhrGQZLUMA6SpIZxkCQ1jIMkqWEcJEkN4yBJahgHSVLDOEiSGqmqvmcYiCTPAI/1PUePlgK7+h6iJ/N538H9d/9f2v4fW1XL9lw5Zz6yG3isqsb7HqIvSSbm6/7P530H99/9H87+e1pJktQwDpKkxlyKw/q+B+jZfN7/+bzv4P67/0MwZ56QliQNzlw6cpAkDYhxkCQ1Zn0ckpyZ5LEkX0+ypu95Ri3JNUmeTLK971lGLcnRSe5O8miSHUku63umUUqyKMlDSbZ0+//BvmcatSQLkmxK8g99zzJqSSaTbEuyOcnEwO9/Nj/nkGQB8DXgV4EngIeBt1XVV3odbISSnA48C1xfVSf1Pc8oJVkOLK+qR5K8DNgInDNf/v8nCbC4qp5NcgBwH3BZVT3Q82gjk+R9wDjw8qp6U9/zjFKSSWC8qobyBsDZfuRwKvD1qvrXqvo+cCNwds8zjVRV3Qt8p+85+lBV36qqR7rlZ4BHgRX9TjU6NeXZ7uIB3dfs/W1vHyU5ClgFfLrvWeai2R6HFcA3pl1+gnn0w0H/J8kYcArwYM+jjFR3WmUz8CTwxaqaT/v/UeD9wH/3PEdfCrg9ycYkqwd957M9Dplh3bz5zUlTkhwK3ARcXlVP9z3PKFXV81V1MnAUcGqSeXFqMcmbgCeramPfs/TotKr6eeAs4He6U8wDM9vj8ARw9LTLRwHf7GkW9aA7134T8Lmq+tu+5+lLVT0F3AOc2e8kI3Ma8ObuvPuNwGuTfLbfkUarqr7ZfX8S+DumTrMPzGyPw8PA8Ul+KsmBwFuBW3qeSSPSPSH7F8CjVfWRvucZtSTLkhzWLR8MvB74aq9DjUhV/X5VHVVVY0z9u7+rqn6z57FGJsni7kUYJFkMnAEM9BWLszoOVfUD4D3AbUw9Gfk3VbWj36lGK8lfAf8MvCLJE0ne2fdMI3QacBFTvzVu7r7e2PdQI7QcuDvJVqZ+UfpiVc27l3TOU0cC9yXZAjwEbKiqWwf5ALP6paySpOGY1UcOkqThMA6SpIZxkCQ1jIMkqWEcJEkN4yBJahgHSVLjfwCT+PmxWI4wJwAAAABJRU5ErkJggg==\n",
"text/plain": [
"
"
]
},
"metadata": {
"needs_background": "light"
},
"output_type": "display_data"
}
],
"source": [
"ax = summe.plot.barh()"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### 12.3) Prozentwerte der Nennungen pro Variable\n",
"\n",
"Die vorhin berechneten Summen lassen sich auch in relative Häufigkeiten, also Prozentwerte, umrechnen. Dazu ermitteln wir mit **len()** die Anzahl der Zeilen im Dataframe.\n",
"\n",
"[How do I get the row count of a Pandas DataFrame?](https://stackoverflow.com/questions/15943769/how-do-i-get-the-row-count-of-a-pandas-dataframe)"
]
},
{
"cell_type": "code",
"execution_count": 13,
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"9"
]
},
"execution_count": 13,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"len(daten.index)"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Nun werden die Summen pro Variable durch die Anzahl der Zeilen des Dataframes dividiert. Dies ergibt die relativen Häufigkeiten (Prozentwerte)."
]
},
{
"cell_type": "code",
"execution_count": 14,
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"boss 22.2\n",
"nike 44.4\n",
"lacoste 44.4\n",
"head 55.6\n",
"dtype: float64"
]
},
"execution_count": 14,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"prozent = ((summe/len(daten.index))*100).round(2)\n",
"\n",
"prozent.round(1)"
]
},
{
"cell_type": "code",
"execution_count": 15,
"metadata": {},
"outputs": [
{
"data": {
"image/png": "iVBORw0KGgoAAAANSUhEUgAAAYcAAAD4CAYAAAAHHSreAAAAOXRFWHRTb2Z0d2FyZQBNYXRwbG90bGliIHZlcnNpb24zLjMuNCwgaHR0cHM6Ly9tYXRwbG90bGliLm9yZy8QVMy6AAAACXBIWXMAAAsTAAALEwEAmpwYAAAN0klEQVR4nO3de4yldX3H8fens8hVF2FXQpbLtJS0AitL3FoshggaBNcKQikaaok2rDYtBVtjtrVZKxSzKcSYVkxdLAUv1HqphZYGgUXk0ojMwi67FKimTFUgktVysUSs9Ns/zrPt6fwG2ZVz5uyceb+SzZzzm+fM+f4gzJvnOTNnU1VIktTvZ0Y9gCRp12McJEkN4yBJahgHSVLDOEiSGotGPcCgLFmypCYnJ0c9hiTNKxs3btxWVUtnro9NHCYnJ5mamhr1GJI0ryT599nWvawkSWoYB0lSwzhIkhrGQZLUMA6SpIZxkCQ1jIMkqWEcJEkN4yBJahgHSVLDOEiSGsZBktQYmzfe2/LwE0yuuW7UY0jSnJpet2ooX9czB0lSwzhIkhrGQZLUMA6SpIZxkCQ1jIMkqWEcJEkN4yBJahgHSVJjoHFIMplk6yC/Zvd1p5MsGfTXlSTNzjMHSVJjGHGYSHJ5kvuS3JBkzySHJbk+ycYktyX5RYAkv5rkziT3JLkpyQHd+v7dY+9J8nEgQ5hTkvQchhGHw4HLqupI4HHgDGA9cF5VvRJ4L/Cx7tjbgWOr6hjgs8D7uvUPALd369cChwxhTknScxjGu7I+VFWbutsbgUngV4DPJ/97ArB79/Eg4G+THAi8CHioWz8eOB2gqq5L8h+zPVGS1cBqgImXLB3oJiRpIRvGmcMzfbefBfYDHq+qFX1/Xt59/i+Aj1bVcuBdwB59j63ne6KqWl9VK6tq5cReiwc1vyQteHPxgvSTwENJzgRIz9Hd5xYDD3e3z+l7zK3A2d3xpwAvnYM5JUmdufpppbOB30qyGbgPOLVb/xN6l5tuA7b1Hf9B4PgkdwMnAd+aozklSQz4NYeqmgaO6rt/ad+nT57l+GuAa2ZZ/x69KGz3nsFNKUl6Pv6egySpYRwkSQ3jIElqGAdJUsM4SJIaxkGS1DAOkqSGcZAkNYbxxnsjsXzZYqbWrRr1GJI0FjxzkCQ1jIMkqWEcJEkN4yBJahgHSVLDOEiSGsZBktQwDpKkhnGQJDWMgySpYRwkSQ3jIElqGAdJUsM4SJIaxkGS1DAOkqSGcZAkNYyDJKlhHCRJDeMgSWoYB0lSwzhIkhrGQZLUMA6SpIZxkCQ1jIMkqbFo1AMMypaHn2ByzXWjHkPSHJtet2rUI4wlzxwkSQ3jIElqGAdJUsM4SJIaxkGS1DAOkqSGcZAkNYyDJKlhHCRJDeMgSWo8bxyS/GDYQyRZkeSNw34eSdKO2VXOHFYAxkGSdhE7HIck+yTZkOTuJFuSnNr3ud9Mcm+SzUk+1a0d2h1/b/fxkG79zCRbu2NvTfIi4ELgrCSbkpyVZO8kVyS5K8k9/c8lSRq+nXlX1h8Cb6mqJ5MsAb6W5FrgCOD9wHFVtS3Jft3xHwU+WVVXJXkn8OfAacBa4A1V9XCSfavqR0nWAiur6ncBknwIuLmq3plkX+DrSW6qqv/sHyjJamA1wMRLlv50/wQkSY2duawU4ENJ7gVuApYBBwAnAl+oqm0AVfX97vhXA1d3tz8FvKa7fQdwZZJzgYnneK6TgDVJNgG3AHsAh8w8qKrWV9XKqlo5sdfindiKJOkn2Zkzh7OBpcArq+q/kkzT+6YdoHbg8QVQVe9O8svAKmBTkhWzHBvgjKp6cCfmkyQNyM6cOSwGHuvCcAJwaLe+Afj1JPsD9F1W+mfgrd3ts4Hbu88fVlV3VtVaYBtwMPAU8OK+5/oycF6SdI85Zqd3Jkn6qe1MHD4DrEwyRe+b/QMAVXUfcDHw1SSbgQ93x/8e8I7uMtTbgfO79Uu6F7S3ArcCm4GvAEdsf0EauAjYDbi3O+6iF7JJSdLOSdWOXBHa9e1+4OF14DkfGfUYkuaYf03oC5NkY1WtnLm+q/yegyRpF2IcJEkN4yBJahgHSVLDOEiSGsZBktQwDpKkxs68fcYubfmyxUz5886SNBCeOUiSGsZBktQwDpKkhnGQJDWMgySpYRwkSQ3jIElqGAdJUsM4SJIaxkGS1DAOkqSGcZAkNYyDJKlhHCRJDeMgSWoYB0lSwzhIkhrGQZLUMA6SpIZxkCQ1jIMkqWEcJEkN4yBJahgHSVLDOEiSGsZBktQwDpKkxqJRDzAoWx5+gsk11416DElzbHrdqlGPMJY8c5AkNYyDJKlhHCRJDeMgSWoYB0lSwzhIkhrGQZLUMA6SpIZxkCQ1RhKHJBcmeX13ezrJklHMIUma3UjePqOq1o7ieSVJO2aoZw5JJpPcn+TyJPcluSHJnkmuTPJrM47dM8n1Sc5NsneSK5LcleSeJKcOc05J0v83F5eVDgcuq6ojgceBM2Y5Zh/gH4Crq+py4P3AzVX1S8AJwCVJ9p75oCSrk0wlmXr26SeGtgFJWmjmIg4PVdWm7vZGYHKWY64B/rqqPtndPwlYk2QTcAuwB3DIzAdV1fqqWllVKyf2WjzgsSVp4ZqL1xye6bv9LLDnLMfcAZyS5OqqKiDAGVX14BzMJ0maYVf5Uda1wPeAj3X3vwyclyQASY4Z1WCStBDtKnEAuADYI8mfARcBuwH3Jtna3ZckzZGhXlaqqmngqL77l85yzGTf3Xf03X7X0AaTJP1Eu9KZgyRpF2EcJEkN4yBJahgHSVLDOEiSGsZBktQwDpKkhnGQJDVG8vc5DMPyZYuZWrdq1GNI0ljwzEGS1DAOkqSGcZAkNYyDJKlhHCRJDeMgSWoYB0lSwzhIkhrGQZLUMA6SpIZxkCQ1jIMkqWEcJEkN4yBJahgHSVLDOEiSGsZBktQwDpKkhnGQJDWMgySpYRwkSQ3jIElqGAdJUsM4SJIaxkGS1DAOkqTGolEPMChbHn6CyTXXjXoMjcD0ulWjHkEaO545SJIaxkGS1DAOkqSGcZAkNYyDJKlhHCRJDeMgSWoYB0lSwzhIkhpDiUOSySRbh/G1JUnD55mDJKkxzDgsSnJVknuTfCHJXklel+SeJFuSXJFkd4Ak65L8S3fspd3amUm2Jtmc5NYhzilJmmGYcfgFYH1VvQJ4Evh94ErgrKpaTu9N/347yX7AW4Aju2P/tHv8WuANVXU08OYhzilJmmGYcfh2Vd3R3f408Drgoar6127tKuB4euH4IfCJJKcDT3efvwO4Msm5wMRsT5BkdZKpJFPPPv3EsPYhSQvOMONQO3RQ1Y+BVwFfBE4Dru/W3w38MXAwsCnJ/rM8dn1VrayqlRN7LR7U3JK04A0zDockeXV3+23ATcBkkp/v1t4OfDXJPsDiqvon4AJgBUCSw6rqzqpaC2yjFwlJ0hwY5l/2cz9wTpKPA98Azge+Bnw+ySLgLuAvgf2Aa5LsAQR4T/f4S5Ic3q1tADYPcVZJUp+hxKGqpoEjZvnUBuCYGWuP0rusNPNrnD74ySRJO8Lfc5AkNYyDJKlhHCRJDeMgSWoYB0lSwzhIkhrGQZLUMA6SpMYwf0N6Ti1ftpipdatGPYYkjQXPHCRJDeMgSWoYB0lSwzhIkhrGQZLUMA6SpIZxkCQ1jIMkqWEcJEkN4yBJahgHSVLDOEiSGsZBktRIVY16hoFI8hTw4KjnGLIlwLZRDzEHFsI+F8IeYWHsc77v8dCqWjpzcWzesht4sKpWjnqIYUoyNe57hIWxz4WwR1gY+xzXPXpZSZLUMA6SpMY4xWH9qAeYAwthj7Aw9rkQ9ggLY59jucexeUFakjQ443TmIEkaEOMgSWrM+zgkOTnJg0m+mWTNqOcZlCRXJHksyda+tf2S3JjkG93Hl45yxhcqycFJvpLk/iT3JTm/Wx+bfSbZI8nXk2zu9vjBbn1s9tgvyUSSe5L8Y3d/rPaZZDrJliSbkkx1a2O1x+3mdRySTACXAacARwBvS3LEaKcamCuBk2esrQE2VNXhwIbu/nz2Y+APqurlwLHA73T//sZpn88AJ1bV0cAK4OQkxzJee+x3PnB/3/1x3OcJVbWi73cbxnGP8zsOwKuAb1bVv1XVj4DPAqeOeKaBqKpbge/PWD4VuKq7fRVw2lzONGhV9WhV3d3dforeN5VljNE+q+cH3d3duj/FGO1xuyQHAauAT/Qtj90+ZzGWe5zvcVgGfLvv/ne6tXF1QFU9Cr1vrMDLRjzPwCSZBI4B7mTM9tldatkEPAbcWFVjt8fOR4D3Af/dtzZu+yzghiQbk6zu1sZtj8D8f/uMzLLmz+bOM0n2Ab4IXFBVTyaz/Wudv6rqWWBFkn2BLyU5asQjDVySNwGPVdXGJK8d8TjDdFxVPZLkZcCNSR4Y9UDDMt/PHL4DHNx3/yDgkRHNMhe+m+RAgO7jYyOe5wVLshu9MHymqv6uWx67fQJU1ePALfReSxq3PR4HvDnJNL3Luycm+TRjts+qeqT7+BjwJXqXtsdqj9vN9zjcBRye5GeTvAh4K3DtiGcapmuBc7rb5wDXjHCWFyy9U4S/Au6vqg/3fWps9plkaXfGQJI9gdcDDzBGewSoqj+sqoOqapLef4c3V9VvMEb7TLJ3khdvvw2cBGxljPbYb97/hnSSN9K71jkBXFFVF492osFI8jfAa+m9HfB3gQ8Afw98DjgE+BZwZlXNfNF63kjyGuA2YAv/d536j+i97jAW+0zyCnovUk7Q+5+xz1XVhUn2Z0z2OFN3Wem9VfWmcdpnkp+jd7YAvUvyV1fVxeO0x37zPg6SpMGb75eVJElDYBwkSQ3jIElqGAdJUsM4SJIaxkGS1DAOkqTG/wDdkm80DqLgrwAAAABJRU5ErkJggg==\n",
"text/plain": [
"
"
]
},
"metadata": {
"needs_background": "light"
},
"output_type": "display_data"
}
],
"source": [
"ax = prozent.plot.barh()"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"##### Absolute Häufigkeiten und Prozentwerte in einem Dataframe verknüpfen\n",
"\n",
"Ziel ist schließlich, alle ermittelten Ergebnisse in einem Dataframe (unsere Outputtabelle) zu verknüpfen. Unsere beiden bisherigen Ergebnisse (absolute und relative Häufigkeiten der Nennungen) verknüpft man wie folgt: Im ersten Schritt werden die beiden Ergebnisse jeweils in ein Dataframe umgewandelt, dabei wird jeweils ein Spaltenname (*Summe* bzw. *Prozent*) sowie ein Name für den Index (*Marke*) vergeben."
]
},
{
"cell_type": "code",
"execution_count": 17,
"metadata": {},
"outputs": [],
"source": [
"s = pd.DataFrame(summe, columns = [\"Summe der Nennungen\"])\n",
"s.index.name = \"Marke\"\n",
"\n",
"p = pd.DataFrame(prozent, columns = [\"Prozent der Befragten\"])\n",
"p.index.name = \"Marke\""
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Danach werden diese beiden Dataframes zu einem neuen Dataframe zusammengefügt (dies geschieht anhand des in beiden Dataframes vorhandenen Index *Item*).\n",
"\n",
"[pandas.DataFrame.merge](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.merge.html)"
]
},
{
"cell_type": "code",
"execution_count": 18,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"
\n",
"\n",
"
\n",
" \n",
"
\n",
"
\n",
"
Summe der Nennungen
\n",
"
Prozent der Befragten
\n",
"
\n",
"
\n",
"
Marke
\n",
"
\n",
"
\n",
"
\n",
" \n",
" \n",
"
\n",
"
boss
\n",
"
2.0
\n",
"
22.22
\n",
"
\n",
"
\n",
"
nike
\n",
"
4.0
\n",
"
44.44
\n",
"
\n",
"
\n",
"
lacoste
\n",
"
4.0
\n",
"
44.44
\n",
"
\n",
"
\n",
"
head
\n",
"
5.0
\n",
"
55.56
\n",
"
\n",
" \n",
"
\n",
"
"
],
"text/plain": [
" Summe der Nennungen Prozent der Befragten\n",
"Marke \n",
"boss 2.0 22.22\n",
"nike 4.0 44.44\n",
"lacoste 4.0 44.44\n",
"head 5.0 55.56"
]
},
"execution_count": 18,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"set1 = pd.merge(s, p, how = 'outer', on = 'Marke')\n",
"\n",
"set1"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Fertig ist unsere erste Outputtabelle. Es gibt aber noch 2 weitere Auswertungsmöglichkeiten, die wir dieser Tabelle hinzufügen können."
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### 12.4) Prozent der potenziell möglichen Nennungen\n",
"\n",
"Ev. interessiert uns, wie groß der Anteil der abgegebenen Nennungen relativ zu den insgesamt theoretisch möglichen Nennungen ist. Dazu wird mit **len()** die Anzahl der Spalten (Variablen) ermittelt. ACHTUNG: Dies funktioniert nur, wenn alle im Dataframe vorhandenen Spalten in die Analyse einfließen - wie es in unserem Beispiel der Fall ist. Man kann auf **len()** auch verzichten und in weiterer Folge einfach '4' eintragen, da wir 4 interessierende Spalten haben, bzw. '9' für die Anzahl der Zeilen."
]
},
{
"cell_type": "code",
"execution_count": 19,
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"4"
]
},
"execution_count": 19,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"len(daten.columns)"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Nun wird die Gesamtzahl der Zellen ermittelt..."
]
},
{
"cell_type": "code",
"execution_count": 20,
"metadata": {},
"outputs": [],
"source": [
"zellen = (len(daten.index)*len(daten.columns))"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"... und unsere Häufigkeiten dazu in Beziehung gesetzt."
]
},
{
"cell_type": "code",
"execution_count": 21,
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"Marke\n",
"boss 5.56\n",
"nike 11.11\n",
"lacoste 11.11\n",
"head 13.89\n",
"dtype: float64"
]
},
"execution_count": 21,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"prozent2 = ((summe/zellen)*100).round(2)\n",
"\n",
"prozent2"
]
},
{
"cell_type": "code",
"execution_count": 22,
"metadata": {},
"outputs": [
{
"data": {
"image/png": "iVBORw0KGgoAAAANSUhEUgAAAZUAAAD4CAYAAAAkRnsLAAAAOXRFWHRTb2Z0d2FyZQBNYXRwbG90bGliIHZlcnNpb24zLjMuNCwgaHR0cHM6Ly9tYXRwbG90bGliLm9yZy8QVMy6AAAACXBIWXMAAAsTAAALEwEAmpwYAAAQp0lEQVR4nO3de5BkZX3G8e/josCCLOIi4gKOEoIiKOjGgKZIKaLIGlDRqCGEUks0FbloLINFinhJzFagjDFeURFUxCiagCFy9YKSSFhgYRcRscIqbEgQDaBQqOAvf/TBjJuBaeDtPt0730/V1Jzz9unup6em55n3nO7TqSokSWrhYX0HkCRtPCwVSVIzlookqRlLRZLUjKUiSWpmk74D9G3p0qU1MzPTdwxJmiqXXXbZLVW17YbjC75UZmZmWLVqVd8xJGmqJPn+XOPu/pIkNWOpSJKasVQkSc1YKpKkZiwVSVIzlookqRlLRZLUjKUiSWrGUpEkNWOpSJKasVQkSc1YKpKkZhb8CSXXrL+NmWPP7juGJI3VupUrRnK7zlQkSc1YKpKkZiwVSVIzlookqRlLRZLUjKUiSWrGUpEkNWOpSJKasVQkSc1MRKkkmUmydgS3uy7J0ta3K0ma20SUiiRp4zBJpbIoyUeTXJ3kvCSbJ9k5yTlJLkvyjSRPAkjye0kuSXJFkguSbNeNP7q77hVJPgKk10ckSQvMJJXKLsAHquopwK3AIcBJwJFV9QzgLcAHu22/CexdVXsBnwXe2o3/BfDNbvwsYKfxxZckTdJZiq+vqtXd8mXADPAs4PPJryYcm3bfdwD+Icn2wCOA67vxfYGXAlTV2Un+Z647SnIEcATAoq22bfogJGkhm6SZys9mLd8DbAPcWlV7zvp6cnf53wPvr6o9gNcDm826bs13R1V1UlUtr6rlixYvaZVfkha8SSqVDd0OXJ/k5QAZeFp32RJgfbd8+KzrXAQc2m3/QuBRY8oqSWKySwUGBfHaJFcCVwMHd+NvZ7Bb7BvALbO2fwewb5LLgecDPxhjVkla8CbimEpVrQN2n7V+4qyLD5hj+zOBM+cY/xGDMrnXm9qllCTNZ9JnKpKkKWKpSJKasVQkSc1YKpKkZiwVSVIzlookqRlLRZLUjKUiSWpmIt782Kc9li1h1coVfceQpI2CMxVJUjOWiiSpGUtFktSMpSJJasZSkSQ1Y6lIkpqxVCRJzVgqkqRmLBVJUjOWiiSpGUtFktSMpSJJasZSkSQ1Y6lIkpqxVCRJzVgqkqRmLBVJUjOWiiSpGUtFktSMpSJJasZSkSQ1Y6lIkpqxVCRJzVgqkqRmLBVJUjOWiiSpmU36DtC3NetvY+bYs/uOIWnM1q1c0XeEjZIzFUlSM5aKJKkZS0WS1IylIklqxlKRJDVjqUiSmrFUJEnNWCqSpGYsFUlSM5aKJKmZkZVKkp+O6rZn3ceeSQ4c9f1IkoYz7TOVPQFLRZImxMhLJcmWSS5McnmSNUkOnnXZHyW5KsmVST7VjT2+2/6q7vtO3fjLk6zttr0oySOAdwKvSLI6ySuSbJHk5CSXJrli9n1JkkZvHGcpvgt4SVXdnmQp8K0kZwG7AccBz66qW5Js023/fuCTVXVqktcA7wNeDBwPvKCq1ifZuqp+nuR4YHlVvREgybuBr1TVa5JsDfx7kguq6o7ZgZIcARwBsGirbUf88CVp4RjH7q8A705yFXABsAzYDngucEZV3QJQVT/utt8H+Ey3/Cngd7rli4FTkrwOWHQf9/V84Ngkq4GvAZsBO224UVWdVFXLq2r5osVLHtqjkyT9yjhmKocC2wLPqKpfJFnH4I99gBri+gVQVW9I8tvACmB1kj3n2DbAIVV1bYvgkqQHZhwzlSXAzV2hPAd4fDd+IfD7SR4NMGv3178Cr+yWDwW+2V2+c1VdUlXHA7cAOwI/AR45677OBY5Mku46e43uYUmSNjSOUjkNWJ5kFYOS+A5AVV0N/BXw9SRXAu/ptj8KeHW3u+ww4Ohu/ITuQP9a4CLgSuCrwG73HqgH3gU8HLiq2+5dY3h8kqROqobZA7Xx2nT7XWr7w9/bdwxJY+bHCT80SS6rquUbjk/7+1QkSRPEUpEkNWOpSJKasVQkSc1YKpKkZiwVSVIzlookqZlxnKZlou2xbAmrfL26JDXhTEWS1MxQpZJkuyQfT/Llbn23JK8dbTRJ0rQZdqZyCoOTNT6uW/8ucMwI8kiSptiwpbK0qj4H/BKgqu4G7hlZKknSVBq2VO7oTlFfAEn2Bm4bWSpJ0lQa9tVfbwbOAnZOcjGDD9162chSSZKm0rCl8mPgd4FdGXy64rXAniPKJEmaUsPu/voCsF1VXV1Vaxl8jvzJo4slSZpGw5bKG4B/SvLYJAcC7wMOHF0sSdI0Gmr3V1VdmuQo4DzgLmD/qvrhSJNJkqbO/ZZKki/RveKrs5jBq74+noSqOmiU4SRJ02W+mcqJY0khSdoo3G+pVNXXkywCzq2q540pkyRpSs17oL6q7gHuTLJkDHkkSVNs2Pep3AWsSXI+cMe9g1V11EhSSZKm0rClcnb3JUnSfRr2JcWnjjqIJGn6DVUqSXYB/hrYDdjs3vGqeuKIckmSptCw76j/BPAh4G7gOcAngU+NKpQkaToNWyqbV9WFQKrq+1X1duC5o4slSZpGQ7/6K8nDgOuSvBFYDzxmdLEkSdNo2JnKMQxO0XIU8AzgMODwEWWSJE2poU8o2S3+FHj16OJIkqbZfCeUPOv+LveEkpKk2eabqewD3ACcDlzC4FMfJUma03yl8lhgf+BVwB8weFf96VV19aiDSZKmz/0eqK+qe6rqnKo6HNgb+B7wtSRHjiWdJGmqzHugPsmmwAoGs5UZBh8l/MXRxhqfNetvY+ZYT2smLTTrVq7oO8JGab4D9acCuwNfBt5RVWvHkkqSNJXmm6kcxuBU978JHJX86jh9gKqqrUaYTZI0Zeb75Mdh3xwpSdLQ76iXJGlelookqRlLRZLUjKUiSWrGUpEkNWOpSJKamapSSfLOJM/rltclWdp3JknS/xn2kx8nQlUd33cGSdJ9m8iZSpKZJNck+WiSq5Ocl2TzJKckedkG226e5Jwkr0uyRZKTk1ya5IokB/f1GCRpIZrIUunsAnygqp4C3AocMsc2WwJfAj5TVR8FjgO+UlW/BTwHOCHJFhteKckRSVYlWXXPnbeN7AFI0kIzyaVyfVWt7pYvY3CG5A2dCXyiqj7ZrT8fODbJauBrwGbAThteqapOqqrlVbV80eIljWNL0sI1ycdUfjZr+R5g8zm2uRh4YZLPVFUxONHlIVV17TgCSpJ+3STPVIZxPPAj4IPd+rnAkelOp5xkr76CSdJCNO2lAnAMsFmSvwHeBTwcuCrJ2m5dkjQmE7n7q6rWMfhwsHvXT5xjm5lZq6+etfz6kQWTJN2vjWGmIkmaEJaKJKkZS0WS1IylIklqxlKRJDVjqUiSmrFUJEnNWCqSpGYm8s2P47THsiWsWrmi7xiStFFwpiJJasZSkSQ1Y6lIkpqxVCRJzVgqkqRmLBVJUjOWiiSpGUtFktSMpSJJasZSkSQ1Y6lIkpqxVCRJzVgqkqRmLBVJUjOWiiSpGUtFktSMpSJJasZSkSQ1Y6lIkpqxVCRJzVgqkqRmLBVJUjOWiiSpGUtFktSMpSJJasZSkSQ1s0nfAfq2Zv1tzBx7dt8x1JN1K1f0HUHaqDhTkSQ1Y6lIkpqxVCRJzVgqkqRmLBVJUjOWiiSpGUtFktSMpSJJasZSkSQ1M1GlkmQmydq+c0iSHpyJKhVJ0nSbxFLZJMmpSa5KckaSxUn2S3JFkjVJTk6yKUCSlUm+3W17Yjf28iRrk1yZ5KJ+H4okLSyTWCq7AidV1VOB24E3A6cAr6iqPRicBPOPk2wDvAR4SrftX3bXPx54QVU9DTho3OElaSGbxFK5oaou7pY/DewHXF9V3+3GTgX2ZVA4dwEfS/JS4M7u8ouBU5K8Dlg01x0kOSLJqiSr7rnztlE9DklacCaxVGqojaruBp4JfAF4MXBON/4G4M+BHYHVSR49x3VPqqrlVbV80eIlrXJL0oI3iaWyU5J9uuVXARcAM0l+oxs7DPh6ki2BJVX1L8AxwJ4ASXauqkuq6njgFgblIkkag0n8kK5rgMOTfAS4Djga+Bbw+SSbAJcCHwa2Ac5MshkQ4E3d9U9Isks3diFw5ZjzS9KCNVGlUlXrgN3muOhCYK8Nxm5isPtrw9t4aftkkqRhTOLuL0nSlLJUJEnNWCqSpGYsFUlSM5aKJKkZS0WS1IylIklqxlKRJDUzUW9+7MMey5awauWKvmNI0kbBmYokqRlLRZLUjKUiSWrGUpEkNWOpSJKasVQkSc1YKpKkZiwVSVIzlookqRlLRZLUjKUiSWrGUpEkNWOpSJKaSVX1naFXSX4CXNt3jgdhKXBL3yEeBHOPl7nHZxozw4PP/fiq2nbDwQV/6nvg2qpa3neIByrJKnOPj7nHaxpzT2NmaJ/b3V+SpGYsFUlSM5YKnNR3gAfJ3ONl7vGaxtzTmBka517wB+olSe04U5EkNWOpSJKaWbClkuSAJNcm+V6SY/vOM4wkOyb5apJrklyd5Oi+Mz0QSRYluSLJP/edZVhJtk5yRpLvdD/3ffrONIwkb+p+R9YmOT3JZn1nmkuSk5PcnGTtrLFtkpyf5Lru+6P6zDiX+8h9Qvd7clWSf0yydY8R5zRX7lmXvSVJJVn6UO5jQZZKkkXAB4AXArsBr0qyW7+phnI38KdV9WRgb+BPpiT3vY4Gruk7xAP0d8A5VfUk4GlMQf4ky4CjgOVVtTuwCHhlv6nu0ynAARuMHQtcWFW7ABd265PmFP5/7vOB3avqqcB3gbeNO9QQTuH/5ybJjsD+wA8e6h0syFIBngl8r6r+o6p+DnwWOLjnTPOqqpuq6vJu+ScM/sAt6zfVcJLsAKwAPtZ3lmEl2QrYF/g4QFX9vKpu7TXU8DYBNk+yCbAY+M+e88ypqi4CfrzB8MHAqd3yqcCLx5lpGHPlrqrzqurubvVbwA5jDzaP+/h5A/wt8FbgIb9ya6GWyjLghlnrNzIlf5zvlWQG2Au4pOcow3ovg1/aX/ac44F4IvBD4BPdbruPJdmi71Dzqar1wIkM/uu8Cbitqs7rN9UDsl1V3QSDf6SAx/Sc58F4DfDlvkMMI8lBwPqqurLF7S3UUskcY1Pz2uokWwJfAI6pqtv7zjOfJC8Cbq6qy/rO8gBtAjwd+FBV7QXcwWTuivk13TGIg4EnAI8Dtkjyh/2mWjiSHMdgV/VpfWeZT5LFwHHA8a1uc6GWyo3AjrPWd2BCdw9sKMnDGRTKaVX1xb7zDOnZwEFJ1jHY1fjcJJ/uN9JQbgRurKp7Z4NnMCiZSfc84Pqq+mFV/QL4IvCsnjM9EP+dZHuA7vvNPecZWpLDgRcBh9Z0vAlwZwb/fFzZPT93AC5P8tgHe4MLtVQuBXZJ8oQkj2BwEPOsnjPNK0kY7N+/pqre03eeYVXV26pqh6qaYfCz/kpVTfx/zlX1X8ANSXbthvYDvt1jpGH9ANg7yeLud2Y/puAFBrOcBRzeLR8OnNljlqElOQD4M+Cgqrqz7zzDqKo1VfWYqprpnp83Ak/vfvcflAVZKt3BtDcC5zJ4sn2uqq7uN9VQng0cxuA//dXd14F9h9rIHQmcluQqYE/g3f3GmV83szoDuBxYw+B5PpGnEElyOvBvwK5JbkzyWmAlsH+S6xi8Imllnxnnch+53w88Eji/e25+uNeQc7iP3G3vYzpmaJKkabAgZyqSpNGwVCRJzVgqkqRmLBVJUjOWiiSpGUtFktSMpSJJauZ/AUZy9MBW9kxfAAAAAElFTkSuQmCC\n",
"text/plain": [
"
"
],
"text/plain": [
" Prozent d ges tats Nennungen\n",
"Marke \n",
"boss 13.33\n",
"nike 26.67\n",
"lacoste 26.67\n",
"head 33.33"
]
},
"execution_count": 28,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"p3 = pd.DataFrame(prozent3, columns = [\"Prozent d ges tats Nennungen\"])\n",
"\n",
"p3.index.name = \"Marke\"\n",
"\n",
"p3"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### 12.6) Zusammenführung in finales Dataframe, Grafiken, Output speichern\n",
"\n",
"Jetzt müssen wir unsere beiden letzten Ergebnisse noch in unser weiter oben bereits begonnenes finales Outputdataframe einfügen. Man kann jeweils 2 Dataframes zusammenführen. In den beiden folgenden Schritten wird somit jeweils ein weiteres Ergebnis in unser finales Dataframe integriert."
]
},
{
"cell_type": "code",
"execution_count": 29,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"
"
],
"text/plain": [
" Summe der Nennungen Prozent der Befragten \\\n",
"Marke \n",
"boss 2.0 22.22 \n",
"nike 4.0 44.44 \n",
"lacoste 4.0 44.44 \n",
"head 5.0 55.56 \n",
"\n",
" Prozent d ges mögl Nennungen Prozent d ges tats Nennungen \n",
"Marke \n",
"boss 5.56 13.33 \n",
"nike 11.11 26.67 \n",
"lacoste 11.11 26.67 \n",
"head 13.89 33.33 "
]
},
"execution_count": 30,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"set3 = pd.merge(set2, p3, how = 'outer', on = 'Marke')\n",
"\n",
"set3"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Sehen wir uns diese finalen Ergebnisse nun noch grafisch an. "
]
},
{
"cell_type": "code",
"execution_count": 31,
"metadata": {},
"outputs": [
{
"data": {
"image/png": "\n",
"text/plain": [
"
"
]
},
"metadata": {
"needs_background": "light"
},
"output_type": "display_data"
}
],
"source": [
"ax = set3[['Prozent der Befragten', 'Prozent d ges mögl Nennungen',\n",
" 'Prozent d ges tats Nennungen']].plot.barh(figsize = (8.5,4.5))\n",
"\n",
"# 'ax = set3.plot.barh(figsize = (8.5,4.5))' um alles (also alle 4 Balken pro Marke) zu visualisieren;\n",
"# dies macht aber nicht viel Sinn, da Prozentwerte und absolute Häufigkeiten vermischt würden."
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Sortieren wird die Balken noch der Länge nach absteigend..."
]
},
{
"cell_type": "code",
"execution_count": 32,
"metadata": {},
"outputs": [
{
"data": {
"image/png": "\n",
"text/plain": [
"
"
]
},
"metadata": {
"needs_background": "light"
},
"output_type": "display_data"
}
],
"source": [
"ax = set3[['Prozent d ges mögl Nennungen',\n",
" 'Prozent d ges tats Nennungen', 'Prozent der Befragten']].plot.barh(figsize = (8.5,4.5))\n",
"\n",
"# gleich Grafik wie vorhin, nur sind die Balken nun nach Größe angeordnet..."
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"##### \"Styling\" der Outputtabelle\n",
"\n",
"Man kann die Outputtabelle auch gestalten, z.B. in die Beschriftung der X-Achse '%' einfügen. Dies hat jedoch nur ästethische Auswirkungen und wird nicht im Dataframe zur weiteren Verwendung gespeichert.\n",
"\n",
"[Finer Control: Display Values](https://pandas.pydata.org/pandas-docs/stable/user_guide/style.html#Finer-Control:-Display-Values)"
]
},
{
"cell_type": "code",
"execution_count": 38,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"
Summe der Nennungen
Prozent der Befragten
Prozent d ges mögl Nennungen
Prozent d ges tats Nennungen
Marke
\n",
"
\n",
"
boss
\n",
"
2
\n",
"
22.2%
\n",
"
5.6%
\n",
"
13.3%
\n",
"
\n",
"
\n",
"
nike
\n",
"
4
\n",
"
44.4%
\n",
"
11.1%
\n",
"
26.7%
\n",
"
\n",
"
\n",
"
lacoste
\n",
"
4
\n",
"
44.4%
\n",
"
11.1%
\n",
"
26.7%
\n",
"
\n",
"
\n",
"
head
\n",
"
5
\n",
"
55.6%
\n",
"
13.9%
\n",
"
33.3%
\n",
"
\n",
"
"
],
"text/plain": [
""
]
},
"execution_count": 38,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"set3.style.format({\n",
" \"Summe der Nennungen\" : \"{:.0f}\", # 0 Dezimalstellen\n",
" 'Prozent der Befragten' : '{:.1f}%', # 1 Dezimalstelle und '%'\n",
" \"Prozent d ges mögl Nennungen\" : \"{:.1f}%\",\n",
" \"Prozent d ges tats Nennungen\" : \"{:.1f}%\"\n",
"})"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"##### Speichern des Dataframes\n",
"\n",
"Obige Tabelle (ohne das \"Styling\") kann mit **to_clipboard()** exportiert (d.h. in die Zwischenablage kopiert) werden, damit man sie dann bspw. leicht in Excel oder ähnlichen Programmen einfügen und weiterverwenden kann."
]
},
{
"cell_type": "code",
"execution_count": 34,
"metadata": {},
"outputs": [],
"source": [
"set3.to_clipboard(decimal = \",\")\n",
"\n",
"# Angabe von 'decimal = \",\"' ist wichtig, da ansonsten ein '.' als Dezimaltrennzeichen verwendet wird;\n",
"# dies ist im deutschsprachigen Raum jedoch nicht üblich und führt zu Problemen, bspw. wenn man den Output in eine Excel-Tabelle einfügt."
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### Exkurs: Aufruf der Funktion **mr()** zur Auswertungen von Mehrfachantworten\n",
"\n",
"Alles was in diesem Notebook bisher behandelt wurde, habe ich in der Funktion **mr()** zusammengefasst. Unter folgendem Link finden sich alle weiteren Infos dazu:\n",
"\n",
"[mr - multiple responses](https://github.com/manfred2020/multiple-responses)"
]
},
{
"cell_type": "code",
"execution_count": 35,
"metadata": {},
"outputs": [],
"source": [
"from mr import mr # Import der Funktion 'mr' aus dem Modul (dem File) 'mr'"
]
},
{
"cell_type": "code",
"execution_count": 37,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"
"
]
},
"metadata": {
"needs_background": "light"
},
"output_type": "display_data"
}
],
"source": [
"mr(daten, \"nike\", \"head\", \"boss\", \"lacoste\") # das Dataframe 'daten' wurde ja zu Beginn schon importiert\n",
"\n",
"# das Dataframe ('daten') sowie die auszuwertenden Spalten werden angegeben. Das war's."
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"