{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "**도구 - 판다스(pandas)**\n", "\n", "*`pandas` 라이브러리는 사용하기 쉬운 고성능 데이터 구조와 데이터 분석 도구를 제공합니다. 주 데이터 구조는 `DataFrame`입니다. 이를 인-메모리(in-memory) 2D 테이블로 생각할 수 있습니다(열 이름과 행 레이블이 있는 스프레드시트와 비슷합니다). 엑셀에 있는 많은 기능을 프로그램에서 사용할 수 있습니다. 여기에는 피봇 테이블이나 다른 열을 기반으로 열을 계산하고 그래프 출력하는 기능 등이 포함됩니다. 열 값으로 행을 그룹핑할 수도 있습니다. 또한 SQL과 비슷하게 테이블을 조인할 수 있습니다. 판다스는 시계열 데이터를 다루는데도 뛰어납니다.*\n", "\n", "필요 라이브러리:\n", "\n", "* 넘파이(NumPy) – 넘파이에 익숙하지 않다면 지금 [넘파이 튜토리얼](tools_numpy.ipynb)을 둘러 보세요." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "\n", " \n", "
\n", " 구글 코랩에서 실행하기\n", "
" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "# 설정" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "먼저 `pandas`를 임포트합니다. 보통 `pd`로 임포트합니다:" ] }, { "cell_type": "code", "execution_count": 1, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:24.221923Z", "iopub.status.busy": "2020-10-16T07:31:24.220070Z", "iopub.status.idle": "2020-10-16T07:31:24.555259Z", "shell.execute_reply": "2020-10-16T07:31:24.556630Z" } }, "outputs": [], "source": [ "import pandas as pd" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "# `Series` 객체\n", "\n", "`pandas` 라이브러리는 다음과 같은 유용한 데이터 구조를 포함하고 있습니다:\n", "\n", "* `Series` 객체를 곧 이어서 설명하겠습니다. `Series` 객체는 1D 배열입니다. (열 이름과 행 레이블을 가진) 스프레드시트의 열과 비슷합니다.\n", "* `DataFrame` 객체는 2D 테이블입니다. (열 이름과 행 레이블을 가진) 스프레드시트와 비슷합니다." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## `Series` 만들기\n", "\n", "첫 번째 `Series` 객체를 만들어 보죠!" ] }, { "cell_type": "code", "execution_count": 2, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:24.570090Z", "iopub.status.busy": "2020-10-16T07:31:24.568601Z", "iopub.status.idle": "2020-10-16T07:31:24.577334Z", "shell.execute_reply": "2020-10-16T07:31:24.578463Z" } }, "outputs": [ { "data": { "text/plain": [ "0 2\n", "1 -1\n", "2 3\n", "3 5\n", "dtype: int64" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "s = pd.Series([2,-1,3,5])\n", "s" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 1D `ndarray`와 비슷합니다\n", "\n", "`Series` 객체는 넘파이 `ndarray`와 비슷하게 동작합니다. 넘파이 함수에 매개변수로 종종 전달할 수 있습니다:" ] }, { "cell_type": "code", "execution_count": 3, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:24.588613Z", "iopub.status.busy": "2020-10-16T07:31:24.587550Z", "iopub.status.idle": "2020-10-16T07:31:24.592275Z", "shell.execute_reply": "2020-10-16T07:31:24.593060Z" } }, "outputs": [ { "data": { "text/plain": [ "0 7.389056\n", "1 0.367879\n", "2 20.085537\n", "3 148.413159\n", "dtype: float64" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "import numpy as np\n", "np.exp(s)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "`Series` 객체에 대한 산술 연산도 가능합니다. `ndarray`와 비슷하게 *원소별*로 적용됩니다:" ] }, { "cell_type": "code", "execution_count": 4, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:24.600732Z", "iopub.status.busy": "2020-10-16T07:31:24.599483Z", "iopub.status.idle": "2020-10-16T07:31:24.613392Z", "shell.execute_reply": "2020-10-16T07:31:24.614382Z" } }, "outputs": [ { "data": { "text/plain": [ "0 1002\n", "1 1999\n", "2 3003\n", "3 4005\n", "dtype: int64" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "s + [1000,2000,3000,4000]" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "넘파이와 비슷하게 `Series`에 하나의 숫자를 더하면 `Series`에 있는 모든 원소에 더해집니다. 이를 *브로드캐스팅*(broadcasting)이라고 합니다:" ] }, { "cell_type": "code", "execution_count": 5, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:24.623100Z", "iopub.status.busy": "2020-10-16T07:31:24.621859Z", "iopub.status.idle": "2020-10-16T07:31:24.626335Z", "shell.execute_reply": "2020-10-16T07:31:24.627258Z" } }, "outputs": [ { "data": { "text/plain": [ "0 1002\n", "1 999\n", "2 1003\n", "3 1005\n", "dtype: int64" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "s + 1000" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "`*`나 `/` 같은 모든 이항 연산과 심지어 조건 연산에서도 마찬가지입니다:" ] }, { "cell_type": "code", "execution_count": 6, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:24.636724Z", "iopub.status.busy": "2020-10-16T07:31:24.635629Z", "iopub.status.idle": "2020-10-16T07:31:24.640020Z", "shell.execute_reply": "2020-10-16T07:31:24.641002Z" } }, "outputs": [ { "data": { "text/plain": [ "0 False\n", "1 True\n", "2 False\n", "3 False\n", "dtype: bool" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "s < 0" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 인덱스 레이블\n", "\n", "`Series` 객체에 있는 각 원소는 *인덱스 레이블*(index label)이라 불리는 고유한 식별자를 가지고 있습니다. 기본적으로 `Series`에 있는 원소의 순서입니다(`0`에서 시작합니다). 하지만 수동으로 인덱스 레이블을 지정할 수도 있습니다:" ] }, { "cell_type": "code", "execution_count": 7, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:24.652237Z", "iopub.status.busy": "2020-10-16T07:31:24.651072Z", "iopub.status.idle": "2020-10-16T07:31:24.655568Z", "shell.execute_reply": "2020-10-16T07:31:24.656530Z" } }, "outputs": [ { "data": { "text/plain": [ "alice 68\n", "bob 83\n", "charles 112\n", "darwin 68\n", "dtype: int64" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "s2 = pd.Series([68, 83, 112, 68], index=[\"alice\", \"bob\", \"charles\", \"darwin\"])\n", "s2" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "그다음 `dict`처럼 `Series`를 사용할 수 있습니다:" ] }, { "cell_type": "code", "execution_count": 8, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:24.664537Z", "iopub.status.busy": "2020-10-16T07:31:24.663371Z", "iopub.status.idle": "2020-10-16T07:31:24.667750Z", "shell.execute_reply": "2020-10-16T07:31:24.668655Z" } }, "outputs": [ { "data": { "text/plain": [ "83" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "s2[\"bob\"]" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "일반 배열처럼 정수 인덱스를 사용하여 계속 원소에 접근할 수 있습니다:" ] }, { "cell_type": "code", "execution_count": 9, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:24.676616Z", "iopub.status.busy": "2020-10-16T07:31:24.675524Z", "iopub.status.idle": "2020-10-16T07:31:24.680902Z", "shell.execute_reply": "2020-10-16T07:31:24.679919Z" } }, "outputs": [ { "data": { "text/plain": [ "83" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "s2[1]" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "레이블이나 정수를 사용해 접근할 때 명확하게 하기 위해 레이블은 `loc` 속성을 사용하고 정수는 `iloc` 속성을 사용하는 것이 좋습니다:" ] }, { "cell_type": "code", "execution_count": 10, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:24.688670Z", "iopub.status.busy": "2020-10-16T07:31:24.687572Z", "iopub.status.idle": "2020-10-16T07:31:24.691843Z", "shell.execute_reply": "2020-10-16T07:31:24.692745Z" } }, "outputs": [ { "data": { "text/plain": [ "83" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "s2.loc[\"bob\"]" ] }, { "cell_type": "code", "execution_count": 11, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:24.700414Z", "iopub.status.busy": "2020-10-16T07:31:24.699308Z", "iopub.status.idle": "2020-10-16T07:31:24.704534Z", "shell.execute_reply": "2020-10-16T07:31:24.703582Z" } }, "outputs": [ { "data": { "text/plain": [ "83" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "s2.iloc[1]" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "`Series`는 인덱스 레이블을 슬라이싱할 수도 있습니다:" ] }, { "cell_type": "code", "execution_count": 12, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:24.713637Z", "iopub.status.busy": "2020-10-16T07:31:24.712448Z", "iopub.status.idle": "2020-10-16T07:31:24.717062Z", "shell.execute_reply": "2020-10-16T07:31:24.718032Z" } }, "outputs": [ { "data": { "text/plain": [ "bob 83\n", "charles 112\n", "dtype: int64" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "s2.iloc[1:3]" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "기본 정수 레이블을 사용할 때 예상 외의 결과를 만들 수 있기 때문에 주의해야 합니다:" ] }, { "cell_type": "code", "execution_count": 13, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:24.727693Z", "iopub.status.busy": "2020-10-16T07:31:24.726532Z", "iopub.status.idle": "2020-10-16T07:31:24.731715Z", "shell.execute_reply": "2020-10-16T07:31:24.730767Z" } }, "outputs": [ { "data": { "text/plain": [ "0 1000\n", "1 1001\n", "2 1002\n", "3 1003\n", "dtype: int64" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "surprise = pd.Series([1000, 1001, 1002, 1003])\n", "surprise" ] }, { "cell_type": "code", "execution_count": 14, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:24.743690Z", "iopub.status.busy": "2020-10-16T07:31:24.742592Z", "iopub.status.idle": "2020-10-16T07:31:24.747552Z", "shell.execute_reply": "2020-10-16T07:31:24.748475Z" } }, "outputs": [ { "data": { "text/plain": [ "2 1002\n", "3 1003\n", "dtype: int64" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "surprise_slice = surprise[2:]\n", "surprise_slice" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "보세요. 첫 번째 원소의 인덱스 레이블이 `2`입니다. 따라서 슬라이싱 결과에서 인덱스 레이블 `0`인 원소는 없습니다:" ] }, { "cell_type": "code", "execution_count": 15, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:24.756602Z", "iopub.status.busy": "2020-10-16T07:31:24.755419Z", "iopub.status.idle": "2020-10-16T07:31:24.759801Z", "shell.execute_reply": "2020-10-16T07:31:24.760708Z" } }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "키 에러: 0\n" ] } ], "source": [ "try:\n", " surprise_slice[0]\n", "except KeyError as e:\n", " print(\"키 에러:\", e)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "하지만 `iloc` 속성을 사용해 정수 인덱스로 원소에 접근할 수 있습니다. `Series` 객체를 사용할 때 `loc`와 `iloc`를 사용하는 것이 좋은 이유입니다:" ] }, { "cell_type": "code", "execution_count": 16, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:24.768724Z", "iopub.status.busy": "2020-10-16T07:31:24.767621Z", "iopub.status.idle": "2020-10-16T07:31:24.772216Z", "shell.execute_reply": "2020-10-16T07:31:24.773102Z" } }, "outputs": [ { "data": { "text/plain": [ "1002" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "surprise_slice.iloc[0]" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## `dict`에서 초기화\n", "\n", "`dict`에서 `Series` 객체를 만들 수 있습니다. 키는 인덱스 레이블로 사용됩니다:" ] }, { "cell_type": "code", "execution_count": 17, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:24.787621Z", "iopub.status.busy": "2020-10-16T07:31:24.786507Z", "iopub.status.idle": "2020-10-16T07:31:24.792357Z", "shell.execute_reply": "2020-10-16T07:31:24.791273Z" } }, "outputs": [ { "data": { "text/plain": [ "alice 68\n", "bob 83\n", "colin 86\n", "darwin 68\n", "dtype: int64" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "weights = {\"alice\": 68, \"bob\": 83, \"colin\": 86, \"darwin\": 68}\n", "s3 = pd.Series(weights)\n", "s3" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "`Series`에 포함할 원소를 제어하고 `index`를 지정하여 명시적으로 순서를 결정할 수 있습니다:" ] }, { "cell_type": "code", "execution_count": 18, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:24.802869Z", "iopub.status.busy": "2020-10-16T07:31:24.801619Z", "iopub.status.idle": "2020-10-16T07:31:24.805950Z", "shell.execute_reply": "2020-10-16T07:31:24.806812Z" } }, "outputs": [ { "data": { "text/plain": [ "colin 86\n", "alice 68\n", "dtype: int64" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "s4 = pd.Series(weights, index = [\"colin\", \"alice\"])\n", "s4" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 자동 정렬\n", "\n", "여러 개의 `Series` 객체를 다룰 때 `pandas`는 자동으로 인덱스 레이블에 따라 원소를 정렬합니다." ] }, { "cell_type": "code", "execution_count": 19, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:24.819432Z", "iopub.status.busy": "2020-10-16T07:31:24.818333Z", "iopub.status.idle": "2020-10-16T07:31:24.824399Z", "shell.execute_reply": "2020-10-16T07:31:24.825448Z" } }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Index(['alice', 'bob', 'charles', 'darwin'], dtype='object')\n", "Index(['alice', 'bob', 'colin', 'darwin'], dtype='object')\n" ] }, { "data": { "text/plain": [ "alice 136.0\n", "bob 166.0\n", "charles NaN\n", "colin NaN\n", "darwin 136.0\n", "dtype: float64" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "print(s2.keys())\n", "print(s3.keys())\n", "\n", "s2 + s3" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "만들어진 `Series`는 `s2`와 `s3`의 인덱스 레이블의 합집합을 담고 있습니다. `s2`에 `\"colin\"`이 없고 `s3`에 `\"charles\"`가 없기 때문에 이 원소는 `NaN` 값을 가집니다(Not-a-Number는 *누락*이란 의미입니다).\n", "\n", "자동 정렬은 구조가 다고 누락된 값이 있는 여러 데이터를 다룰 때 매우 편리합니다. 하지만 올바른 인덱스 레이블을 지정하는 것을 잊는다면 원치않는 결과를 얻을 수 있습니다:" ] }, { "cell_type": "code", "execution_count": 20, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:24.839789Z", "iopub.status.busy": "2020-10-16T07:31:24.838536Z", "iopub.status.idle": "2020-10-16T07:31:24.845810Z", "shell.execute_reply": "2020-10-16T07:31:24.846735Z" } }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "s2 = [ 68 83 112 68]\n", "s5 = [1000 1000 1000 1000]\n" ] }, { "data": { "text/plain": [ "alice NaN\n", "bob NaN\n", "charles NaN\n", "darwin NaN\n", "0 NaN\n", "1 NaN\n", "2 NaN\n", "3 NaN\n", "dtype: float64" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "s5 = pd.Series([1000,1000,1000,1000])\n", "print(\"s2 =\", s2.values)\n", "print(\"s5 =\", s5.values)\n", "\n", "s2 + s5" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "레이블이 하나도 맞지 않기 때문에 판다스가 이 `Series`를 정렬할 수 없습니다. 따라서 모두 `NaN`이 되었습니다." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 스칼라로 초기화\n", "\n", "스칼라와 인덱스 레이블의 리스트로 `Series` 객체를 초기화할 수도 있습니다: 모든 원소가 이 스칼라 값으로 설정됩니다." ] }, { "cell_type": "code", "execution_count": 21, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:24.857808Z", "iopub.status.busy": "2020-10-16T07:31:24.856592Z", "iopub.status.idle": "2020-10-16T07:31:24.861265Z", "shell.execute_reply": "2020-10-16T07:31:24.862233Z" } }, "outputs": [ { "data": { "text/plain": [ "life 42\n", "universe 42\n", "everything 42\n", "dtype: int64" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "meaning = pd.Series(42, [\"life\", \"universe\", \"everything\"])\n", "meaning" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## `Series` 이름\n", "\n", "`Series`는 `name`을 가질 수 있습니다:" ] }, { "cell_type": "code", "execution_count": 22, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:24.874388Z", "iopub.status.busy": "2020-10-16T07:31:24.873208Z", "iopub.status.idle": "2020-10-16T07:31:24.878224Z", "shell.execute_reply": "2020-10-16T07:31:24.879152Z" } }, "outputs": [ { "data": { "text/plain": [ "bob 83\n", "alice 68\n", "Name: weights, dtype: int64" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "s6 = pd.Series([83, 68], index=[\"bob\", \"alice\"], name=\"weights\")\n", "s6" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## `Series` 그래프 출력\n", "\n", "맷플롯립을 사용해 `Series` 데이터를 쉽게 그래프로 출력할 수 있습니다(맷플롯립에 대한 자세한 설명은 [맷플롯립 튜토리얼](tools_matplotlib.ipynb)을 참고하세요). 맷플롯립을 임포트하고 `plot()` 메서드를 호출하면 끝입니다:" ] }, { "cell_type": "code", "execution_count": 23, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:24.893980Z", "iopub.status.busy": "2020-10-16T07:31:24.892680Z", "iopub.status.idle": "2020-10-16T07:31:25.181629Z", "shell.execute_reply": "2020-10-16T07:31:25.183074Z" }, "scrolled": true }, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "%matplotlib inline\n", "import matplotlib.pyplot as plt\n", "temperatures = [4.4,5.1,6.1,6.2,6.1,6.1,5.7,5.2,4.7,4.1,3.9,3.5]\n", "s7 = pd.Series(temperatures, name=\"Temperature\")\n", "s7.plot()\n", "plt.show()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "데이터를 그래프로 출력하는데 많은 *옵션*이 있습니다. 여기에서 모두 나열할 필요는 없습니다. 특정 종류의 그래프(히스토그램, 파이 차트 등)가 필요하면 판다스 문서의 [시각화](http://pandas.pydata.org/pandas-docs/stable/visualization.html) 섹션에서 예제 코드를 참고하세요." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "# 시간 다루기\n", "\n", "많은 데이터셋에 타임스탬프가 포함되어 있습니다. 판다스는 이런 데이터를 다루는데 뛰어납니다:\n", "* (2016Q3 같은) 기간과 (\"monthly\" 같은) 빈도를 표현할 수 있습니다.\n", "* 기간을 실제 타임스탬프로 변환하거나 그 반대로 변환할 수 있습니다.\n", "* 데이터를 리샘플링하고 원하는 방식으로 값을 모을 수 있습니다.\n", "* 시간대를 다룰 수 있습니다.\n", "\n", "## 시간 범위\n", "\n", "먼저 `pd.date_range()`를 사용해 시계열을 만들어 보죠. 이 함수는 2016년 10월 29일 5:30pm에서 시작하여 12시간마다 하나의 datetime을 담고 있는 `DatetimeIndex`를 반환합니다." ] }, { "cell_type": "code", "execution_count": 24, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:25.201288Z", "iopub.status.busy": "2020-10-16T07:31:25.199933Z", "iopub.status.idle": "2020-10-16T07:31:25.204600Z", "shell.execute_reply": "2020-10-16T07:31:25.205726Z" } }, "outputs": [ { "data": { "text/plain": [ "DatetimeIndex(['2016-10-29 17:30:00', '2016-10-29 18:30:00',\n", " '2016-10-29 19:30:00', '2016-10-29 20:30:00',\n", " '2016-10-29 21:30:00', '2016-10-29 22:30:00',\n", " '2016-10-29 23:30:00', '2016-10-30 00:30:00',\n", " '2016-10-30 01:30:00', '2016-10-30 02:30:00',\n", " '2016-10-30 03:30:00', '2016-10-30 04:30:00'],\n", " dtype='datetime64[ns]', freq='H')" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "dates = pd.date_range('2016/10/29 5:30pm', periods=12, freq='H')\n", "dates" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "이 `DatetimeIndex`를 `Series`의 인덱스로 사용할수 있습니다:" ] }, { "cell_type": "code", "execution_count": 25, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:25.217308Z", "iopub.status.busy": "2020-10-16T07:31:25.215973Z", "iopub.status.idle": "2020-10-16T07:31:25.220460Z", "shell.execute_reply": "2020-10-16T07:31:25.221384Z" } }, "outputs": [ { "data": { "text/plain": [ "2016-10-29 17:30:00 4.4\n", "2016-10-29 18:30:00 5.1\n", "2016-10-29 19:30:00 6.1\n", "2016-10-29 20:30:00 6.2\n", "2016-10-29 21:30:00 6.1\n", "2016-10-29 22:30:00 6.1\n", "2016-10-29 23:30:00 5.7\n", "2016-10-30 00:30:00 5.2\n", "2016-10-30 01:30:00 4.7\n", "2016-10-30 02:30:00 4.1\n", "2016-10-30 03:30:00 3.9\n", "2016-10-30 04:30:00 3.5\n", "Freq: H, dtype: float64" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "temp_series = pd.Series(temperatures, dates)\n", "temp_series" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "이 시리즈를 그래프로 출력해 보죠:" ] }, { "cell_type": "code", "execution_count": 26, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:25.250697Z", "iopub.status.busy": "2020-10-16T07:31:25.249514Z", "iopub.status.idle": "2020-10-16T07:31:25.416215Z", "shell.execute_reply": "2020-10-16T07:31:25.417660Z" } }, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "temp_series.plot(kind=\"bar\")\n", "\n", "plt.grid(True)\n", "plt.show()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 리샘플링\n", "\n", "판다스는 매우 간단하게 시계열을 리샘플링할 수 있습니다. `resample()` 메서드를 호출하고 새로운 주기를 지정하면 됩니다:" ] }, { "cell_type": "code", "execution_count": 27, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:25.425130Z", "iopub.status.busy": "2020-10-16T07:31:25.424093Z", "iopub.status.idle": "2020-10-16T07:31:25.441445Z", "shell.execute_reply": "2020-10-16T07:31:25.440279Z" } }, "outputs": [ { "data": { "text/plain": [ "" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "temp_series_freq_2H = temp_series.resample(\"2H\")\n", "temp_series_freq_2H" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "리샘플링 연산은 사실 지연된 연산입니다. 그래서 `Series` 객체 대신 `DatetimeIndexResampler` 객체가 반환됩니다. 실제 리샘플링 연산을 수행하려면 `mean()` 같은 메서드를 호출할 수 있습니다. 이 메서드는 연속적인 시간 쌍에 대해 평균을 계산합니다:" ] }, { "cell_type": "code", "execution_count": 28, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:25.448657Z", "iopub.status.busy": "2020-10-16T07:31:25.446880Z", "iopub.status.idle": "2020-10-16T07:31:25.451798Z", "shell.execute_reply": "2020-10-16T07:31:25.452607Z" } }, "outputs": [], "source": [ "temp_series_freq_2H = temp_series_freq_2H.mean()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "결과를 그래프로 출력해 보죠:" ] }, { "cell_type": "code", "execution_count": 29, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:25.510003Z", "iopub.status.busy": "2020-10-16T07:31:25.508970Z", "iopub.status.idle": "2020-10-16T07:31:25.597932Z", "shell.execute_reply": "2020-10-16T07:31:25.599362Z" } }, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "temp_series_freq_2H.plot(kind=\"bar\")\n", "plt.show()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "2시간 간격으로 어떻게 값이 수집되었는지 확인해 보세요. 예를 들어 6-8pm 간격을 보면 6:30pm에서 `5.1`이고 7:30pm에서 `6.1`입니다. 리샘플링 후에 `5.1`과 `6.1`의 평균인 `5.6` 하나를 얻었습니다. 평균말고 어떤 집계 함수(aggregation function)도 사용할 수 있습니다. 예를 들어 각 기간에서 최솟값을 찾을 수 있습니다:" ] }, { "cell_type": "code", "execution_count": 30, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:25.607951Z", "iopub.status.busy": "2020-10-16T07:31:25.606867Z", "iopub.status.idle": "2020-10-16T07:31:25.611285Z", "shell.execute_reply": "2020-10-16T07:31:25.612183Z" } }, "outputs": [ { "data": { "text/plain": [ "2016-10-29 16:00:00 4.4\n", "2016-10-29 18:00:00 5.1\n", "2016-10-29 20:00:00 6.1\n", "2016-10-29 22:00:00 5.7\n", "2016-10-30 00:00:00 4.7\n", "2016-10-30 02:00:00 3.9\n", "2016-10-30 04:00:00 3.5\n", "Freq: 2H, dtype: float64" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "temp_series_freq_2H = temp_series.resample(\"2H\").min()\n", "temp_series_freq_2H" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "또는 동일한 효과를 내는 `apply()` 메서드를 사용할 수 있습니다:" ] }, { "cell_type": "code", "execution_count": 31, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:25.629068Z", "iopub.status.busy": "2020-10-16T07:31:25.627935Z", "iopub.status.idle": "2020-10-16T07:31:25.632613Z", "shell.execute_reply": "2020-10-16T07:31:25.633842Z" } }, "outputs": [ { "data": { "text/plain": [ "2016-10-29 16:00:00 4.4\n", "2016-10-29 18:00:00 5.1\n", "2016-10-29 20:00:00 6.1\n", "2016-10-29 22:00:00 5.7\n", "2016-10-30 00:00:00 4.7\n", "2016-10-30 02:00:00 3.9\n", "2016-10-30 04:00:00 3.5\n", "Freq: 2H, dtype: float64" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "temp_series_freq_2H = temp_series.resample(\"2H\").apply(np.min)\n", "temp_series_freq_2H" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 업샘플링과 보간\n", "\n", "다운샘플링의 예를 보았습니다. 하지만 업샘플링(즉, 빈도를 높입니다)도 할 수 있습니다. 하지만 데이터에 구멍을 만듭니다:" ] }, { "cell_type": "code", "execution_count": 32, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:25.646456Z", "iopub.status.busy": "2020-10-16T07:31:25.645255Z", "iopub.status.idle": "2020-10-16T07:31:25.649342Z", "shell.execute_reply": "2020-10-16T07:31:25.650294Z" } }, "outputs": [ { "data": { "text/plain": [ "2016-10-29 17:30:00 4.4\n", "2016-10-29 17:45:00 NaN\n", "2016-10-29 18:00:00 NaN\n", "2016-10-29 18:15:00 NaN\n", "2016-10-29 18:30:00 5.1\n", "2016-10-29 18:45:00 NaN\n", "2016-10-29 19:00:00 NaN\n", "2016-10-29 19:15:00 NaN\n", "2016-10-29 19:30:00 6.1\n", "2016-10-29 19:45:00 NaN\n", "Freq: 15T, dtype: float64" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "temp_series_freq_15min = temp_series.resample(\"15Min\").mean()\n", "temp_series_freq_15min.head(n=10) # `head`는 상위 n 개의 값만 출력합니다" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "한가지 방법은 보간으로 사이를 채우는 것입니다. 이렇게 하려면 `interpolate()` 메서드를 호출합니다. 기본값은 선형 보간이지만 3차 보간(cubic interpolation) 같은 다른 방법을 선택할 수 있습니다:" ] }, { "cell_type": "code", "execution_count": 33, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:25.661000Z", "iopub.status.busy": "2020-10-16T07:31:25.659794Z", "iopub.status.idle": "2020-10-16T07:31:25.736426Z", "shell.execute_reply": "2020-10-16T07:31:25.735488Z" }, "scrolled": true }, "outputs": [ { "data": { "text/plain": [ "2016-10-29 17:30:00 4.400000\n", "2016-10-29 17:45:00 4.452911\n", "2016-10-29 18:00:00 4.605113\n", "2016-10-29 18:15:00 4.829758\n", "2016-10-29 18:30:00 5.100000\n", "2016-10-29 18:45:00 5.388992\n", "2016-10-29 19:00:00 5.669887\n", "2016-10-29 19:15:00 5.915839\n", "2016-10-29 19:30:00 6.100000\n", "2016-10-29 19:45:00 6.203621\n", "Freq: 15T, dtype: float64" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "temp_series_freq_15min = temp_series.resample(\"15Min\").interpolate(method=\"cubic\")\n", "temp_series_freq_15min.head(n=10)" ] }, { "cell_type": "code", "execution_count": 34, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:25.766770Z", "iopub.status.busy": "2020-10-16T07:31:25.764902Z", "iopub.status.idle": "2020-10-16T07:31:25.929920Z", "shell.execute_reply": "2020-10-16T07:31:25.931211Z" } }, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "temp_series.plot(label=\"Period: 1 hour\")\n", "temp_series_freq_15min.plot(label=\"Period: 15 minutes\")\n", "plt.legend()\n", "plt.show()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 시간대\n", "\n", "기본적으로 datetime은 *단순*합니다. 시간대(timezone)을 고려하지 않죠. 따라서 2016-10-30 02:30는 파리나 뉴욕이나 2016년 10월 30일 2:30pm입니다. `tz_localize()` 메서드로 시간대를 고려한 datetime을 만들 수 있습니다:" ] }, { "cell_type": "code", "execution_count": 35, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:25.939079Z", "iopub.status.busy": "2020-10-16T07:31:25.937520Z", "iopub.status.idle": "2020-10-16T07:31:25.969458Z", "shell.execute_reply": "2020-10-16T07:31:25.970302Z" } }, "outputs": [ { "data": { "text/plain": [ "2016-10-29 17:30:00-04:00 4.4\n", "2016-10-29 18:30:00-04:00 5.1\n", "2016-10-29 19:30:00-04:00 6.1\n", "2016-10-29 20:30:00-04:00 6.2\n", "2016-10-29 21:30:00-04:00 6.1\n", "2016-10-29 22:30:00-04:00 6.1\n", "2016-10-29 23:30:00-04:00 5.7\n", "2016-10-30 00:30:00-04:00 5.2\n", "2016-10-30 01:30:00-04:00 4.7\n", "2016-10-30 02:30:00-04:00 4.1\n", "2016-10-30 03:30:00-04:00 3.9\n", "2016-10-30 04:30:00-04:00 3.5\n", "dtype: float64" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "temp_series_ny = temp_series.tz_localize(\"America/New_York\")\n", "temp_series_ny" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "모든 datetime에 `-04:00`이 추가됩니다. 즉 모든 시간은 [UTC](https://en.wikipedia.org/wiki/Coordinated_Universal_Time) - 4시간을 의미합니다.\n", "\n", "다음처럼 파리 시간대로 바꿀 수 있습니다:" ] }, { "cell_type": "code", "execution_count": 36, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:25.975427Z", "iopub.status.busy": "2020-10-16T07:31:25.974415Z", "iopub.status.idle": "2020-10-16T07:31:25.981708Z", "shell.execute_reply": "2020-10-16T07:31:25.982510Z" } }, "outputs": [ { "data": { "text/plain": [ "2016-10-29 23:30:00+02:00 4.4\n", "2016-10-30 00:30:00+02:00 5.1\n", "2016-10-30 01:30:00+02:00 6.1\n", "2016-10-30 02:30:00+02:00 6.2\n", "2016-10-30 02:30:00+01:00 6.1\n", "2016-10-30 03:30:00+01:00 6.1\n", "2016-10-30 04:30:00+01:00 5.7\n", "2016-10-30 05:30:00+01:00 5.2\n", "2016-10-30 06:30:00+01:00 4.7\n", "2016-10-30 07:30:00+01:00 4.1\n", "2016-10-30 08:30:00+01:00 3.9\n", "2016-10-30 09:30:00+01:00 3.5\n", "dtype: float64" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "temp_series_paris = temp_series_ny.tz_convert(\"Europe/Paris\")\n", "temp_series_paris" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "UTC와의 차이가 `+02:00`에서 `+01:00`으로 바뀐 것을 알 수 있습니다. 이는 프랑스가 10월 30일 3am에 겨울 시간으로 바꾸기 때문입니다(2am으로 바뀝니다). 따라서 2:30am이 두 번 등장합니다! 시간대가 없는 표현으로 돌아가 보죠(시간대가 없이 지역 시간으로 매시간 로그를 기록하는 경우 이와 비슷할 것입니다):" ] }, { "cell_type": "code", "execution_count": 37, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:25.992461Z", "iopub.status.busy": "2020-10-16T07:31:25.991439Z", "iopub.status.idle": "2020-10-16T07:31:25.996320Z", "shell.execute_reply": "2020-10-16T07:31:25.997330Z" } }, "outputs": [ { "data": { "text/plain": [ "2016-10-29 23:30:00 4.4\n", "2016-10-30 00:30:00 5.1\n", "2016-10-30 01:30:00 6.1\n", "2016-10-30 02:30:00 6.2\n", "2016-10-30 02:30:00 6.1\n", "2016-10-30 03:30:00 6.1\n", "2016-10-30 04:30:00 5.7\n", "2016-10-30 05:30:00 5.2\n", "2016-10-30 06:30:00 4.7\n", "2016-10-30 07:30:00 4.1\n", "2016-10-30 08:30:00 3.9\n", "2016-10-30 09:30:00 3.5\n", "dtype: float64" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "temp_series_paris_naive = temp_series_paris.tz_localize(None)\n", "temp_series_paris_naive" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "이렇게 되면 `02:30`이 정말 애매합니다. 시간대가 없는 datetime을 파리 시간대로 바꿀 때 에러가 발생합니다:" ] }, { "cell_type": "code", "execution_count": 38, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:26.006045Z", "iopub.status.busy": "2020-10-16T07:31:26.004859Z", "iopub.status.idle": "2020-10-16T07:31:26.009183Z", "shell.execute_reply": "2020-10-16T07:31:26.010136Z" } }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "\n", "Cannot infer dst time from 2016-10-30 02:30:00, try using the 'ambiguous' argument\n" ] } ], "source": [ "try:\n", " temp_series_paris_naive.tz_localize(\"Europe/Paris\")\n", "except Exception as e:\n", " print(type(e))\n", " print(e)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "다행히 `ambiguous` 매개변수를 사용하면 판다스가 타임스탬프의 순서를 기반으로 적절한 DST(일광 절약 시간제)를 추측합니다:" ] }, { "cell_type": "code", "execution_count": 39, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:26.021302Z", "iopub.status.busy": "2020-10-16T07:31:26.020109Z", "iopub.status.idle": "2020-10-16T07:31:26.024328Z", "shell.execute_reply": "2020-10-16T07:31:26.025304Z" } }, "outputs": [ { "data": { "text/plain": [ "2016-10-29 23:30:00+02:00 4.4\n", "2016-10-30 00:30:00+02:00 5.1\n", "2016-10-30 01:30:00+02:00 6.1\n", "2016-10-30 02:30:00+02:00 6.2\n", "2016-10-30 02:30:00+01:00 6.1\n", "2016-10-30 03:30:00+01:00 6.1\n", "2016-10-30 04:30:00+01:00 5.7\n", "2016-10-30 05:30:00+01:00 5.2\n", "2016-10-30 06:30:00+01:00 4.7\n", "2016-10-30 07:30:00+01:00 4.1\n", "2016-10-30 08:30:00+01:00 3.9\n", "2016-10-30 09:30:00+01:00 3.5\n", "dtype: float64" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "temp_series_paris_naive.tz_localize(\"Europe/Paris\", ambiguous=\"infer\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 기간\n", "\n", "`pd.period_range()` 함수는 `DatetimeIndex`가 아니라 `PeriodIndex`를 반환합니다. 예를 들어 2016과 2017년의 전체 분기를 가져와 보죠:" ] }, { "cell_type": "code", "execution_count": 40, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:26.038037Z", "iopub.status.busy": "2020-10-16T07:31:26.036774Z", "iopub.status.idle": "2020-10-16T07:31:26.043054Z", "shell.execute_reply": "2020-10-16T07:31:26.044094Z" } }, "outputs": [ { "data": { "text/plain": [ "PeriodIndex(['2016Q1', '2016Q2', '2016Q3', '2016Q4', '2017Q1', '2017Q2',\n", " '2017Q3', '2017Q4'],\n", " dtype='period[Q-DEC]', freq='Q-DEC')" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "quarters = pd.period_range('2016Q1', periods=8, freq='Q')\n", "quarters" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "`PeriodIndex`에 숫자 `N`을 추가하면 `PeriodIndex` 빈도의 `N` 배만큼 이동시킵니다:" ] }, { "cell_type": "code", "execution_count": 41, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:26.052480Z", "iopub.status.busy": "2020-10-16T07:31:26.051248Z", "iopub.status.idle": "2020-10-16T07:31:26.055609Z", "shell.execute_reply": "2020-10-16T07:31:26.056455Z" } }, "outputs": [ { "data": { "text/plain": [ "PeriodIndex(['2016Q4', '2017Q1', '2017Q2', '2017Q3', '2017Q4', '2018Q1',\n", " '2018Q2', '2018Q3'],\n", " dtype='period[Q-DEC]', freq='Q-DEC')" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "quarters + 3" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "`asfreq()` 메서드를 사용하면 `PeriodIndex`의 빈도를 바꿀 수 있습니다. 모든 기간이 늘어나거나 줄어듭니다. 예를 들어 분기 기간을 모두 월별 기간으로 바꾸어 보죠:" ] }, { "cell_type": "code", "execution_count": 42, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:26.065095Z", "iopub.status.busy": "2020-10-16T07:31:26.064006Z", "iopub.status.idle": "2020-10-16T07:31:26.068838Z", "shell.execute_reply": "2020-10-16T07:31:26.069767Z" } }, "outputs": [ { "data": { "text/plain": [ "PeriodIndex(['2016-03', '2016-06', '2016-09', '2016-12', '2017-03', '2017-06',\n", " '2017-09', '2017-12'],\n", " dtype='period[M]', freq='M')" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "quarters.asfreq(\"M\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "기본적으로 `asfreq`는 각 기간의 끝에 맞춥니다. 기간의 시작에 맞추도록 변경할 수 있습니다:" ] }, { "cell_type": "code", "execution_count": 43, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:26.079083Z", "iopub.status.busy": "2020-10-16T07:31:26.077918Z", "iopub.status.idle": "2020-10-16T07:31:26.082533Z", "shell.execute_reply": "2020-10-16T07:31:26.083439Z" } }, "outputs": [ { "data": { "text/plain": [ "PeriodIndex(['2016-01', '2016-04', '2016-07', '2016-10', '2017-01', '2017-04',\n", " '2017-07', '2017-10'],\n", " dtype='period[M]', freq='M')" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "quarters.asfreq(\"M\", how=\"start\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "간격을 늘릴 수도 있습니다:" ] }, { "cell_type": "code", "execution_count": 44, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:26.092258Z", "iopub.status.busy": "2020-10-16T07:31:26.091161Z", "iopub.status.idle": "2020-10-16T07:31:26.096928Z", "shell.execute_reply": "2020-10-16T07:31:26.095946Z" } }, "outputs": [ { "data": { "text/plain": [ "PeriodIndex(['2016', '2016', '2016', '2016', '2017', '2017', '2017', '2017'], dtype='period[A-DEC]', freq='A-DEC')" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "quarters.asfreq(\"A\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "물론 `PeriodIndex`로 `Series`를 만들 수 있습니다:" ] }, { "cell_type": "code", "execution_count": 45, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:26.107793Z", "iopub.status.busy": "2020-10-16T07:31:26.106610Z", "iopub.status.idle": "2020-10-16T07:31:26.112111Z", "shell.execute_reply": "2020-10-16T07:31:26.111095Z" } }, "outputs": [ { "data": { "text/plain": [ "2016Q1 300\n", "2016Q2 320\n", "2016Q3 290\n", "2016Q4 390\n", "2017Q1 320\n", "2017Q2 360\n", "2017Q3 310\n", "2017Q4 410\n", "Freq: Q-DEC, dtype: int64" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "quarterly_revenue = pd.Series([300, 320, 290, 390, 320, 360, 310, 410], index = quarters)\n", "quarterly_revenue" ] }, { "cell_type": "code", "execution_count": 46, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:26.140793Z", "iopub.status.busy": "2020-10-16T07:31:26.133036Z", "iopub.status.idle": "2020-10-16T07:31:26.258810Z", "shell.execute_reply": "2020-10-16T07:31:26.260006Z" } }, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "quarterly_revenue.plot(kind=\"line\")\n", "plt.show()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "`to_timestamp`를 호출해서 기간을 타임스탬프로 변경할 수 있습니다. 기본적으로 기간의 첫 번째 날을 반환합니다. 하지만 `how`와 `freq`를 지정해서 기간의 마지막 시간을 얻을 수 있습니다:" ] }, { "cell_type": "code", "execution_count": 47, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:26.268964Z", "iopub.status.busy": "2020-10-16T07:31:26.267481Z", "iopub.status.idle": "2020-10-16T07:31:26.271761Z", "shell.execute_reply": "2020-10-16T07:31:26.272657Z" } }, "outputs": [ { "data": { "text/plain": [ "2016-03-31 23:59:59.999999999 300\n", "2016-06-30 23:59:59.999999999 320\n", "2016-09-30 23:59:59.999999999 290\n", "2016-12-31 23:59:59.999999999 390\n", "2017-03-31 23:59:59.999999999 320\n", "2017-06-30 23:59:59.999999999 360\n", "2017-09-30 23:59:59.999999999 310\n", "2017-12-31 23:59:59.999999999 410\n", "dtype: int64" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "last_hours = quarterly_revenue.to_timestamp(how=\"end\", freq=\"H\")\n", "last_hours" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "`to_peroid`를 호출하면 다시 기간으로 돌아갑니다:" ] }, { "cell_type": "code", "execution_count": 48, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:26.283017Z", "iopub.status.busy": "2020-10-16T07:31:26.281932Z", "iopub.status.idle": "2020-10-16T07:31:26.286503Z", "shell.execute_reply": "2020-10-16T07:31:26.287371Z" } }, "outputs": [ { "data": { "text/plain": [ "2016Q1 300\n", "2016Q2 320\n", "2016Q3 290\n", "2016Q4 390\n", "2017Q1 320\n", "2017Q2 360\n", "2017Q3 310\n", "2017Q4 410\n", "Freq: Q-DEC, dtype: int64" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "last_hours.to_period()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "판다스는 여러 가지 시간 관련 함수를 많이 제공합니다. [온라인 문서](http://pandas.pydata.org/pandas-docs/stable/timeseries.html)를 확인해 보세요. 예를 하나 들면 2016년 매월 마지막 업무일의 9시를 얻는 방법은 다음과 같습니다:" ] }, { "cell_type": "code", "execution_count": 49, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:26.302110Z", "iopub.status.busy": "2020-10-16T07:31:26.300761Z", "iopub.status.idle": "2020-10-16T07:31:26.305420Z", "shell.execute_reply": "2020-10-16T07:31:26.306523Z" } }, "outputs": [ { "data": { "text/plain": [ "PeriodIndex(['2016-01-29 09:00', '2016-02-29 09:00', '2016-03-31 09:00',\n", " '2016-04-29 09:00', '2016-05-31 09:00', '2016-06-30 09:00',\n", " '2016-07-29 09:00', '2016-08-31 09:00', '2016-09-30 09:00',\n", " '2016-10-31 09:00', '2016-11-30 09:00', '2016-12-30 09:00'],\n", " dtype='period[H]', freq='H')" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "months_2016 = pd.period_range(\"2016\", periods=12, freq=\"M\")\n", "one_day_after_last_days = months_2016.asfreq(\"D\") + 1\n", "last_bdays = one_day_after_last_days.to_timestamp() - pd.tseries.offsets.BDay()\n", "last_bdays.to_period(\"H\") + 9" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "# `DataFrame` 객체\n", "\n", "데이터프레임 객체는 스프레드시트를 표현합니다. 셀 값, 열 이름, 행 인덱스 레이블을 가집니다. 다른 열을 바탕으로 열을 계산하는 식을 쓸 수 있고 피봇 테이블을 만들고, 행을 그룹핑하고, 그래프를 그릴 수 있습니다. `DataFrame`을 `Series`의 딕셔너리로 볼 수 있습니다.\n", "\n", "## `DataFrame` 만들기\n", "\n", "`Series` 객체의 딕셔너리를 전달하여 데이터프레임을 만들 수 있습니다:" ] }, { "cell_type": "code", "execution_count": 50, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:26.323422Z", "iopub.status.busy": "2020-10-16T07:31:26.322071Z", "iopub.status.idle": "2020-10-16T07:31:26.329974Z", "shell.execute_reply": "2020-10-16T07:31:26.330949Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
weightbirthyearchildrenhobby
alice681985NaNBiking
bob8319843.0Dancing
charles11219920.0NaN
\n", "
" ], "text/plain": [ " weight birthyear children hobby\n", "alice 68 1985 NaN Biking\n", "bob 83 1984 3.0 Dancing\n", "charles 112 1992 0.0 NaN" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "people_dict = {\n", " \"weight\": pd.Series([68, 83, 112], index=[\"alice\", \"bob\", \"charles\"]),\n", " \"birthyear\": pd.Series([1984, 1985, 1992], index=[\"bob\", \"alice\", \"charles\"], name=\"year\"),\n", " \"children\": pd.Series([0, 3], index=[\"charles\", \"bob\"]),\n", " \"hobby\": pd.Series([\"Biking\", \"Dancing\"], index=[\"alice\", \"bob\"]),\n", "}\n", "people = pd.DataFrame(people_dict)\n", "people" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "몇가지 알아 두어야 할 것은 다음과 같습니다:\n", "\n", "* `Series`는 인덱스를 기반으로 자동으로 정렬됩니다.\n", "* 누란된 값은 `NaN`으로 표현됩니다.\n", "* `Series` 이름은 무시됩니다(`\"year\"`란 이름은 삭제됩니다).\n", "* `DataFrame`은 주피터 노트북에서 멋지게 출력됩니다!" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "예상하는 방식으로 열을 참조할 수 있고 `Serires` 객체가 반환됩니다:" ] }, { "cell_type": "code", "execution_count": 51, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:26.337478Z", "iopub.status.busy": "2020-10-16T07:31:26.336279Z", "iopub.status.idle": "2020-10-16T07:31:26.340155Z", "shell.execute_reply": "2020-10-16T07:31:26.341062Z" } }, "outputs": [ { "data": { "text/plain": [ "alice 1985\n", "bob 1984\n", "charles 1992\n", "Name: birthyear, dtype: int64" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "people[\"birthyear\"]" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "동시에 여러 개의 열을 선택할 수 있습니다:" ] }, { "cell_type": "code", "execution_count": 52, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:26.358410Z", "iopub.status.busy": "2020-10-16T07:31:26.357116Z", "iopub.status.idle": "2020-10-16T07:31:26.362134Z", "shell.execute_reply": "2020-10-16T07:31:26.363233Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
birthyearhobby
alice1985Biking
bob1984Dancing
charles1992NaN
\n", "
" ], "text/plain": [ " birthyear hobby\n", "alice 1985 Biking\n", "bob 1984 Dancing\n", "charles 1992 NaN" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "people[[\"birthyear\", \"hobby\"]]" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "열 리스트나 행 인덱스 레이블을 `DataFrame` 생성자에 전달하면 해당 열과 행으로 채워진 데이터프레임이 반환됩니다. 예를 들면:" ] }, { "cell_type": "code", "execution_count": 53, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:26.383281Z", "iopub.status.busy": "2020-10-16T07:31:26.381945Z", "iopub.status.idle": "2020-10-16T07:31:26.386650Z", "shell.execute_reply": "2020-10-16T07:31:26.387670Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
birthyearweightheight
bob1984.083.0NaN
alice1985.068.0NaN
eugeneNaNNaNNaN
\n", "
" ], "text/plain": [ " birthyear weight height\n", "bob 1984.0 83.0 NaN\n", "alice 1985.0 68.0 NaN\n", "eugene NaN NaN NaN" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "d2 = pd.DataFrame(\n", " people_dict,\n", " columns=[\"birthyear\", \"weight\", \"height\"],\n", " index=[\"bob\", \"alice\", \"eugene\"]\n", " )\n", "d2" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "`DataFrame`을 만드는 또 다른 편리한 방법은 `ndarray`나 리스트의 리스트로 모든 값을 생성자에게 전달하고 열 이름과 행 인덱스 레이블을 각기 지정하는 것입니다:" ] }, { "cell_type": "code", "execution_count": 54, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:26.398021Z", "iopub.status.busy": "2020-10-16T07:31:26.396793Z", "iopub.status.idle": "2020-10-16T07:31:26.413413Z", "shell.execute_reply": "2020-10-16T07:31:26.414561Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
birthyearchildrenhobbyweight
alice1985NaNBiking68
bob19843.0Dancing83
charles19920.0NaN112
\n", "
" ], "text/plain": [ " birthyear children hobby weight\n", "alice 1985 NaN Biking 68\n", "bob 1984 3.0 Dancing 83\n", "charles 1992 0.0 NaN 112" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "values = [\n", " [1985, np.nan, \"Biking\", 68],\n", " [1984, 3, \"Dancing\", 83],\n", " [1992, 0, np.nan, 112]\n", " ]\n", "d3 = pd.DataFrame(\n", " values,\n", " columns=[\"birthyear\", \"children\", \"hobby\", \"weight\"],\n", " index=[\"alice\", \"bob\", \"charles\"]\n", " )\n", "d3" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "누락된 값을 지정하려면 `np.nan`이나 넘파이 마스크 배열을 사용합니다:" ] }, { "cell_type": "code", "execution_count": 55, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:26.425026Z", "iopub.status.busy": "2020-10-16T07:31:26.423521Z", "iopub.status.idle": "2020-10-16T07:31:26.438112Z", "shell.execute_reply": "2020-10-16T07:31:26.439307Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
birthyearchildrenhobbyweight
alice1985NaNBiking68
bob19843Dancing83
charles19920NaN112
\n", "
" ], "text/plain": [ " birthyear children hobby weight\n", "alice 1985 NaN Biking 68\n", "bob 1984 3 Dancing 83\n", "charles 1992 0 NaN 112" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "masked_array = np.ma.asarray(values, dtype=np.object)\n", "masked_array[(0, 2), (1, 2)] = np.ma.masked\n", "d3 = pd.DataFrame(\n", " masked_array,\n", " columns=[\"birthyear\", \"children\", \"hobby\", \"weight\"],\n", " index=[\"alice\", \"bob\", \"charles\"]\n", " )\n", "d3" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "`ndarray` 대신에 `DataFrame` 객체를 전달할 수도 있습니다:" ] }, { "cell_type": "code", "execution_count": 56, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:26.450844Z", "iopub.status.busy": "2020-10-16T07:31:26.449596Z", "iopub.status.idle": "2020-10-16T07:31:26.454051Z", "shell.execute_reply": "2020-10-16T07:31:26.455073Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
hobbychildren
aliceBikingNaN
bobDancing3
\n", "
" ], "text/plain": [ " hobby children\n", "alice Biking NaN\n", "bob Dancing 3" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "d4 = pd.DataFrame(\n", " d3,\n", " columns=[\"hobby\", \"children\"],\n", " index=[\"alice\", \"bob\"]\n", " )\n", "d4" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "딕셔너리의 딕셔너리(또는 리스트의 리스트)로 `DataFrame`을 만들 수 있습니다:" ] }, { "cell_type": "code", "execution_count": 57, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:26.472738Z", "iopub.status.busy": "2020-10-16T07:31:26.466378Z", "iopub.status.idle": "2020-10-16T07:31:26.476045Z", "shell.execute_reply": "2020-10-16T07:31:26.477041Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
birthyearhobbyweightchildren
alice1985Biking68NaN
bob1984Dancing833.0
charles1992NaN1120.0
\n", "
" ], "text/plain": [ " birthyear hobby weight children\n", "alice 1985 Biking 68 NaN\n", "bob 1984 Dancing 83 3.0\n", "charles 1992 NaN 112 0.0" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "people = pd.DataFrame({\n", " \"birthyear\": {\"alice\":1985, \"bob\": 1984, \"charles\": 1992},\n", " \"hobby\": {\"alice\":\"Biking\", \"bob\": \"Dancing\"},\n", " \"weight\": {\"alice\":68, \"bob\": 83, \"charles\": 112},\n", " \"children\": {\"bob\": 3, \"charles\": 0}\n", "})\n", "people" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 멀티 인덱싱\n", "\n", "모든 열이 같은 크기의 튜플이면 멀티 인덱스로 인식합니다. 열 인덱스 레이블에도 같은 방식이 적용됩니다. 예를 들면:" ] }, { "cell_type": "code", "execution_count": 58, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:26.504047Z", "iopub.status.busy": "2020-10-16T07:31:26.502935Z", "iopub.status.idle": "2020-10-16T07:31:26.507572Z", "shell.execute_reply": "2020-10-16T07:31:26.508472Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
publicprivate
birthyearhobbyweightchildren
Parisalice1985Biking68NaN
bob1984Dancing833.0
Londoncharles1992NaN1120.0
\n", "
" ], "text/plain": [ " public private \n", " birthyear hobby weight children\n", "Paris alice 1985 Biking 68 NaN\n", " bob 1984 Dancing 83 3.0\n", "London charles 1992 NaN 112 0.0" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "d5 = pd.DataFrame(\n", " {\n", " (\"public\", \"birthyear\"):\n", " {(\"Paris\",\"alice\"):1985, (\"Paris\",\"bob\"): 1984, (\"London\",\"charles\"): 1992},\n", " (\"public\", \"hobby\"):\n", " {(\"Paris\",\"alice\"):\"Biking\", (\"Paris\",\"bob\"): \"Dancing\"},\n", " (\"private\", \"weight\"):\n", " {(\"Paris\",\"alice\"):68, (\"Paris\",\"bob\"): 83, (\"London\",\"charles\"): 112},\n", " (\"private\", \"children\"):\n", " {(\"Paris\", \"alice\"):np.nan, (\"Paris\",\"bob\"): 3, (\"London\",\"charles\"): 0}\n", " }\n", ")\n", "d5" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "이제 `\"public\"` 열을 모두 담은 `DataFrame`을 손쉽게 만들 수 있습니다:" ] }, { "cell_type": "code", "execution_count": 59, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:26.523804Z", "iopub.status.busy": "2020-10-16T07:31:26.522714Z", "iopub.status.idle": "2020-10-16T07:31:26.527772Z", "shell.execute_reply": "2020-10-16T07:31:26.528758Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
birthyearhobby
Parisalice1985Biking
bob1984Dancing
Londoncharles1992NaN
\n", "
" ], "text/plain": [ " birthyear hobby\n", "Paris alice 1985 Biking\n", " bob 1984 Dancing\n", "London charles 1992 NaN" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "d5[\"public\"]" ] }, { "cell_type": "code", "execution_count": 60, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:26.539921Z", "iopub.status.busy": "2020-10-16T07:31:26.538672Z", "iopub.status.idle": "2020-10-16T07:31:26.543468Z", "shell.execute_reply": "2020-10-16T07:31:26.544424Z" } }, "outputs": [ { "data": { "text/plain": [ "Paris alice Biking\n", " bob Dancing\n", "London charles NaN\n", "Name: (public, hobby), dtype: object" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "d5[\"public\", \"hobby\"] # d5[\"public\"][\"hobby\"]와 같습니다." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 레벨 낮추기\n", "\n", "`d5`를 다시 확인해 보죠:" ] }, { "cell_type": "code", "execution_count": 61, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:26.562331Z", "iopub.status.busy": "2020-10-16T07:31:26.560989Z", "iopub.status.idle": "2020-10-16T07:31:26.565827Z", "shell.execute_reply": "2020-10-16T07:31:26.566935Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
publicprivate
birthyearhobbyweightchildren
Parisalice1985Biking68NaN
bob1984Dancing833.0
Londoncharles1992NaN1120.0
\n", "
" ], "text/plain": [ " public private \n", " birthyear hobby weight children\n", "Paris alice 1985 Biking 68 NaN\n", " bob 1984 Dancing 83 3.0\n", "London charles 1992 NaN 112 0.0" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "d5" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "열의 레벨(level)이 2개이고 인덱스 레벨이 2개입니다. `droplevel()`을 사용해 열 레벨을 낮출 수 있습니다(인덱스도 마찬가지입니다):" ] }, { "cell_type": "code", "execution_count": 62, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:26.584582Z", "iopub.status.busy": "2020-10-16T07:31:26.583237Z", "iopub.status.idle": "2020-10-16T07:31:26.587765Z", "shell.execute_reply": "2020-10-16T07:31:26.588935Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
birthyearhobbyweightchildren
Parisalice1985Biking68NaN
bob1984Dancing833.0
Londoncharles1992NaN1120.0
\n", "
" ], "text/plain": [ " birthyear hobby weight children\n", "Paris alice 1985 Biking 68 NaN\n", " bob 1984 Dancing 83 3.0\n", "London charles 1992 NaN 112 0.0" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "d5.columns = d5.columns.droplevel(level = 0)\n", "d5" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 전치\n", "\n", "`T` 속성을 사용해 열과 인덱스를 바꿀 수 있습니다:" ] }, { "cell_type": "code", "execution_count": 63, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:26.608084Z", "iopub.status.busy": "2020-10-16T07:31:26.606912Z", "iopub.status.idle": "2020-10-16T07:31:26.611322Z", "shell.execute_reply": "2020-10-16T07:31:26.612358Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
ParisLondon
alicebobcharles
birthyear198519841992
hobbyBikingDancingNaN
weight6883112
childrenNaN30
\n", "
" ], "text/plain": [ " Paris London\n", " alice bob charles\n", "birthyear 1985 1984 1992\n", "hobby Biking Dancing NaN\n", "weight 68 83 112\n", "children NaN 3 0" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "d6 = d5.T\n", "d6" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 레벨 스택과 언스택\n", "\n", "`stack()` 메서드는 가장 낮은 열 레벨을 가장 낮은 인덱스 뒤에 추가합니다:" ] }, { "cell_type": "code", "execution_count": 64, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:26.620480Z", "iopub.status.busy": "2020-10-16T07:31:26.619233Z", "iopub.status.idle": "2020-10-16T07:31:26.645121Z", "shell.execute_reply": "2020-10-16T07:31:26.645952Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
LondonParis
birthyearaliceNaN1985
bobNaN1984
charles1992NaN
hobbyaliceNaNBiking
bobNaNDancing
weightaliceNaN68
bobNaN83
charles112NaN
childrenbobNaN3
charles0NaN
\n", "
" ], "text/plain": [ " London Paris\n", "birthyear alice NaN 1985\n", " bob NaN 1984\n", " charles 1992 NaN\n", "hobby alice NaN Biking\n", " bob NaN Dancing\n", "weight alice NaN 68\n", " bob NaN 83\n", " charles 112 NaN\n", "children bob NaN 3\n", " charles 0 NaN" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "d7 = d6.stack()\n", "d7" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "`NaN` 값이 생겼습니다. 이전에 없던 조합이 생겼기 때문입니다(예를 들어 `London`에 `bob`이 없었습니다).\n", "\n", "`unstack()`을 호출하면 반대가 됩니다. 여기에서도 많은 `NaN` 값이 생성됩니다." ] }, { "cell_type": "code", "execution_count": 65, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:26.670564Z", "iopub.status.busy": "2020-10-16T07:31:26.669099Z", "iopub.status.idle": "2020-10-16T07:31:26.674498Z", "shell.execute_reply": "2020-10-16T07:31:26.675704Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
LondonParis
alicebobcharlesalicebobcharles
birthyearNaNNaN199219851984NaN
childrenNaNNaN0NaN3NaN
hobbyNaNNaNNaNBikingDancingNaN
weightNaNNaN1126883NaN
\n", "
" ], "text/plain": [ " London Paris \n", " alice bob charles alice bob charles\n", "birthyear NaN NaN 1992 1985 1984 NaN\n", "children NaN NaN 0 NaN 3 NaN\n", "hobby NaN NaN NaN Biking Dancing NaN\n", "weight NaN NaN 112 68 83 NaN" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "d8 = d7.unstack()\n", "d8" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "`unstack`을 다시 호출하면 `Series` 객체가 만들어 집니다:" ] }, { "cell_type": "code", "execution_count": 66, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:26.690137Z", "iopub.status.busy": "2020-10-16T07:31:26.688874Z", "iopub.status.idle": "2020-10-16T07:31:26.693084Z", "shell.execute_reply": "2020-10-16T07:31:26.694056Z" } }, "outputs": [ { "data": { "text/plain": [ "London alice birthyear NaN\n", " children NaN\n", " hobby NaN\n", " weight NaN\n", " bob birthyear NaN\n", " children NaN\n", " hobby NaN\n", " weight NaN\n", " charles birthyear 1992\n", " children 0\n", " hobby NaN\n", " weight 112\n", "Paris alice birthyear 1985\n", " children NaN\n", " hobby Biking\n", " weight 68\n", " bob birthyear 1984\n", " children 3\n", " hobby Dancing\n", " weight 83\n", " charles birthyear NaN\n", " children NaN\n", " hobby NaN\n", " weight NaN\n", "dtype: object" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "d9 = d8.unstack()\n", "d9" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "`stack()`과 `unstack()` 메서드를 사용할 때 스택/언스택할 `level`을 선택할 수 있습니다. 심지어 한 번에 여러 개의 레벨을 스택/언스택할 수도 있습니다:" ] }, { "cell_type": "code", "execution_count": 67, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:26.719311Z", "iopub.status.busy": "2020-10-16T07:31:26.718139Z", "iopub.status.idle": "2020-10-16T07:31:26.723311Z", "shell.execute_reply": "2020-10-16T07:31:26.724247Z" }, "scrolled": true }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
LondonParis
alicebobcharlesalicebobcharles
birthyearNaNNaN199219851984NaN
childrenNaNNaN0NaN3NaN
hobbyNaNNaNNaNBikingDancingNaN
weightNaNNaN1126883NaN
\n", "
" ], "text/plain": [ " London Paris \n", " alice bob charles alice bob charles\n", "birthyear NaN NaN 1992 1985 1984 NaN\n", "children NaN NaN 0 NaN 3 NaN\n", "hobby NaN NaN NaN Biking Dancing NaN\n", "weight NaN NaN 112 68 83 NaN" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "d10 = d9.unstack(level = (0,1))\n", "d10" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 대부분의 메서드는 수정된 복사본을 반환합니다\n", "\n", "눈치챘겠지만 `stack()`과 `unstack()` 메서드는 객체를 수정하지 않습니다. 대신 복사본을 만들어 반환합니다. 판다스에 있는 대부분의 메서드들이 이렇게 동작합니다." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 행 참조하기\n", "\n", "`people` `DataFrame`으로 돌아가 보죠:" ] }, { "cell_type": "code", "execution_count": 68, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:26.740196Z", "iopub.status.busy": "2020-10-16T07:31:26.739030Z", "iopub.status.idle": "2020-10-16T07:31:26.743455Z", "shell.execute_reply": "2020-10-16T07:31:26.744486Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
birthyearhobbyweightchildren
alice1985Biking68NaN
bob1984Dancing833.0
charles1992NaN1120.0
\n", "
" ], "text/plain": [ " birthyear hobby weight children\n", "alice 1985 Biking 68 NaN\n", "bob 1984 Dancing 83 3.0\n", "charles 1992 NaN 112 0.0" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "people" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "`loc` 속성으로 열 대신 행을 참조할 수 있습니다. `DataFrame`의 열 이름이 행 인덱스 레이블로 매핑된 `Series` 객체가 반환됩니다:" ] }, { "cell_type": "code", "execution_count": 69, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:26.753868Z", "iopub.status.busy": "2020-10-16T07:31:26.752625Z", "iopub.status.idle": "2020-10-16T07:31:26.756975Z", "shell.execute_reply": "2020-10-16T07:31:26.757905Z" } }, "outputs": [ { "data": { "text/plain": [ "birthyear 1992\n", "hobby NaN\n", "weight 112\n", "children 0\n", "Name: charles, dtype: object" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "people.loc[\"charles\"]" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "`iloc` 속성을 사용해 정수 인덱스로 행을 참조할 수 있습니다:" ] }, { "cell_type": "code", "execution_count": 70, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:26.767760Z", "iopub.status.busy": "2020-10-16T07:31:26.766655Z", "iopub.status.idle": "2020-10-16T07:31:26.771119Z", "shell.execute_reply": "2020-10-16T07:31:26.772031Z" } }, "outputs": [ { "data": { "text/plain": [ "birthyear 1992\n", "hobby NaN\n", "weight 112\n", "children 0\n", "Name: charles, dtype: object" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "people.iloc[2]" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "행을 슬라이싱할 수 있으며 `DataFrame` 객체가 반환됩니다:" ] }, { "cell_type": "code", "execution_count": 71, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:26.786461Z", "iopub.status.busy": "2020-10-16T07:31:26.785104Z", "iopub.status.idle": "2020-10-16T07:31:26.789947Z", "shell.execute_reply": "2020-10-16T07:31:26.791052Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
birthyearhobbyweightchildren
bob1984Dancing833.0
charles1992NaN1120.0
\n", "
" ], "text/plain": [ " birthyear hobby weight children\n", "bob 1984 Dancing 83 3.0\n", "charles 1992 NaN 112 0.0" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "people.iloc[1:3]" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "마자믹으로 불리언 배열을 전달하여 해당하는 행을 가져올 수 있습니다:" ] }, { "cell_type": "code", "execution_count": 72, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:26.808646Z", "iopub.status.busy": "2020-10-16T07:31:26.807301Z", "iopub.status.idle": "2020-10-16T07:31:26.811968Z", "shell.execute_reply": "2020-10-16T07:31:26.813013Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
birthyearhobbyweightchildren
alice1985Biking68NaN
charles1992NaN1120.0
\n", "
" ], "text/plain": [ " birthyear hobby weight children\n", "alice 1985 Biking 68 NaN\n", "charles 1992 NaN 112 0.0" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "people[np.array([True, False, True])]" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "불리언 표현식을 사용할 때 아주 유용합니다:" ] }, { "cell_type": "code", "execution_count": 73, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:26.829832Z", "iopub.status.busy": "2020-10-16T07:31:26.828532Z", "iopub.status.idle": "2020-10-16T07:31:26.833273Z", "shell.execute_reply": "2020-10-16T07:31:26.834311Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
birthyearhobbyweightchildren
alice1985Biking68NaN
bob1984Dancing833.0
\n", "
" ], "text/plain": [ " birthyear hobby weight children\n", "alice 1985 Biking 68 NaN\n", "bob 1984 Dancing 83 3.0" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "people[people[\"birthyear\"] < 1990]" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 열 추가, 삭제\n", "\n", "`DataFrame`을 `Series`의 딕셔너리처럼 다룰 수 있습니다. 따라서 다음 같이 쓸 수 있습니다:" ] }, { "cell_type": "code", "execution_count": 74, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:26.848712Z", "iopub.status.busy": "2020-10-16T07:31:26.847466Z", "iopub.status.idle": "2020-10-16T07:31:26.852951Z", "shell.execute_reply": "2020-10-16T07:31:26.851924Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
birthyearhobbyweightchildren
alice1985Biking68NaN
bob1984Dancing833.0
charles1992NaN1120.0
\n", "
" ], "text/plain": [ " birthyear hobby weight children\n", "alice 1985 Biking 68 NaN\n", "bob 1984 Dancing 83 3.0\n", "charles 1992 NaN 112 0.0" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "people" ] }, { "cell_type": "code", "execution_count": 75, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:26.873305Z", "iopub.status.busy": "2020-10-16T07:31:26.872037Z", "iopub.status.idle": "2020-10-16T07:31:26.876795Z", "shell.execute_reply": "2020-10-16T07:31:26.877922Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
hobbyweightageover 30
aliceBiking6833True
bobDancing8334True
charlesNaN11226False
\n", "
" ], "text/plain": [ " hobby weight age over 30\n", "alice Biking 68 33 True\n", "bob Dancing 83 34 True\n", "charles NaN 112 26 False" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "people[\"age\"] = 2018 - people[\"birthyear\"] # \"age\" 열을 추가합니다\n", "people[\"over 30\"] = people[\"age\"] > 30 # \"over 30\" 열을 추가합니다\n", "birthyears = people.pop(\"birthyear\")\n", "del people[\"children\"]\n", "\n", "people" ] }, { "cell_type": "code", "execution_count": 76, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:26.886529Z", "iopub.status.busy": "2020-10-16T07:31:26.885421Z", "iopub.status.idle": "2020-10-16T07:31:26.890520Z", "shell.execute_reply": "2020-10-16T07:31:26.889567Z" } }, "outputs": [ { "data": { "text/plain": [ "alice 1985\n", "bob 1984\n", "charles 1992\n", "Name: birthyear, dtype: int64" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "birthyears" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "새로운 열을 추가할 때 행의 개수는 같아야 합니다. 누락된 행은 `NaN`으로 채워지고 추가적인 행은 무시됩니다:" ] }, { "cell_type": "code", "execution_count": 77, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:26.910981Z", "iopub.status.busy": "2020-10-16T07:31:26.909610Z", "iopub.status.idle": "2020-10-16T07:31:26.914677Z", "shell.execute_reply": "2020-10-16T07:31:26.915783Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
hobbyweightageover 30pets
aliceBiking6833TrueNaN
bobDancing8334True0.0
charlesNaN11226False5.0
\n", "
" ], "text/plain": [ " hobby weight age over 30 pets\n", "alice Biking 68 33 True NaN\n", "bob Dancing 83 34 True 0.0\n", "charles NaN 112 26 False 5.0" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "people[\"pets\"] = pd.Series({\"bob\": 0, \"charles\": 5, \"eugene\":1}) # alice 누락됨, eugene은 무시됨\n", "people" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "새로운 열을 추가할 때 기본적으로 (오른쪽) 끝에 추가됩니다. `insert()` 메서드를 사용해 다른 곳에 열을 추가할 수 있습니다:" ] }, { "cell_type": "code", "execution_count": 78, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:26.935076Z", "iopub.status.busy": "2020-10-16T07:31:26.933817Z", "iopub.status.idle": "2020-10-16T07:31:26.938345Z", "shell.execute_reply": "2020-10-16T07:31:26.939377Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
hobbyheightweightageover 30pets
aliceBiking1726833TrueNaN
bobDancing1818334True0.0
charlesNaN18511226False5.0
\n", "
" ], "text/plain": [ " hobby height weight age over 30 pets\n", "alice Biking 172 68 33 True NaN\n", "bob Dancing 181 83 34 True 0.0\n", "charles NaN 185 112 26 False 5.0" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "people.insert(1, \"height\", [172, 181, 185])\n", "people" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 새로운 열 할당하기\n", "\n", "`assign()` 메서드를 호출하여 새로운 열을 만들 수도 있습니다. 이는 새로운 `DataFrame` 객체를 반환하며 원본 객체는 변경되지 않습니다:" ] }, { "cell_type": "code", "execution_count": 79, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:26.963676Z", "iopub.status.busy": "2020-10-16T07:31:26.962421Z", "iopub.status.idle": "2020-10-16T07:31:26.966980Z", "shell.execute_reply": "2020-10-16T07:31:26.968012Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
hobbyheightweightageover 30petsbody_mass_indexhas_pets
aliceBiking1726833TrueNaN22.985398False
bobDancing1818334True0.025.335002False
charlesNaN18511226False5.032.724617True
\n", "
" ], "text/plain": [ " hobby height weight age over 30 pets body_mass_index \\\n", "alice Biking 172 68 33 True NaN 22.985398 \n", "bob Dancing 181 83 34 True 0.0 25.335002 \n", "charles NaN 185 112 26 False 5.0 32.724617 \n", "\n", " has_pets \n", "alice False \n", "bob False \n", "charles True " ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "people.assign(\n", " body_mass_index = people[\"weight\"] / (people[\"height\"] / 100) ** 2,\n", " has_pets = people[\"pets\"] > 0\n", ")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "할당문 안에서 만든 열은 접근할 수 없습니다:" ] }, { "cell_type": "code", "execution_count": 80, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:26.979950Z", "iopub.status.busy": "2020-10-16T07:31:26.978686Z", "iopub.status.idle": "2020-10-16T07:31:26.984376Z", "shell.execute_reply": "2020-10-16T07:31:26.983363Z" } }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "키 에러: 'body_mass_index'\n" ] } ], "source": [ "try:\n", " people.assign(\n", " body_mass_index = people[\"weight\"] / (people[\"height\"] / 100) ** 2,\n", " overweight = people[\"body_mass_index\"] > 25\n", " )\n", "except KeyError as e:\n", " print(\"키 에러:\", e)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "해결책은 두 개의 연속된 할당문으로 나누는 것입니다:" ] }, { "cell_type": "code", "execution_count": 81, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:27.008299Z", "iopub.status.busy": "2020-10-16T07:31:26.995147Z", "iopub.status.idle": "2020-10-16T07:31:27.014321Z", "shell.execute_reply": "2020-10-16T07:31:27.012947Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
hobbyheightweightageover 30petsbody_mass_indexoverweight
aliceBiking1726833TrueNaN22.985398False
bobDancing1818334True0.025.335002True
charlesNaN18511226False5.032.724617True
\n", "
" ], "text/plain": [ " hobby height weight age over 30 pets body_mass_index \\\n", "alice Biking 172 68 33 True NaN 22.985398 \n", "bob Dancing 181 83 34 True 0.0 25.335002 \n", "charles NaN 185 112 26 False 5.0 32.724617 \n", "\n", " overweight \n", "alice False \n", "bob True \n", "charles True " ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "d6 = people.assign(body_mass_index = people[\"weight\"] / (people[\"height\"] / 100) ** 2)\n", "d6.assign(overweight = d6[\"body_mass_index\"] > 25)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "임시 변수 `d6`를 만들면 불편합니다. `assign()` 메서드를 연결하고 싶겠지만 `people` 객체가 첫 번째 할당문에서 실제로 수정되지 않기 때문에 작동하지 않습니다:" ] }, { "cell_type": "code", "execution_count": 82, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:27.029304Z", "iopub.status.busy": "2020-10-16T07:31:27.027741Z", "iopub.status.idle": "2020-10-16T07:31:27.032521Z", "shell.execute_reply": "2020-10-16T07:31:27.033510Z" } }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "키 에러: 'body_mass_index'\n" ] } ], "source": [ "try:\n", " (people\n", " .assign(body_mass_index = people[\"weight\"] / (people[\"height\"] / 100) ** 2)\n", " .assign(overweight = people[\"body_mass_index\"] > 25)\n", " )\n", "except KeyError as e:\n", " print(\"키 에러:\", e)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "하지만 걱정하지 마세요. 간단한 방법이 있습니다. `assign()` 메서드에 함수(전형적으로 `lambda` 함수)를 전달하면 `DataFrame`을 매개변수로 이 함수를 호출할 것입니다:" ] }, { "cell_type": "code", "execution_count": 83, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:27.057521Z", "iopub.status.busy": "2020-10-16T07:31:27.043525Z", "iopub.status.idle": "2020-10-16T07:31:27.062274Z", "shell.execute_reply": "2020-10-16T07:31:27.063582Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
hobbyheightweightageover 30petsbody_mass_indexoverweight
aliceBiking1726833TrueNaN22.985398False
bobDancing1818334True0.025.335002True
charlesNaN18511226False5.032.724617True
\n", "
" ], "text/plain": [ " hobby height weight age over 30 pets body_mass_index \\\n", "alice Biking 172 68 33 True NaN 22.985398 \n", "bob Dancing 181 83 34 True 0.0 25.335002 \n", "charles NaN 185 112 26 False 5.0 32.724617 \n", "\n", " overweight \n", "alice False \n", "bob True \n", "charles True " ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "(people\n", " .assign(body_mass_index = lambda df: df[\"weight\"] / (df[\"height\"] / 100) ** 2)\n", " .assign(overweight = lambda df: df[\"body_mass_index\"] > 25)\n", ")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "문제가 해결되었군요!" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 표현식 평가\n", "\n", "판다스가 제공하는 뛰어난 기능 하나는 표현식 평가입니다. 이는 `numexpr` 라이브러리에 의존하기 때문에 설치가 되어 있어야 합니다." ] }, { "cell_type": "code", "execution_count": 84, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:27.088939Z", "iopub.status.busy": "2020-10-16T07:31:27.087317Z", "iopub.status.idle": "2020-10-16T07:31:27.092870Z", "shell.execute_reply": "2020-10-16T07:31:27.094182Z" } }, "outputs": [ { "data": { "text/plain": [ "alice False\n", "bob True\n", "charles True\n", "dtype: bool" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "people.eval(\"weight / (height/100) ** 2 > 25\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "할당 표현식도 지원됩니다. `inplace=True`로 지정하면 수정된 복사본을 만들지 않고 바로 `DataFrame`을 변경합니다:" ] }, { "cell_type": "code", "execution_count": 85, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:27.121360Z", "iopub.status.busy": "2020-10-16T07:31:27.119766Z", "iopub.status.idle": "2020-10-16T07:31:27.124873Z", "shell.execute_reply": "2020-10-16T07:31:27.125987Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
hobbyheightweightageover 30petsbody_mass_index
aliceBiking1726833TrueNaN22.985398
bobDancing1818334True0.025.335002
charlesNaN18511226False5.032.724617
\n", "
" ], "text/plain": [ " hobby height weight age over 30 pets body_mass_index\n", "alice Biking 172 68 33 True NaN 22.985398\n", "bob Dancing 181 83 34 True 0.0 25.335002\n", "charles NaN 185 112 26 False 5.0 32.724617" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "people.eval(\"body_mass_index = weight / (height/100) ** 2\", inplace=True)\n", "people" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "`'@'`를 접두어로 사용하여 지역 변수나 전역 변수를 참조할 수 있습니다:" ] }, { "cell_type": "code", "execution_count": 86, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:27.151724Z", "iopub.status.busy": "2020-10-16T07:31:27.150378Z", "iopub.status.idle": "2020-10-16T07:31:27.155345Z", "shell.execute_reply": "2020-10-16T07:31:27.156398Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
hobbyheightweightageover 30petsbody_mass_indexoverweight
aliceBiking1726833TrueNaN22.985398False
bobDancing1818334True0.025.335002False
charlesNaN18511226False5.032.724617True
\n", "
" ], "text/plain": [ " hobby height weight age over 30 pets body_mass_index \\\n", "alice Biking 172 68 33 True NaN 22.985398 \n", "bob Dancing 181 83 34 True 0.0 25.335002 \n", "charles NaN 185 112 26 False 5.0 32.724617 \n", "\n", " overweight \n", "alice False \n", "bob False \n", "charles True " ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "overweight_threshold = 30\n", "people.eval(\"overweight = body_mass_index > @overweight_threshold\", inplace=True)\n", "people" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## `DataFrame` 쿼리하기\n", "\n", "`query()` 메서드를 사용하면 쿼리 표현식에 기반하여 `DataFrame`을 필터링할 수 있습니다:" ] }, { "cell_type": "code", "execution_count": 87, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:27.180483Z", "iopub.status.busy": "2020-10-16T07:31:27.168045Z", "iopub.status.idle": "2020-10-16T07:31:27.185677Z", "shell.execute_reply": "2020-10-16T07:31:27.186843Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
hobbyheightweightageover 30petsbody_mass_indexoverweight
bobDancing1818334True0.025.335002False
\n", "
" ], "text/plain": [ " hobby height weight age over 30 pets body_mass_index overweight\n", "bob Dancing 181 83 34 True 0.0 25.335002 False" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "people.query(\"age > 30 and pets == 0\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## `DataFrame` 정렬\n", "\n", "`sort_index` 메서드를 호출하여 `DataFrame`을 정렬할 수 있습니다. 기본적으로 인덱스 레이블을 기준으로 오름차순으로 행을 정렬합니다. 여기에서는 내림차순으로 정렬해 보죠:" ] }, { "cell_type": "code", "execution_count": 88, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:27.209165Z", "iopub.status.busy": "2020-10-16T07:31:27.207658Z", "iopub.status.idle": "2020-10-16T07:31:27.212703Z", "shell.execute_reply": "2020-10-16T07:31:27.213844Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
hobbyheightweightageover 30petsbody_mass_indexoverweight
charlesNaN18511226False5.032.724617True
bobDancing1818334True0.025.335002False
aliceBiking1726833TrueNaN22.985398False
\n", "
" ], "text/plain": [ " hobby height weight age over 30 pets body_mass_index \\\n", "charles NaN 185 112 26 False 5.0 32.724617 \n", "bob Dancing 181 83 34 True 0.0 25.335002 \n", "alice Biking 172 68 33 True NaN 22.985398 \n", "\n", " overweight \n", "charles True \n", "bob False \n", "alice False " ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "people.sort_index(ascending=False)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "`sort_index`는 `DataFrame`의 정렬된 *복사본*을 반환합니다. `people`을 직접 수정하려면 `inplace` 매개변수를 `True`로 지정합니다. 또한 `axis=1`로 지정하여 열 대신 행을 정렬할 수 있습니다:" ] }, { "cell_type": "code", "execution_count": 89, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:27.235840Z", "iopub.status.busy": "2020-10-16T07:31:27.234491Z", "iopub.status.idle": "2020-10-16T07:31:27.239396Z", "shell.execute_reply": "2020-10-16T07:31:27.240434Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
agebody_mass_indexheighthobbyover 30overweightpetsweight
alice3322.985398172BikingTrueFalseNaN68
bob3425.335002181DancingTrueFalse0.083
charles2632.724617185NaNFalseTrue5.0112
\n", "
" ], "text/plain": [ " age body_mass_index height hobby over 30 overweight pets \\\n", "alice 33 22.985398 172 Biking True False NaN \n", "bob 34 25.335002 181 Dancing True False 0.0 \n", "charles 26 32.724617 185 NaN False True 5.0 \n", "\n", " weight \n", "alice 68 \n", "bob 83 \n", "charles 112 " ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "people.sort_index(axis=1, inplace=True)\n", "people" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "레이블이 아니라 값을 기준으로 `DataFrame`을 정렬하려면 `sort_values`에 정렬하려는 열을 지정합니다:" ] }, { "cell_type": "code", "execution_count": 90, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:27.261726Z", "iopub.status.busy": "2020-10-16T07:31:27.260351Z", "iopub.status.idle": "2020-10-16T07:31:27.265293Z", "shell.execute_reply": "2020-10-16T07:31:27.266432Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
agebody_mass_indexheighthobbyover 30overweightpetsweight
charles2632.724617185NaNFalseTrue5.0112
alice3322.985398172BikingTrueFalseNaN68
bob3425.335002181DancingTrueFalse0.083
\n", "
" ], "text/plain": [ " age body_mass_index height hobby over 30 overweight pets \\\n", "charles 26 32.724617 185 NaN False True 5.0 \n", "alice 33 22.985398 172 Biking True False NaN \n", "bob 34 25.335002 181 Dancing True False 0.0 \n", "\n", " weight \n", "charles 112 \n", "alice 68 \n", "bob 83 " ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "people.sort_values(by=\"age\", inplace=True)\n", "people" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## `DataFrame` 그래프 그리기\n", "\n", "`Series`와 마찬가지로 판다스는 `DataFrame` 기반으로 멋진 그래프를 손쉽게 그릴 수 있습니다.\n", "\n", "예를 들어 `plot` 메서드를 호출하여 `DataFrame`의 데이터에서 선 그래프를 쉽게 그릴 수 있습니다:" ] }, { "cell_type": "code", "execution_count": 91, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:27.304606Z", "iopub.status.busy": "2020-10-16T07:31:27.301491Z", "iopub.status.idle": "2020-10-16T07:31:27.517164Z", "shell.execute_reply": "2020-10-16T07:31:27.518611Z" } }, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "people.plot(kind = \"line\", x = \"body_mass_index\", y = [\"height\", \"weight\"])\n", "plt.show()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "맷플롯립의 함수가 지원하는 다른 매개변수를 사용할 수 있습니다. 예를 들어, 산점도를 그릴 때 맷플롯립의 `scatter()` 함수의 `s` 매개변수를 사용해 크기를 지정할 수 있습니다:" ] }, { "cell_type": "code", "execution_count": 92, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:27.558226Z", "iopub.status.busy": "2020-10-16T07:31:27.556557Z", "iopub.status.idle": "2020-10-16T07:31:27.738758Z", "shell.execute_reply": "2020-10-16T07:31:27.737322Z" }, "scrolled": true }, "outputs": [ { "data": { "image/png": "iVBORw0KGgoAAAANSUhEUgAAAYUAAAEGCAYAAACKB4k+AAAAOXRFWHRTb2Z0d2FyZQBNYXRwbG90bGliIHZlcnNpb24zLjMuMiwgaHR0cHM6Ly9tYXRwbG90bGliLm9yZy8vihELAAAACXBIWXMAAAsTAAALEwEAmpwYAAAVYklEQVR4nO3de5SddX3v8fd3Mgm5IZckBEiAhJsIiGkYEFFUQKh4aMFLEaQVWnrQHm0VaxfY1RbX6qlVjj16tFQbDkhcy1KUaqFH6qXxgkeQOtEQAoIEIRAIZLiFSyCXmW//2E8eN5M9M3sms/czl/drrb323r/97P18MiuTT57f8+znicxEkiSAjqoDSJLGDktBklSyFCRJJUtBklSyFCRJpc6qA+yKuXPn5qJFi6qOIUnjysqVK5/IzHmNXhvXpbBo0SK6u7urjiFJ40pErBvoNaePJEklS0GSVLIUJEklS0GSVBrXO5olabK5v+d5bv/VU+wxYyqnHLEPM6ZNGdXPtxQkaRzo60v+9Gt3cPOdG+iIoKOY57nmguN47cFzRm09Th9J0jjwldvX8a01j7Flex8vbuvlhS212x8s/ymbt24ftfVYCpI0Dnzpxw/y4rbenV9I+O7dj4/aeiwFSRoHnn1pW8Px7X3J0y9sHbX1WAqSNA6ccPAcOmLn8Y4Ijl/sPgVJmlQ+ctrhzJg25WXFMH1qB288fC5H7v+KUVuPpSBJ48DB82Zz4wfewOlH7sseM6aycK8ZXPKWw7nyPUtHdT0ekipJ48Sh+8zmi793bEvX4ZaCJKnUslKIiGsiYmNErKkb+52IuCsi+iKiq9/yH4uItRFxb0T8ZqtySZIG1sothWuBt/YbWwO8A7ilfjAijgTOBY4q3vMPETG6392WJA2pZaWQmbcAT/Ub+0Vm3ttg8bOAf87MLZn5ALAWOL5V2SRJjY2VfQoLgIfrnq8vxnYSERdHRHdEdPf09LQlnCRNFmOlFJqWmcsysyszu+bNa3iJUUnSCI2VUngEOKDu+cJiTJLURmOlFG4Czo2I3SJiMXAY8J8VZ5KkSadlX16LiOuANwNzI2I9cDm1Hc+fB+YB34yIVZn5m5l5V0R8Fbgb2A58IDMbnA5QktRKLSuFzDxvgJe+McDyfwP8TavySJKGNlamjyRJY4ClIEkqWQqSpJKlIEkqWQqSpJKlIEkqWQqSpJKlIEkqWQqSpJKlIEkqWQqSpJKlIEkqWQqSpJKlIEkqWQqSpJKlIEkqWQqSpJKlIEkqWQqSpJKlIEkqWQqSpJKlIEkqWQqSpJKlIEkqWQqSpJKlIEkqWQqSpJKlIEkqWQqSpJKlIEkqWQqSpJKlIEkqWQqSpJKlIEkqWQqSpJKlIEkqtawUIuKaiNgYEWvqxvaOiO9GxH3F/V7FeETE5yJibUSsjoilrcolSRpYK7cUrgXe2m/sMmBFZh4GrCieA5wBHFbcLga+0MJckqQBtKwUMvMW4Kl+w2cBy4vHy4Gz68a/nDU/AfaMiP1alU2S1Fi79ynMz8wNxePHgPnF4wXAw3XLrS/GdhIRF0dEd0R09/T0tC6pJE1Cle1ozswEcgTvW5aZXZnZNW/evBYkk6TJq92l8PiOaaHifmMx/ghwQN1yC4sxSVIbtbsUbgIuKB5fANxYN/7e4iikE4BNddNMkqQ26WzVB0fEdcCbgbkRsR64HPgk8NWIuAhYB5xTLH4z8DZgLbAZ+P1W5ZIkDaxlpZCZ5w3w0qkNlk3gA63KIklqjt9oliSVLAVJUslSkCSVLAVJUslSkCSVLAVJUslSkCSVLAVJUslSkCSVLAVJUslSkCSVLAVJUslSkCSVLAVJUslSkCSVLAVJUslSkCSVLAVJUslSkCSVLAVJUslSkCSVLAVJUslSkCSVLAVJUslSkCSVmiqFiPhQM2OSpPGt2S2FCxqMXTiKOSRJY0DnYC9GxHnAe4DFEXFT3Uu7A0+1Mpgkqf0GLQXgVmADMBf4u7rx54DVrQolSarGoKWQmeuAdcDr2hNHklSlZnc0vyMi7ouITRHxbEQ8FxHPtjqcJKm9hpo+2uEK4Lcy8xetDCNJqlazRx89biFI0sQ31NFH7ygedkfE9cC/Alt2vJ6ZX29dNElSuw01ffRbdY83A6fXPU/AUpCkCWSoo49+v11BJEnVa2pHc0R8rsHwJqA7M28c7kqLU2T8dyCAqzLzsxGxN3A9sAh4EDgnM58e7mdLkkau2R3N04ElwH3F7RhgIXBRRHx2OCuMiKOpFcLxwGuAMyPiUOAyYEVmHgasKJ5Lktqo2UNSjwFen5m9ABHxBeBHwBuAO4e5zlcBt2fm5uKzfgi8AzgLeHOxzHLgB8Clw/xsSdIuaHZLYS9gdt3zWcDeRUlsafyWAa0BToqIORExE3gbcAAwPzM3FMs8Bsxv9OaIuDgiuiOiu6enZ5irliQNZjhfXlsVET+gth/gjcAnImIW8B/DWWFm/iIiPgV8B3gBWAX09lsmIyIHeP8yYBlAV1dXw2UkSSPTVClk5tURcTO1/QAAf56ZjxaP/2y4K83Mq4GrASLiE8B64PGI2C8zN0TEfsDG4X6uJGnXDDp9FBFHFPdLgf2Ah4vbvsXYiETEPsX9gdT2J/wTcBO/vm7DBcCwj2qSJO2aobYUPgJczMtPm71DAqeMcL3/EhFzgG3ABzLzmYj4JPDViLiI2plZzxnhZ0uSRmioL69dXNyfPJorzcyTGow9CZw6muuRJA1Ps6fOnhkRfxERy4rnh0XEma2NJklqt2YPSf0SsBU4sXj+CPA/W5JIklSZZkvhkMy8gto+AIovnkXLUkmSKtFsKWyNiBnUdi4TEYcw/C+tSZLGuGa/vHY58C3ggIj4CvB64MJWhZIkVaPZUrgA+CZwA/Ar4EOZ+UTLUkmSKtFsKVwNnAScBhwC/DwibsnM/9OyZJKktmv2NBffj4hbgOOAk4H3A0cBloIkTSDNXmRnBbUzo95G7ZTZx2Wm5yaSpAmm2aOPVlP7nsLR1K6tcHRxNJIkaQJpdvroEoCI2J3aUUdfAvYFdmtZMklS2zU7ffRBajuaj6V2/eRrqE0jSZImkGaPPpoO/G9gZWZub2EeSVKFmp0++nSrg0iSqtfsjmZJ0iRgKUiSSpaCJKlkKUgasd6+ZOv2vqpjaBQ1e/SRJAGw8bmXuO72h1h+2zqefmErETCts4Mzj9mfPzxpMUfs+4qqI2oXWAqSmpKZXPn9tXz+e2sB2FJsIWTCS9v6+MbPH+H/rX6UEw+Zy5XvWcqMaVOqjKsRcvpIUlOu+NY9XPn9+9myva8shHq9fclL2/r48donOO+q29iyvbeClNpVloKkIf3wlz1ce+s6Xtw29D/0W7b3cc9jz/G3N9/ThmQabZaCpCF9fsV9TRXCDi9t6+P6nz7M5q2eAGG8sRQkDWrdky9w5yObhv2+CLhp1aMtSKRWshQkDeqnDz7NlI4Y9vs2b+3le/d42ZXxxlKQNKjnX9pGb1+O6L3PvrhtlNOo1SwFSYOauVsnHTH8LQWA3adPHeU0ajVLQdKglh64F5nD31KYMXUKbzx8bgsSqZUsBUmDOnSf2Ry+7+7Dfl+SvH3pwhYkUitZCpKG9MGTDx3WN5R36+zg7b+xgNm7edKE8cZSkDSk04/al3cuXcCMqUMXw7TODhbNmcVfnXlUG5JptFkKkpry12cdzXtfdxC7dXYwdcrOO54jYOa0KSxZuAc3/NHrPPfROOW2naSmRAQfe9urOP+1B3HtrQ9w/U8fZmtvHxFBX19yyhH78L43HczSA/ciRni0kqoXIzmqYKzo6urK7u7uqmNIk1JfX/L81u309ia7T++kc4oTD+NFRKzMzK5Gr7mlIGlEOjqCV/g9hAnHapcklSophYi4JCLuiog1EXFdREyPiMURcXtErI2I6yNiWhXZJGkya3spRMQC4E+Arsw8GpgCnAt8CvhMZh4KPA1c1O5skjTZVTV91AnMiIhOYCawATgFuKF4fTlwdjXRJGnyanspZOYjwKeBh6iVwSZgJfBMZu64Isd6YEGj90fExRHRHRHdPT097YgsSZNGFdNHewFnAYuB/YFZwFubfX9mLsvMrszsmjdvXotSStLkVMX00VuABzKzJzO3AV8HXg/sWUwnASwEHqkgmyRNalWUwkPACRExM2pfezwVuBv4PvCuYpkLgBsryCZJk1oV+xRup7ZD+WfAnUWGZcClwEciYi0wB7i63dkkabKr5BvNmXk5cHm/4V8Bx1cQR5JU8BvNkqSSpSBJKlkKkqSSpSBJKlkKkqSSpSBJKlkKkqSSpSBJKlkKkqSSpSBJKlkKkqSSpSBJKlkKkqSSpSBJKlkKkqSSpSBJKlkKkqSSpSBJKlkKkqSSpSBJKlkKkqSSpSBJKlkKkqSSpSBJKlkKkqSSpSBJKlkKkqSSpSBJKlkKkqSSpSBJKlkKkqSSpSBJKlkKkqSSpSBJKlkKkqSSpSBJKrW9FCLilRGxqu72bER8OCL2jojvRsR9xf1e7c4mSZNd20shM+/NzCWZuQQ4FtgMfAO4DFiRmYcBK4rnkqQ2qnr66FTg/sxcB5wFLC/GlwNnVxVKkiarqkvhXOC64vH8zNxQPH4MmN/oDRFxcUR0R0R3T09POzJK0qRRWSlExDTgt4Gv9X8tMxPIRu/LzGWZ2ZWZXfPmzWtxSkmaXKrcUjgD+FlmPl48fzwi9gMo7je2asW9fckLW7bT19ewdyRp0uqscN3n8eupI4CbgAuATxb3N47myjKT/7/2Cb74w/u57f4n6YggAt561L68702HcPSCPUZzdZI0LkVtpqbNK42YBTwEHJyZm4qxOcBXgQOBdcA5mfnUYJ/T1dWV3d3dQ64vM7ns63fyb3c8yuatvS97rSNgWmcHHz39lfzhSQeP7A8kSeNIRKzMzK5Gr1WypZCZLwBz+o09Se1opFH3mf/4JTetepQXt/Xu9Fpfwkvb+vj0d+5lwZ4zOOPV+7UigiSNC1UffdRym7du56pbHmhYCPVe2tbH3/77PVSx5SRJY8WEL4Vvrt5ARHPLPvH8Fu5Yv6m1gSRpDJvwpXDvY8/ttB9hMPdvfL6FaSRpbJvwpdA5pcnNBCCAKR3NLy9JE82EL4UlB+zJrGlTmlq2ty89NFXSpDbhS+Etr5pP55Tm/piHz9+dQ/eZ3eJEkjR2TfhS6JzSwV+eeSQzpg6+tTB9ageX//aRbUolSWPThC8FgHcdu5BLz3glu3V2MK3fPobpUzuYMXUKX/jdYzn2oL0rSihJY0OVp7loqwtPXMxpR+7Ll299kH9b/Sgvbu1ljxlTOe/4A3n3cQew58xpVUeUpMpVcpqL0dLsaS4kSb822GkuJsX0kSSpOZaCJKlkKUiSSuN6n0JE9FA7zfZIzAWeGMU47WT2api9GuM1+1jOfVBmNrx05bguhV0REd0D7WgZ68xeDbNXY7xmH6+5nT6SJJUsBUlSaTKXwrKqA+wCs1fD7NUYr9nHZe5Ju09BkrSzybylIEnqx1KQJJUmbClExDURsTEi1tSNXR8Rq4rbgxGxqhg/LSJWRsSdxf0plQVneNnrXj8wIp6PiI+2PfDLcwwre0QcExG3RcRdxc9/eiXBGfbfmakRsbzI/IuI+NgYy70kIn5S5O6OiOOL8YiIz0XE2ohYHRFLq8pd5BlO9vOLzHdGxK0R8Zrqkg8ve93rx0XE9oh4V/sTNykzJ+QNeCOwFFgzwOt/B/xV8fg3gP2Lx0cDj4yX7HVjNwBfAz46XrJTO0vvauA1xfM5wJRxkv09wD8Xj2cCDwKLxkpu4DvAGcXjtwE/qHv879SuPnsCcPtY+/sySPYTgb2Kx2eMp+zF8ynA94CbgXdVmX2w24TdUsjMW4CnGr0WEQGcA1xXLPvzzHy0ePkuYEZE7NaWoA0MJ3sxdjbwALXslRpm9tOB1Zl5R/HeJzOzty1BGxhm9gRmRUQnMAPYCjzbjpz9DZA7gVcUj/cAdvz9Pgv4ctb8BNgzIvZrT9KdDSd7Zt6amU8X4z8BFrYl5ACG+XMH+GPgX4CNrU83cpPmegr9nAQ8npn3NXjtncDPMnNLmzM162XZI2I2cClwGlDp1FET+v/cDwcyIr4NzKP2P+8rKks3uP7Zb6D2D+wGalsKl2Rmw0KpyIeBb0fEp6lNE59YjC8AHq5bbn0xtqGt6Qb3YRpnr3cRtS2esebDNMgeEQuAtwMnA8dVlq4JE3ZLYQjnUfc/7R0i4ijgU8D72p6oef2zfxz4TGY+X02cYemfvRN4A3B+cf/2iDi1imBN6J/9eKAX2B9YDPxpRBxcRbAB/BG1ojoAuAS4uuI8wzFo9og4mVopXFpBtqEMlP2zwKWZ2VdVsKZVPX/VyhuwiH7zw9T+IXocWNhvfCHwS+D1VeceTnbgR9Tmsx8EnqG2OfvBcZL9XGB53fO/BP5snGS/Evi9uufXAOeMldzAJn79PaQAni0e/yNwXt1y9wL7jaWf+UDZi+fHAPcDh1eZeQQ/9wfqfk+fpzaFdHbV+RvdJuOWwluAezJz/Y6BiNgT+CZwWWb+uKpgTdgpe2aelJmLMnMRtf+NfCIz/76ifIPZKTvwbeDVETGzmJt/E3B3JekG1yj7Q8ApABExi9pO23sqyDaQR6n9PKGWc8e0103Ae4ujkE4ANmXmWJo6ggGyR8SBwNeplfEvK8o2lIbZM3Nx3e/pDcD/yMx/rSThUKpupRY2+HXU5km3UZs3vagYvxZ4f79l/wJ4AVhVd9tnPGTv976PU/3RR8PKDvwutR3ka4Arxkt2YDa1o73uolZklW3hNMpNbTpuJXAHcDtwbLFsUNvKuR+4E+gaaz/zQbL/X+Dput/R7vGSvd/7rmUMH33kaS4kSaXJOH0kSRqApSBJKlkKkqSSpSBJKlkKkqSSpSANICIW1Z8Bs4nl3x8R7x1imQsjouH3SCLiz4ebURptloI0SjLzi5n55V34CEtBlbMUpMFNiYirius9fCciZkTEIRHxreLaGz+KiCMAIuLjO65nUZw3f3VxXv3/1W+LY//i/fdFxBXF8p+kdnbeVRHxlfb/MaUaS0Ea3GHAlZl5FLVzS72T2gXZ/zgzj6V2Ztp/aPC+LwHvy8wl1E6cV28J8G7g1cC7I+KAzLwMeDEzl2Tm+a34g0jNmKynzpaa9UBmrioer6R2ArQTga/VLrEAwMuuvVGcS2v3zLytGPon4My6RVZk5qZi2buBg3j56aylylgK0uDqr6vRC8wHnim2AEbrM/091Jjh9JE0PM8CD0TE70B5zeOXXSs4M58BnouI1xZD5zb52dsiYuqoJZVGwFKQhu984KKIuIPaWVLParDMRcBVEbEKmEXtPPtDWQasdkezquRZUqUWiIjZWVwNLyIuo3Yhmw9VHEsaknOZUmv8t4j4GLXfsXXAhdXGkZrjloIkqeQ+BUlSyVKQJJUsBUlSyVKQJJUsBUlS6b8AuQf9lDo4LnEAAAAASUVORK5CYII=\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "people.plot(kind = \"scatter\", x = \"height\", y = \"weight\", s=[40, 120, 200])\n", "plt.show()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "선택할 수 있는 옵션이 많습니다. 판다스 문서의 [시각화](http://pandas.pydata.org/pandas-docs/stable/visualization.html) 페이지에서 마음에 드는 그래프를 찾아 예제 코드를 살펴 보세요." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## `DataFrame` 연산\n", "\n", "`DataFrame`이 넘파이 배열을 흉내내려는 것은 아니지만 몇 가지 비슷한 점이 있습니다. 예제 `DataFrame`을 만들어 보죠:" ] }, { "cell_type": "code", "execution_count": 93, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:27.757668Z", "iopub.status.busy": "2020-10-16T07:31:27.756294Z", "iopub.status.idle": "2020-10-16T07:31:27.761443Z", "shell.execute_reply": "2020-10-16T07:31:27.762642Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
sepoctnov
alice889
bob1099
charles482
darwin91010
\n", "
" ], "text/plain": [ " sep oct nov\n", "alice 8 8 9\n", "bob 10 9 9\n", "charles 4 8 2\n", "darwin 9 10 10" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "grades_array = np.array([[8,8,9],[10,9,9],[4, 8, 2], [9, 10, 10]])\n", "grades = pd.DataFrame(grades_array, columns=[\"sep\", \"oct\", \"nov\"], index=[\"alice\",\"bob\",\"charles\",\"darwin\"])\n", "grades" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "`DataFrame`에 넘파이 수학 함수를 적용하면 모든 값에 이 함수가 적용됩니다:" ] }, { "cell_type": "code", "execution_count": 94, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:27.780212Z", "iopub.status.busy": "2020-10-16T07:31:27.778767Z", "iopub.status.idle": "2020-10-16T07:31:27.783503Z", "shell.execute_reply": "2020-10-16T07:31:27.784467Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
sepoctnov
alice2.8284272.8284273.000000
bob3.1622783.0000003.000000
charles2.0000002.8284271.414214
darwin3.0000003.1622783.162278
\n", "
" ], "text/plain": [ " sep oct nov\n", "alice 2.828427 2.828427 3.000000\n", "bob 3.162278 3.000000 3.000000\n", "charles 2.000000 2.828427 1.414214\n", "darwin 3.000000 3.162278 3.162278" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "np.sqrt(grades)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "비슷하게 `DataFrame`에 하나의 값을 더하면 `DataFrame`의 모든 원소에 이 값이 더해집니다. 이를 *브로드캐스팅*이라고 합니다:" ] }, { "cell_type": "code", "execution_count": 95, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:27.798080Z", "iopub.status.busy": "2020-10-16T07:31:27.796749Z", "iopub.status.idle": "2020-10-16T07:31:27.801579Z", "shell.execute_reply": "2020-10-16T07:31:27.802616Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
sepoctnov
alice9910
bob111010
charles593
darwin101111
\n", "
" ], "text/plain": [ " sep oct nov\n", "alice 9 9 10\n", "bob 11 10 10\n", "charles 5 9 3\n", "darwin 10 11 11" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "grades + 1" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "물론 산술 연산(`*`,`/`,`**`...)과 조건 연산(`>`, `==`...)을 포함해 모든 이항 연산에도 마찬가지 입니다:" ] }, { "cell_type": "code", "execution_count": 96, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:27.817148Z", "iopub.status.busy": "2020-10-16T07:31:27.815851Z", "iopub.status.idle": "2020-10-16T07:31:27.820194Z", "shell.execute_reply": "2020-10-16T07:31:27.821180Z" }, "scrolled": false }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
sepoctnov
aliceTrueTrueTrue
bobTrueTrueTrue
charlesFalseTrueFalse
darwinTrueTrueTrue
\n", "
" ], "text/plain": [ " sep oct nov\n", "alice True True True\n", "bob True True True\n", "charles False True False\n", "darwin True True True" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "grades >= 5" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "`DataFrame`의 `max`, `sum`, `mean` 같은 집계 연산은 각 열에 적용되어 `Series` 객체가 반환됩니다:" ] }, { "cell_type": "code", "execution_count": 97, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:27.831044Z", "iopub.status.busy": "2020-10-16T07:31:27.829879Z", "iopub.status.idle": "2020-10-16T07:31:27.835347Z", "shell.execute_reply": "2020-10-16T07:31:27.834398Z" } }, "outputs": [ { "data": { "text/plain": [ "sep 7.75\n", "oct 8.75\n", "nov 7.50\n", "dtype: float64" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "grades.mean()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "`all` 메서드도 집계 연산입니다: 모든 값이 `True`인지 아닌지 확인합니다. 모든 학생의 점수가 `5` 이상인 월을 찾아 보죠:" ] }, { "cell_type": "code", "execution_count": 98, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:27.845808Z", "iopub.status.busy": "2020-10-16T07:31:27.844575Z", "iopub.status.idle": "2020-10-16T07:31:27.849198Z", "shell.execute_reply": "2020-10-16T07:31:27.850237Z" } }, "outputs": [ { "data": { "text/plain": [ "sep False\n", "oct True\n", "nov False\n", "dtype: bool" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "(grades > 5).all()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Most of these functions take an optional `axis` parameter which lets you specify along which axis of the `DataFrame` you want the operation executed. The default is `axis=0`, meaning that the operation is executed vertically (on each column). You can set `axis=1` to execute the operation horizontally (on each row). For example, let's find out which students had all grades greater than `5`:" ] }, { "cell_type": "code", "execution_count": 99, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:27.860089Z", "iopub.status.busy": "2020-10-16T07:31:27.858925Z", "iopub.status.idle": "2020-10-16T07:31:27.863574Z", "shell.execute_reply": "2020-10-16T07:31:27.864558Z" } }, "outputs": [ { "data": { "text/plain": [ "alice True\n", "bob True\n", "charles False\n", "darwin True\n", "dtype: bool" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "(grades > 5).all(axis = 1)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "`any` 메서드는 하나라도 참이면 `True`를 반환합니다. 한 번이라도 10점을 받은 사람을 찾아 보죠:" ] }, { "cell_type": "code", "execution_count": 100, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:27.875152Z", "iopub.status.busy": "2020-10-16T07:31:27.873989Z", "iopub.status.idle": "2020-10-16T07:31:27.878564Z", "shell.execute_reply": "2020-10-16T07:31:27.879476Z" } }, "outputs": [ { "data": { "text/plain": [ "alice False\n", "bob True\n", "charles False\n", "darwin True\n", "dtype: bool" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "(grades == 10).any(axis = 1)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "`DataFrame`에 `Series` 객체를 더하면 (또는 다른 이항 연산을 수행하면) 판다스는 `DataFrame`에 있는 모든 *행*에 이 연산을 브로드캐스팅합니다. 이는 `Series` 객체가 `DataFrame`의 행의 개수와 크기가 같을 때만 동작합니다. 예를 들어 `DataFrame`의 `mean`(`Series` 객체)을 빼보죠:" ] }, { "cell_type": "code", "execution_count": 101, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:27.896652Z", "iopub.status.busy": "2020-10-16T07:31:27.895549Z", "iopub.status.idle": "2020-10-16T07:31:27.900125Z", "shell.execute_reply": "2020-10-16T07:31:27.901252Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
sepoctnov
alice0.25-0.751.5
bob2.250.251.5
charles-3.75-0.75-5.5
darwin1.251.252.5
\n", "
" ], "text/plain": [ " sep oct nov\n", "alice 0.25 -0.75 1.5\n", "bob 2.25 0.25 1.5\n", "charles -3.75 -0.75 -5.5\n", "darwin 1.25 1.25 2.5" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "grades - grades.mean() # grades - [7.75, 8.75, 7.50] 와 동일" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "모든 9월 성적에서 `7.75`를 빼고, 10월 성적에서 `8.75`를 빼고, 11월 성적에서 `7.50`을 뺍니다. 이는 다음 `DataFrame`을 빼는 것과 같습니다:" ] }, { "cell_type": "code", "execution_count": 102, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:27.919376Z", "iopub.status.busy": "2020-10-16T07:31:27.918032Z", "iopub.status.idle": "2020-10-16T07:31:27.922814Z", "shell.execute_reply": "2020-10-16T07:31:27.923850Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
sepoctnov
alice7.758.757.5
bob7.758.757.5
charles7.758.757.5
darwin7.758.757.5
\n", "
" ], "text/plain": [ " sep oct nov\n", "alice 7.75 8.75 7.5\n", "bob 7.75 8.75 7.5\n", "charles 7.75 8.75 7.5\n", "darwin 7.75 8.75 7.5" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "pd.DataFrame([[7.75, 8.75, 7.50]]*4, index=grades.index, columns=grades.columns)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "모든 성적의 전체 평균을 빼고 싶다면 다음과 같은 방법을 사용합니다:" ] }, { "cell_type": "code", "execution_count": 103, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:27.943417Z", "iopub.status.busy": "2020-10-16T07:31:27.942164Z", "iopub.status.idle": "2020-10-16T07:31:27.946771Z", "shell.execute_reply": "2020-10-16T07:31:27.947804Z" }, "scrolled": true }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
sepoctnov
alice0.00.01.0
bob2.01.01.0
charles-4.00.0-6.0
darwin1.02.02.0
\n", "
" ], "text/plain": [ " sep oct nov\n", "alice 0.0 0.0 1.0\n", "bob 2.0 1.0 1.0\n", "charles -4.0 0.0 -6.0\n", "darwin 1.0 2.0 2.0" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "grades - grades.values.mean() # 모든 점수에서 전체 평균(8.00)을 뺍니다" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 자동 정렬\n", "\n", "`Series`와 비슷하게 여러 개의 `DataFrame`에 대한 연산을 수행하면 판다스는 자동으로 행 인덱스 레이블로 정렬하지만 열 이름으로도 정렬할 수 있습니다. 10월부터 12월까지 보너스 포인트를 담은 `DataFrame`을 만들어 보겠습니다:" ] }, { "cell_type": "code", "execution_count": 104, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:27.967853Z", "iopub.status.busy": "2020-10-16T07:31:27.966587Z", "iopub.status.idle": "2020-10-16T07:31:27.971328Z", "shell.execute_reply": "2020-10-16T07:31:27.972440Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
octnovdec
bob0.0NaN2.0
colinNaN1.00.0
darwin0.01.00.0
charles3.03.00.0
\n", "
" ], "text/plain": [ " oct nov dec\n", "bob 0.0 NaN 2.0\n", "colin NaN 1.0 0.0\n", "darwin 0.0 1.0 0.0\n", "charles 3.0 3.0 0.0" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "bonus_array = np.array([[0,np.nan,2],[np.nan,1,0],[0, 1, 0], [3, 3, 0]])\n", "bonus_points = pd.DataFrame(bonus_array, columns=[\"oct\", \"nov\", \"dec\"], index=[\"bob\",\"colin\", \"darwin\", \"charles\"])\n", "bonus_points" ] }, { "cell_type": "code", "execution_count": 105, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:27.995052Z", "iopub.status.busy": "2020-10-16T07:31:27.993703Z", "iopub.status.idle": "2020-10-16T07:31:28.000013Z", "shell.execute_reply": "2020-10-16T07:31:28.001109Z" }, "scrolled": true }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
decnovoctsep
aliceNaNNaNNaNNaN
bobNaNNaN9.0NaN
charlesNaN5.011.0NaN
colinNaNNaNNaNNaN
darwinNaN11.010.0NaN
\n", "
" ], "text/plain": [ " dec nov oct sep\n", "alice NaN NaN NaN NaN\n", "bob NaN NaN 9.0 NaN\n", "charles NaN 5.0 11.0 NaN\n", "colin NaN NaN NaN NaN\n", "darwin NaN 11.0 10.0 NaN" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "grades + bonus_points" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "덧셈 연산이 수행되었지만 너무 많은 원소가 `NaN`이 되었습니다. `DataFrame`을 정렬할 때 일부 열과 행이 한 쪽에만 있기 때문입니다. 다른 쪽에는 누란되었다고 간주합니다(`NaN`). `NaN`에 어떤 수를 더하면 `NaN`이 됩니다.\n", "\n", "## 누락된 데이터 다루기\n", "\n", "실제 데이터에서 누락된 데이터를 다루는 경우는 자주 발생합니다. 판다스는 누락된 데이터를 다룰 수 있는 몇 가지 방법을 제공합니다.\n", "\n", "위 데이터에 있는 문제를 해결해 보죠. 예를 들어, 누락된 데이터는 `NaN`이 아니라 0이 되어야 한다고 결정할 수 있습니다. `fillna()` 메서드를 사용해 모든 `NaN` 값을 어떤 값으로 바꿀 수 있습니다:" ] }, { "cell_type": "code", "execution_count": 106, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:28.031419Z", "iopub.status.busy": "2020-10-16T07:31:28.030067Z", "iopub.status.idle": "2020-10-16T07:31:28.036381Z", "shell.execute_reply": "2020-10-16T07:31:28.035045Z" }, "scrolled": true }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
decnovoctsep
alice0.00.00.00.0
bob0.00.09.00.0
charles0.05.011.00.0
colin0.00.00.00.0
darwin0.011.010.00.0
\n", "
" ], "text/plain": [ " dec nov oct sep\n", "alice 0.0 0.0 0.0 0.0\n", "bob 0.0 0.0 9.0 0.0\n", "charles 0.0 5.0 11.0 0.0\n", "colin 0.0 0.0 0.0 0.0\n", "darwin 0.0 11.0 10.0 0.0" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "(grades + bonus_points).fillna(0)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "9월의 점수를 0으로 만드는 것은 공정하지 않습니다. 누락된 점수는 그대로 두고, 누락된 보너스 포인트는 0으로 바꿀 수 있습니다:" ] }, { "cell_type": "code", "execution_count": 107, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:28.066978Z", "iopub.status.busy": "2020-10-16T07:31:28.065621Z", "iopub.status.idle": "2020-10-16T07:31:28.072091Z", "shell.execute_reply": "2020-10-16T07:31:28.070746Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
decnovoctsep
aliceNaN9.08.08.0
bobNaN9.09.010.0
charlesNaN5.011.04.0
colinNaNNaNNaNNaN
darwinNaN11.010.09.0
\n", "
" ], "text/plain": [ " dec nov oct sep\n", "alice NaN 9.0 8.0 8.0\n", "bob NaN 9.0 9.0 10.0\n", "charles NaN 5.0 11.0 4.0\n", "colin NaN NaN NaN NaN\n", "darwin NaN 11.0 10.0 9.0" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "fixed_bonus_points = bonus_points.fillna(0)\n", "fixed_bonus_points.insert(0, \"sep\", 0)\n", "fixed_bonus_points.loc[\"alice\"] = 0\n", "grades + fixed_bonus_points" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "훨씬 낫네요: 일부 데이터를 꾸며냈지만 덜 불공정합니다.\n", "\n", "누락된 값을 다루는 또 다른 방법은 보간입니다. `bonus_points` `DataFrame`을 다시 보죠:" ] }, { "cell_type": "code", "execution_count": 108, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:28.088876Z", "iopub.status.busy": "2020-10-16T07:31:28.087481Z", "iopub.status.idle": "2020-10-16T07:31:28.093651Z", "shell.execute_reply": "2020-10-16T07:31:28.092464Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
octnovdec
bob0.0NaN2.0
colinNaN1.00.0
darwin0.01.00.0
charles3.03.00.0
\n", "
" ], "text/plain": [ " oct nov dec\n", "bob 0.0 NaN 2.0\n", "colin NaN 1.0 0.0\n", "darwin 0.0 1.0 0.0\n", "charles 3.0 3.0 0.0" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "bonus_points" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "`interpolate` 메서드를 사용해 보죠. 기본적으로 수직 방향(`axis=0`)으로 보간합니다. 따라서 수평으로(`axis=1`)으로 보간하도록 지정합니다." ] }, { "cell_type": "code", "execution_count": 109, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:28.114424Z", "iopub.status.busy": "2020-10-16T07:31:28.113078Z", "iopub.status.idle": "2020-10-16T07:31:28.119895Z", "shell.execute_reply": "2020-10-16T07:31:28.118779Z" }, "scrolled": false }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
octnovdec
bob0.01.02.0
colinNaN1.00.0
darwin0.01.00.0
charles3.03.00.0
\n", "
" ], "text/plain": [ " oct nov dec\n", "bob 0.0 1.0 2.0\n", "colin NaN 1.0 0.0\n", "darwin 0.0 1.0 0.0\n", "charles 3.0 3.0 0.0" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "bonus_points.interpolate(axis=1)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "bob의 보너스 포인트는 10월에 0이고 12월에 2입니다. 11월을 보간하면 평균 보너스 포인트 1을 얻습니다. colin의 보너스 포인트는 11월에 1이지만 9월에 포인트는 얼마인지 모릅니다. 따라서 보간할 수 없고 10월의 포인트는 그대로 누락된 값으로 남아 있습니다. 이를 해결하려면 보간하기 전에 9월의 보너스 포인트를 0으로 설정해야 합니다." ] }, { "cell_type": "code", "execution_count": 110, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:28.147938Z", "iopub.status.busy": "2020-10-16T07:31:28.146576Z", "iopub.status.idle": "2020-10-16T07:31:28.152995Z", "shell.execute_reply": "2020-10-16T07:31:28.151814Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
sepoctnovdec
bob0.00.01.02.0
colin0.00.51.00.0
darwin0.00.01.00.0
charles0.03.03.00.0
alice0.00.00.00.0
\n", "
" ], "text/plain": [ " sep oct nov dec\n", "bob 0.0 0.0 1.0 2.0\n", "colin 0.0 0.5 1.0 0.0\n", "darwin 0.0 0.0 1.0 0.0\n", "charles 0.0 3.0 3.0 0.0\n", "alice 0.0 0.0 0.0 0.0" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "better_bonus_points = bonus_points.copy()\n", "better_bonus_points.insert(0, \"sep\", 0)\n", "better_bonus_points.loc[\"alice\"] = 0\n", "better_bonus_points = better_bonus_points.interpolate(axis=1)\n", "better_bonus_points" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "좋습니다. 이제 모든 보너스 포인트가 합리적으로 보간되었습니다. 최종 점수를 확인해 보죠:" ] }, { "cell_type": "code", "execution_count": 111, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:28.175899Z", "iopub.status.busy": "2020-10-16T07:31:28.174553Z", "iopub.status.idle": "2020-10-16T07:31:28.181130Z", "shell.execute_reply": "2020-10-16T07:31:28.179772Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
decnovoctsep
aliceNaN9.08.08.0
bobNaN10.09.010.0
charlesNaN5.011.04.0
colinNaNNaNNaNNaN
darwinNaN11.010.09.0
\n", "
" ], "text/plain": [ " dec nov oct sep\n", "alice NaN 9.0 8.0 8.0\n", "bob NaN 10.0 9.0 10.0\n", "charles NaN 5.0 11.0 4.0\n", "colin NaN NaN NaN NaN\n", "darwin NaN 11.0 10.0 9.0" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "grades + better_bonus_points" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "9월 열이 오른쪽에 추가되었는데 좀 이상합니다. 이는 더하려는 `DataFrame`이 정확히 같은 열을 가지고 있지 않기 때문입니다(`grade` `DataFrame`에는 `\"dec\"` 열이 없습니다). 따라서 판다스는 알파벳 순서로 최종 열을 정렬합니다. 이를 해결하려면 덧셈을 하기 전에 누락된 열을 추가하면 됩니다:" ] }, { "cell_type": "code", "execution_count": 112, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:28.202239Z", "iopub.status.busy": "2020-10-16T07:31:28.200876Z", "iopub.status.idle": "2020-10-16T07:31:28.207279Z", "shell.execute_reply": "2020-10-16T07:31:28.206121Z" }, "scrolled": true }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
sepoctnovdec
alice8.08.09.0NaN
bob10.09.010.0NaN
charles4.011.05.0NaN
colinNaNNaNNaNNaN
darwin9.010.011.0NaN
\n", "
" ], "text/plain": [ " sep oct nov dec\n", "alice 8.0 8.0 9.0 NaN\n", "bob 10.0 9.0 10.0 NaN\n", "charles 4.0 11.0 5.0 NaN\n", "colin NaN NaN NaN NaN\n", "darwin 9.0 10.0 11.0 NaN" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "grades[\"dec\"] = np.nan\n", "final_grades = grades + better_bonus_points\n", "final_grades" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "12월과 colin에 대해 할 수 있는 것이 많지 않습니다. 보너스 포인트를 만드는 것이 나쁘지만 점수를 합리적으로 올릴 수는 없습니다(어떤 선생님들은 그럴 수 있지만). `dropna()` 메서드를 사용해 모두 `NaN`인 행을 삭제합니다:" ] }, { "cell_type": "code", "execution_count": 113, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:28.226459Z", "iopub.status.busy": "2020-10-16T07:31:28.225200Z", "iopub.status.idle": "2020-10-16T07:31:28.231887Z", "shell.execute_reply": "2020-10-16T07:31:28.230844Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
sepoctnovdec
alice8.08.09.0NaN
bob10.09.010.0NaN
charles4.011.05.0NaN
darwin9.010.011.0NaN
\n", "
" ], "text/plain": [ " sep oct nov dec\n", "alice 8.0 8.0 9.0 NaN\n", "bob 10.0 9.0 10.0 NaN\n", "charles 4.0 11.0 5.0 NaN\n", "darwin 9.0 10.0 11.0 NaN" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "final_grades_clean = final_grades.dropna(how=\"all\")\n", "final_grades_clean" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "그다음 `axis` 매개변수를 `1`로 지정하여 모두 `NaN`인 열을 삭제합니다:" ] }, { "cell_type": "code", "execution_count": 114, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:28.249932Z", "iopub.status.busy": "2020-10-16T07:31:28.248633Z", "iopub.status.idle": "2020-10-16T07:31:28.255413Z", "shell.execute_reply": "2020-10-16T07:31:28.254162Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
sepoctnov
alice8.08.09.0
bob10.09.010.0
charles4.011.05.0
darwin9.010.011.0
\n", "
" ], "text/plain": [ " sep oct nov\n", "alice 8.0 8.0 9.0\n", "bob 10.0 9.0 10.0\n", "charles 4.0 11.0 5.0\n", "darwin 9.0 10.0 11.0" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "final_grades_clean = final_grades_clean.dropna(axis=1, how=\"all\")\n", "final_grades_clean" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## `groupby`로 집계하기\n", "\n", "SQL과 비슷하게 판다스는 데이터를 그룹핑하고 각 그룹에 대해 연산을 수행할 수 있습니다.\n", "\n", "먼저 그루핑을 위해 각 사람의 데이터를 추가로 만들겠습니다. `NaN` 값을 어떻게 다루는지 보기 위해 `final_grades` `DataFrame`을 다시 사용하겠습니다:" ] }, { "cell_type": "code", "execution_count": 115, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:28.275015Z", "iopub.status.busy": "2020-10-16T07:31:28.273759Z", "iopub.status.idle": "2020-10-16T07:31:28.280854Z", "shell.execute_reply": "2020-10-16T07:31:28.279781Z" }, "scrolled": true }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
sepoctnovdechobby
alice8.08.09.0NaNBiking
bob10.09.010.0NaNDancing
charles4.011.05.0NaNNaN
colinNaNNaNNaNNaNDancing
darwin9.010.011.0NaNBiking
\n", "
" ], "text/plain": [ " sep oct nov dec hobby\n", "alice 8.0 8.0 9.0 NaN Biking\n", "bob 10.0 9.0 10.0 NaN Dancing\n", "charles 4.0 11.0 5.0 NaN NaN\n", "colin NaN NaN NaN NaN Dancing\n", "darwin 9.0 10.0 11.0 NaN Biking" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "final_grades[\"hobby\"] = [\"Biking\", \"Dancing\", np.nan, \"Dancing\", \"Biking\"]\n", "final_grades" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "hobby로 이 `DataFrame`을 그룹핑해 보죠:" ] }, { "cell_type": "code", "execution_count": 116, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:28.289508Z", "iopub.status.busy": "2020-10-16T07:31:28.288213Z", "iopub.status.idle": "2020-10-16T07:31:28.293911Z", "shell.execute_reply": "2020-10-16T07:31:28.294840Z" } }, "outputs": [ { "data": { "text/plain": [ "" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "grouped_grades = final_grades.groupby(\"hobby\")\n", "grouped_grades" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "이제 hobby마다 평균 점수를 계산할 수 있습니다:" ] }, { "cell_type": "code", "execution_count": 117, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:28.315872Z", "iopub.status.busy": "2020-10-16T07:31:28.314695Z", "iopub.status.idle": "2020-10-16T07:31:28.320059Z", "shell.execute_reply": "2020-10-16T07:31:28.321150Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
sepoctnovdec
hobby
Biking8.59.010.0NaN
Dancing10.09.010.0NaN
\n", "
" ], "text/plain": [ " sep oct nov dec\n", "hobby \n", "Biking 8.5 9.0 10.0 NaN\n", "Dancing 10.0 9.0 10.0 NaN" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "grouped_grades.mean()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "아주 쉽네요! 평균을 계산할 때 `NaN` 값은 그냥 무시됩니다." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 피봇 테이블\n", "\n", "판다스는 스프레드시트와 비슷하 [피봇 테이블](https://en.wikipedia.org/wiki/Pivot_table)을 지원하여 데이터를 빠르게 요약할 수 있습니다. 어떻게 동작하는 알아 보기 위해 간단한 `DataFrame`을 만들어 보죠:" ] }, { "cell_type": "code", "execution_count": 118, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:28.337894Z", "iopub.status.busy": "2020-10-16T07:31:28.336559Z", "iopub.status.idle": "2020-10-16T07:31:28.342840Z", "shell.execute_reply": "2020-10-16T07:31:28.341758Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
octnovdec
bob0.0NaN2.0
colinNaN1.00.0
darwin0.01.00.0
charles3.03.00.0
\n", "
" ], "text/plain": [ " oct nov dec\n", "bob 0.0 NaN 2.0\n", "colin NaN 1.0 0.0\n", "darwin 0.0 1.0 0.0\n", "charles 3.0 3.0 0.0" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "bonus_points" ] }, { "cell_type": "code", "execution_count": 119, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:28.368578Z", "iopub.status.busy": "2020-10-16T07:31:28.367317Z", "iopub.status.idle": "2020-10-16T07:31:28.374218Z", "shell.execute_reply": "2020-10-16T07:31:28.373063Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
namemonthgradebonus
0alicesep8.0NaN
1aliceoct8.0NaN
2alicenov9.0NaN
3bobsep10.00.0
4boboct9.0NaN
5bobnov10.02.0
6charlessep4.03.0
7charlesoct11.03.0
8charlesnov5.00.0
9darwinsep9.00.0
10darwinoct10.01.0
11darwinnov11.00.0
\n", "
" ], "text/plain": [ " name month grade bonus\n", "0 alice sep 8.0 NaN\n", "1 alice oct 8.0 NaN\n", "2 alice nov 9.0 NaN\n", "3 bob sep 10.0 0.0\n", "4 bob oct 9.0 NaN\n", "5 bob nov 10.0 2.0\n", "6 charles sep 4.0 3.0\n", "7 charles oct 11.0 3.0\n", "8 charles nov 5.0 0.0\n", "9 darwin sep 9.0 0.0\n", "10 darwin oct 10.0 1.0\n", "11 darwin nov 11.0 0.0" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "more_grades = final_grades_clean.stack().reset_index()\n", "more_grades.columns = [\"name\", \"month\", \"grade\"]\n", "more_grades[\"bonus\"] = [np.nan, np.nan, np.nan, 0, np.nan, 2, 3, 3, 0, 0, 1, 0]\n", "more_grades" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "이제 이 `DataFrame`에 대해 `pd.pivot_table()` 함수를 호출하고 `name` 열로 그룹핑합니다. 기본적으로 `pivot_table()`은 수치 열의 평균을 계산합니다:" ] }, { "cell_type": "code", "execution_count": 120, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:28.396388Z", "iopub.status.busy": "2020-10-16T07:31:28.384014Z", "iopub.status.idle": "2020-10-16T07:31:28.402172Z", "shell.execute_reply": "2020-10-16T07:31:28.403481Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
bonusgrade
name
aliceNaN8.333333
bob1.0000009.666667
charles2.0000006.666667
darwin0.33333310.000000
\n", "
" ], "text/plain": [ " bonus grade\n", "name \n", "alice NaN 8.333333\n", "bob 1.000000 9.666667\n", "charles 2.000000 6.666667\n", "darwin 0.333333 10.000000" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "pd.pivot_table(more_grades, index=\"name\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "집계 함수를 `aggfunc` 매개변수로 바꿀 수 있습니다. 또한 집계 대상의 열을 리스트로 지정할 수 있습니다:" ] }, { "cell_type": "code", "execution_count": 121, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:28.429813Z", "iopub.status.busy": "2020-10-16T07:31:28.428152Z", "iopub.status.idle": "2020-10-16T07:31:28.433948Z", "shell.execute_reply": "2020-10-16T07:31:28.435250Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
bonusgrade
name
aliceNaN9.0
bob2.010.0
charles3.011.0
darwin1.011.0
\n", "
" ], "text/plain": [ " bonus grade\n", "name \n", "alice NaN 9.0\n", "bob 2.0 10.0\n", "charles 3.0 11.0\n", "darwin 1.0 11.0" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "pd.pivot_table(more_grades, index=\"name\", values=[\"grade\",\"bonus\"], aggfunc=np.max)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "`columns` 매개변수를 지정하여 수평으로 집계할 수 있고 `margins=True`로 설정해 각 행과 열에 대해 전체 합을 계산할 수 있습니다:" ] }, { "cell_type": "code", "execution_count": 122, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:28.447027Z", "iopub.status.busy": "2020-10-16T07:31:28.445382Z", "iopub.status.idle": "2020-10-16T07:31:28.501446Z", "shell.execute_reply": "2020-10-16T07:31:28.500477Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
monthnovoctsepAll
name
alice9.008.08.008.333333
bob10.009.010.009.666667
charles5.0011.04.006.666667
darwin11.0010.09.0010.000000
All8.759.57.758.666667
\n", "
" ], "text/plain": [ "month nov oct sep All\n", "name \n", "alice 9.00 8.0 8.00 8.333333\n", "bob 10.00 9.0 10.00 9.666667\n", "charles 5.00 11.0 4.00 6.666667\n", "darwin 11.00 10.0 9.00 10.000000\n", "All 8.75 9.5 7.75 8.666667" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "pd.pivot_table(more_grades, index=\"name\", values=\"grade\", columns=\"month\", margins=True)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "마지막으로 여러 개의 인덱스나 열 이름을 지정하면 판다스가 다중 레벨 인덱스를 만듭니다:" ] }, { "cell_type": "code", "execution_count": 123, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:28.538598Z", "iopub.status.busy": "2020-10-16T07:31:28.516477Z", "iopub.status.idle": "2020-10-16T07:31:28.544991Z", "shell.execute_reply": "2020-10-16T07:31:28.543793Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
bonusgrade
namemonth
alicenovNaN9.00
octNaN8.00
sepNaN8.00
bobnov2.00010.00
octNaN9.00
sep0.00010.00
charlesnov0.0005.00
oct3.00011.00
sep3.0004.00
darwinnov0.00011.00
oct1.00010.00
sep0.0009.00
All1.1258.75
\n", "
" ], "text/plain": [ " bonus grade\n", "name month \n", "alice nov NaN 9.00\n", " oct NaN 8.00\n", " sep NaN 8.00\n", "bob nov 2.000 10.00\n", " oct NaN 9.00\n", " sep 0.000 10.00\n", "charles nov 0.000 5.00\n", " oct 3.000 11.00\n", " sep 3.000 4.00\n", "darwin nov 0.000 11.00\n", " oct 1.000 10.00\n", " sep 0.000 9.00\n", "All 1.125 8.75" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "pd.pivot_table(more_grades, index=(\"name\", \"month\"), margins=True)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 함수\n", "\n", "큰 `DataFrame`을 다룰 때 내용을 간단히 요약하는 것이 도움이 됩니다. 판다스는 이를 위한 몇 가지 함수를 제공합니다. 먼저 수치 값, 누락된 값, 텍스트 값이 섞인 큰 `DataFrame`을 만들어 보죠. 주피터 노트북은 이 `DataFrame`의 일부만 보여줍니다:" ] }, { "cell_type": "code", "execution_count": 124, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:28.555609Z", "iopub.status.busy": "2020-10-16T07:31:28.554261Z", "iopub.status.idle": "2020-10-16T07:31:28.679610Z", "shell.execute_reply": "2020-10-16T07:31:28.678101Z" }, "scrolled": false }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
ABCsome_textDEFGHI...QRSTUVWXYZ
0NaN11.044.0Blabla99.0NaN88.022.0165.0143.0...11.0NaN11.044.099.0NaN88.022.0165.0143.0
111.022.055.0Blabla110.0NaN99.033.0NaN154.0...22.011.022.055.0110.0NaN99.033.0NaN154.0
222.033.066.0Blabla121.011.0110.044.0NaN165.0...33.022.033.066.0121.011.0110.044.0NaN165.0
333.044.077.0Blabla132.022.0121.055.011.0NaN...44.033.044.077.0132.022.0121.055.011.0NaN
444.055.088.0Blabla143.033.0132.066.022.0NaN...55.044.055.088.0143.033.0132.066.022.0NaN
..................................................................
9995NaNNaN33.0Blabla88.0165.077.011.0154.0132.0...NaNNaNNaN33.088.0165.077.011.0154.0132.0
9996NaN11.044.0Blabla99.0NaN88.022.0165.0143.0...11.0NaN11.044.099.0NaN88.022.0165.0143.0
999711.022.055.0Blabla110.0NaN99.033.0NaN154.0...22.011.022.055.0110.0NaN99.033.0NaN154.0
999822.033.066.0Blabla121.011.0110.044.0NaN165.0...33.022.033.066.0121.011.0110.044.0NaN165.0
999933.044.077.0Blabla132.022.0121.055.011.0NaN...44.033.044.077.0132.022.0121.055.011.0NaN
\n", "

10000 rows × 27 columns

\n", "
" ], "text/plain": [ " A B C some_text D E F G H I \\\n", "0 NaN 11.0 44.0 Blabla 99.0 NaN 88.0 22.0 165.0 143.0 \n", "1 11.0 22.0 55.0 Blabla 110.0 NaN 99.0 33.0 NaN 154.0 \n", "2 22.0 33.0 66.0 Blabla 121.0 11.0 110.0 44.0 NaN 165.0 \n", "3 33.0 44.0 77.0 Blabla 132.0 22.0 121.0 55.0 11.0 NaN \n", "4 44.0 55.0 88.0 Blabla 143.0 33.0 132.0 66.0 22.0 NaN \n", "... ... ... ... ... ... ... ... ... ... ... \n", "9995 NaN NaN 33.0 Blabla 88.0 165.0 77.0 11.0 154.0 132.0 \n", "9996 NaN 11.0 44.0 Blabla 99.0 NaN 88.0 22.0 165.0 143.0 \n", "9997 11.0 22.0 55.0 Blabla 110.0 NaN 99.0 33.0 NaN 154.0 \n", "9998 22.0 33.0 66.0 Blabla 121.0 11.0 110.0 44.0 NaN 165.0 \n", "9999 33.0 44.0 77.0 Blabla 132.0 22.0 121.0 55.0 11.0 NaN \n", "\n", " ... Q R S T U V W X Y Z \n", "0 ... 11.0 NaN 11.0 44.0 99.0 NaN 88.0 22.0 165.0 143.0 \n", "1 ... 22.0 11.0 22.0 55.0 110.0 NaN 99.0 33.0 NaN 154.0 \n", "2 ... 33.0 22.0 33.0 66.0 121.0 11.0 110.0 44.0 NaN 165.0 \n", "3 ... 44.0 33.0 44.0 77.0 132.0 22.0 121.0 55.0 11.0 NaN \n", "4 ... 55.0 44.0 55.0 88.0 143.0 33.0 132.0 66.0 22.0 NaN \n", "... ... ... ... ... ... ... ... ... ... ... ... \n", "9995 ... NaN NaN NaN 33.0 88.0 165.0 77.0 11.0 154.0 132.0 \n", "9996 ... 11.0 NaN 11.0 44.0 99.0 NaN 88.0 22.0 165.0 143.0 \n", "9997 ... 22.0 11.0 22.0 55.0 110.0 NaN 99.0 33.0 NaN 154.0 \n", "9998 ... 33.0 22.0 33.0 66.0 121.0 11.0 110.0 44.0 NaN 165.0 \n", "9999 ... 44.0 33.0 44.0 77.0 132.0 22.0 121.0 55.0 11.0 NaN \n", "\n", "[10000 rows x 27 columns]" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "much_data = np.fromfunction(lambda x,y: (x+y*y)%17*11, (10000, 26))\n", "large_df = pd.DataFrame(much_data, columns=list(\"ABCDEFGHIJKLMNOPQRSTUVWXYZ\"))\n", "large_df[large_df % 16 == 0] = np.nan\n", "large_df.insert(3,\"some_text\", \"Blabla\")\n", "large_df" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "`head()` 메서드는 처음 5개 행을 반환합니다:" ] }, { "cell_type": "code", "execution_count": 125, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:28.722714Z", "iopub.status.busy": "2020-10-16T07:31:28.715602Z", "iopub.status.idle": "2020-10-16T07:31:28.729780Z", "shell.execute_reply": "2020-10-16T07:31:28.728244Z" }, "scrolled": false }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
ABCsome_textDEFGHI...QRSTUVWXYZ
0NaN11.044.0Blabla99.0NaN88.022.0165.0143.0...11.0NaN11.044.099.0NaN88.022.0165.0143.0
111.022.055.0Blabla110.0NaN99.033.0NaN154.0...22.011.022.055.0110.0NaN99.033.0NaN154.0
222.033.066.0Blabla121.011.0110.044.0NaN165.0...33.022.033.066.0121.011.0110.044.0NaN165.0
333.044.077.0Blabla132.022.0121.055.011.0NaN...44.033.044.077.0132.022.0121.055.011.0NaN
444.055.088.0Blabla143.033.0132.066.022.0NaN...55.044.055.088.0143.033.0132.066.022.0NaN
\n", "

5 rows × 27 columns

\n", "
" ], "text/plain": [ " A B C some_text D E F G H I ... \\\n", "0 NaN 11.0 44.0 Blabla 99.0 NaN 88.0 22.0 165.0 143.0 ... \n", "1 11.0 22.0 55.0 Blabla 110.0 NaN 99.0 33.0 NaN 154.0 ... \n", "2 22.0 33.0 66.0 Blabla 121.0 11.0 110.0 44.0 NaN 165.0 ... \n", "3 33.0 44.0 77.0 Blabla 132.0 22.0 121.0 55.0 11.0 NaN ... \n", "4 44.0 55.0 88.0 Blabla 143.0 33.0 132.0 66.0 22.0 NaN ... \n", "\n", " Q R S T U V W X Y Z \n", "0 11.0 NaN 11.0 44.0 99.0 NaN 88.0 22.0 165.0 143.0 \n", "1 22.0 11.0 22.0 55.0 110.0 NaN 99.0 33.0 NaN 154.0 \n", "2 33.0 22.0 33.0 66.0 121.0 11.0 110.0 44.0 NaN 165.0 \n", "3 44.0 33.0 44.0 77.0 132.0 22.0 121.0 55.0 11.0 NaN \n", "4 55.0 44.0 55.0 88.0 143.0 33.0 132.0 66.0 22.0 NaN \n", "\n", "[5 rows x 27 columns]" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "large_df.head()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "마지막 5개 행을 반환하는 `tail()` 함수도 있습니다. 원하는 행 개수를 전달할 수도 있습니다:" ] }, { "cell_type": "code", "execution_count": 126, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:28.770715Z", "iopub.status.busy": "2020-10-16T07:31:28.768959Z", "iopub.status.idle": "2020-10-16T07:31:28.775307Z", "shell.execute_reply": "2020-10-16T07:31:28.776741Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
ABCsome_textDEFGHI...QRSTUVWXYZ
999822.033.066.0Blabla121.011.0110.044.0NaN165.0...33.022.033.066.0121.011.0110.044.0NaN165.0
999933.044.077.0Blabla132.022.0121.055.011.0NaN...44.033.044.077.0132.022.0121.055.011.0NaN
\n", "

2 rows × 27 columns

\n", "
" ], "text/plain": [ " A B C some_text D E F G H I ... \\\n", "9998 22.0 33.0 66.0 Blabla 121.0 11.0 110.0 44.0 NaN 165.0 ... \n", "9999 33.0 44.0 77.0 Blabla 132.0 22.0 121.0 55.0 11.0 NaN ... \n", "\n", " Q R S T U V W X Y Z \n", "9998 33.0 22.0 33.0 66.0 121.0 11.0 110.0 44.0 NaN 165.0 \n", "9999 44.0 33.0 44.0 77.0 132.0 22.0 121.0 55.0 11.0 NaN \n", "\n", "[2 rows x 27 columns]" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "large_df.tail(n=2)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "`info()` 메서드는 각 열의 내용을 요약하여 출력합니다:" ] }, { "cell_type": "code", "execution_count": 127, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:28.790461Z", "iopub.status.busy": "2020-10-16T07:31:28.789327Z", "iopub.status.idle": "2020-10-16T07:31:28.806423Z", "shell.execute_reply": "2020-10-16T07:31:28.805155Z" }, "scrolled": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "\n", "RangeIndex: 10000 entries, 0 to 9999\n", "Data columns (total 27 columns):\n", " # Column Non-Null Count Dtype \n", "--- ------ -------------- ----- \n", " 0 A 8823 non-null float64\n", " 1 B 8824 non-null float64\n", " 2 C 8824 non-null float64\n", " 3 some_text 10000 non-null object \n", " 4 D 8824 non-null float64\n", " 5 E 8822 non-null float64\n", " 6 F 8824 non-null float64\n", " 7 G 8824 non-null float64\n", " 8 H 8822 non-null float64\n", " 9 I 8823 non-null float64\n", " 10 J 8823 non-null float64\n", " 11 K 8822 non-null float64\n", " 12 L 8824 non-null float64\n", " 13 M 8824 non-null float64\n", " 14 N 8822 non-null float64\n", " 15 O 8824 non-null float64\n", " 16 P 8824 non-null float64\n", " 17 Q 8824 non-null float64\n", " 18 R 8823 non-null float64\n", " 19 S 8824 non-null float64\n", " 20 T 8824 non-null float64\n", " 21 U 8824 non-null float64\n", " 22 V 8822 non-null float64\n", " 23 W 8824 non-null float64\n", " 24 X 8824 non-null float64\n", " 25 Y 8822 non-null float64\n", " 26 Z 8823 non-null float64\n", "dtypes: float64(26), object(1)\n", "memory usage: 2.1+ MB\n" ] } ], "source": [ "large_df.info()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "마지막으로 `describe()` 메서드는 각 열에 대한 주요 집계 연산을 수행한 결과를 보여줍니다:\n", "\n", "Finally, the `describe()` method gives a nice overview of the main aggregated values over each column:\n", "* `count`: null(NaN)이 아닌 값의 개수\n", "* `mean`: null이 아닌 값의 평균\n", "* `std`: null이 아닌 값의 [표준 편차](https://ko.wikipedia.org/wiki/%ED%91%9C%EC%A4%80_%ED%8E%B8%EC%B0%A8)\n", "* `min`: null이 아닌 값의 최솟값\n", "* `25%`, `50%`, `75%`: null이 아닌 값의 25번째, 50번째, 75번째 [백분위수](https://ko.wikipedia.org/wiki/%EB%B0%B1%EB%B6%84%EC%9C%84%EC%88%98)\n", "* `max`: null이 아닌 값의 최댓값" ] }, { "cell_type": "code", "execution_count": 128, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:28.816862Z", "iopub.status.busy": "2020-10-16T07:31:28.815373Z", "iopub.status.idle": "2020-10-16T07:31:28.980652Z", "shell.execute_reply": "2020-10-16T07:31:28.979733Z" }, "scrolled": false }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
ABCDEFGHIJ...QRSTUVWXYZ
count8823.0000008824.0000008824.0000008824.0000008822.0000008824.0000008824.0000008822.0000008823.0000008823.000000...8824.0000008823.0000008824.0000008824.0000008824.0000008822.0000008824.0000008824.0000008822.0000008823.000000
mean87.97755987.97257587.98753488.01246687.98379188.00748087.97756188.00000088.02244188.022441...87.97257587.97755987.97257587.98753488.01246687.98379188.00748087.97756188.00000088.022441
std47.53591147.53552347.52167947.52167947.53500147.51937147.52975547.53687947.53591147.535911...47.53552347.53591147.53552347.52167947.52167947.53500147.51937147.52975547.53687947.535911
min11.00000011.00000011.00000011.00000011.00000011.00000011.00000011.00000011.00000011.000000...11.00000011.00000011.00000011.00000011.00000011.00000011.00000011.00000011.00000011.000000
25%44.00000044.00000044.00000044.00000044.00000044.00000044.00000044.00000044.00000044.000000...44.00000044.00000044.00000044.00000044.00000044.00000044.00000044.00000044.00000044.000000
50%88.00000088.00000088.00000088.00000088.00000088.00000088.00000088.00000088.00000088.000000...88.00000088.00000088.00000088.00000088.00000088.00000088.00000088.00000088.00000088.000000
75%132.000000132.000000132.000000132.000000132.000000132.000000132.000000132.000000132.000000132.000000...132.000000132.000000132.000000132.000000132.000000132.000000132.000000132.000000132.000000132.000000
max165.000000165.000000165.000000165.000000165.000000165.000000165.000000165.000000165.000000165.000000...165.000000165.000000165.000000165.000000165.000000165.000000165.000000165.000000165.000000165.000000
\n", "

8 rows × 26 columns

\n", "
" ], "text/plain": [ " A B C D E \\\n", "count 8823.000000 8824.000000 8824.000000 8824.000000 8822.000000 \n", "mean 87.977559 87.972575 87.987534 88.012466 87.983791 \n", "std 47.535911 47.535523 47.521679 47.521679 47.535001 \n", "min 11.000000 11.000000 11.000000 11.000000 11.000000 \n", "25% 44.000000 44.000000 44.000000 44.000000 44.000000 \n", "50% 88.000000 88.000000 88.000000 88.000000 88.000000 \n", "75% 132.000000 132.000000 132.000000 132.000000 132.000000 \n", "max 165.000000 165.000000 165.000000 165.000000 165.000000 \n", "\n", " F G H I J ... \\\n", "count 8824.000000 8824.000000 8822.000000 8823.000000 8823.000000 ... \n", "mean 88.007480 87.977561 88.000000 88.022441 88.022441 ... \n", "std 47.519371 47.529755 47.536879 47.535911 47.535911 ... \n", "min 11.000000 11.000000 11.000000 11.000000 11.000000 ... \n", "25% 44.000000 44.000000 44.000000 44.000000 44.000000 ... \n", "50% 88.000000 88.000000 88.000000 88.000000 88.000000 ... \n", "75% 132.000000 132.000000 132.000000 132.000000 132.000000 ... \n", "max 165.000000 165.000000 165.000000 165.000000 165.000000 ... \n", "\n", " Q R S T U \\\n", "count 8824.000000 8823.000000 8824.000000 8824.000000 8824.000000 \n", "mean 87.972575 87.977559 87.972575 87.987534 88.012466 \n", "std 47.535523 47.535911 47.535523 47.521679 47.521679 \n", "min 11.000000 11.000000 11.000000 11.000000 11.000000 \n", "25% 44.000000 44.000000 44.000000 44.000000 44.000000 \n", "50% 88.000000 88.000000 88.000000 88.000000 88.000000 \n", "75% 132.000000 132.000000 132.000000 132.000000 132.000000 \n", "max 165.000000 165.000000 165.000000 165.000000 165.000000 \n", "\n", " V W X Y Z \n", "count 8822.000000 8824.000000 8824.000000 8822.000000 8823.000000 \n", "mean 87.983791 88.007480 87.977561 88.000000 88.022441 \n", "std 47.535001 47.519371 47.529755 47.536879 47.535911 \n", "min 11.000000 11.000000 11.000000 11.000000 11.000000 \n", "25% 44.000000 44.000000 44.000000 44.000000 44.000000 \n", "50% 88.000000 88.000000 88.000000 88.000000 88.000000 \n", "75% 132.000000 132.000000 132.000000 132.000000 132.000000 \n", "max 165.000000 165.000000 165.000000 165.000000 165.000000 \n", "\n", "[8 rows x 26 columns]" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "large_df.describe()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "# 저장 & 로딩\n", "\n", "판다스는 `DataFrame`를 여러 가지 포맷으로 저장할 수 있습니다. CSV, Excel, JSON, HTML, HDF5, SQL 데이터베이스 같은 포맷이 가능합니다. 예제를 위해 `DataFrame`을 하나 만들어 보겠습니다:" ] }, { "cell_type": "code", "execution_count": 129, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:29.000434Z", "iopub.status.busy": "2020-10-16T07:31:28.999329Z", "iopub.status.idle": "2020-10-16T07:31:29.004808Z", "shell.execute_reply": "2020-10-16T07:31:29.005902Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
hobbyweightbirthyearchildren
aliceBiking68.51985NaN
bobDancing83.119843.0
\n", "
" ], "text/plain": [ " hobby weight birthyear children\n", "alice Biking 68.5 1985 NaN\n", "bob Dancing 83.1 1984 3.0" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "my_df = pd.DataFrame(\n", " [[\"Biking\", 68.5, 1985, np.nan], [\"Dancing\", 83.1, 1984, 3]], \n", " columns=[\"hobby\",\"weight\",\"birthyear\",\"children\"],\n", " index=[\"alice\", \"bob\"]\n", ")\n", "my_df" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 저장\n", "\n", "CSV, HTML, JSON로 저장해 보죠:" ] }, { "cell_type": "code", "execution_count": 130, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:29.014207Z", "iopub.status.busy": "2020-10-16T07:31:29.013037Z", "iopub.status.idle": "2020-10-16T07:31:29.057312Z", "shell.execute_reply": "2020-10-16T07:31:29.056173Z" } }, "outputs": [], "source": [ "my_df.to_csv(\"my_df.csv\")\n", "my_df.to_html(\"my_df.html\")\n", "my_df.to_json(\"my_df.json\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "저장된 내용을 확인해 보죠:" ] }, { "cell_type": "code", "execution_count": 131, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:29.067993Z", "iopub.status.busy": "2020-10-16T07:31:29.066881Z", "iopub.status.idle": "2020-10-16T07:31:29.081991Z", "shell.execute_reply": "2020-10-16T07:31:29.080808Z" } }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "# my_df.csv\n", ",hobby,weight,birthyear,children\n", "alice,Biking,68.5,1985,\n", "bob,Dancing,83.1,1984,3.0\n", "\n", "\n", "# my_df.html\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
hobbyweightbirthyearchildren
aliceBiking68.51985NaN
bobDancing83.119843.0
\n", "\n", "# my_df.json\n", "{\"hobby\":{\"alice\":\"Biking\",\"bob\":\"Dancing\"},\"weight\":{\"alice\":68.5,\"bob\":83.1},\"birthyear\":{\"alice\":1985,\"bob\":1984},\"children\":{\"alice\":null,\"bob\":3.0}}\n", "\n" ] } ], "source": [ "for filename in (\"my_df.csv\", \"my_df.html\", \"my_df.json\"):\n", " print(\"#\", filename)\n", " with open(filename, \"rt\") as f:\n", " print(f.read())\n", " print()\n" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "인덱스는 (이름 없이) CSV 파일의 첫 번째 열에 저장되었습니다. HTML에서는 `` 태그와 JSON에서는 키로 저장되었습니다.\n", "\n", "다른 포맷으로 저장하는 것도 비슷합니다. 하지만 일부 포맷은 추가적인 라이브러리 설치가 필요합니다. 예를 들어, 엑셀로 저장하려면 openpyxl 라이브러리가 필요합니다:" ] }, { "cell_type": "code", "execution_count": 132, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:29.092332Z", "iopub.status.busy": "2020-10-16T07:31:29.090986Z", "iopub.status.idle": "2020-10-16T07:31:29.098706Z", "shell.execute_reply": "2020-10-16T07:31:29.097724Z" } }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "No module named 'openpyxl'\n" ] } ], "source": [ "try:\n", " my_df.to_excel(\"my_df.xlsx\", sheet_name='People')\n", "except ImportError as e:\n", " print(e)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 로딩\n", "\n", "CSV 파일을 `DataFrame`으로 로드해 보죠:" ] }, { "cell_type": "code", "execution_count": 133, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:29.107752Z", "iopub.status.busy": "2020-10-16T07:31:29.106586Z", "iopub.status.idle": "2020-10-16T07:31:29.126178Z", "shell.execute_reply": "2020-10-16T07:31:29.124769Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
hobbyweightbirthyearchildren
aliceBiking68.51985NaN
bobDancing83.119843.0
\n", "
" ], "text/plain": [ " hobby weight birthyear children\n", "alice Biking 68.5 1985 NaN\n", "bob Dancing 83.1 1984 3.0" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "my_df_loaded = pd.read_csv(\"my_df.csv\", index_col=0)\n", "my_df_loaded" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "예상할 수 있듯이 `read_json`, `read_html`, `read_excel` 함수도 있습니다. 인터넷에서 데이터를 바로 읽을 수도 있습니다. 예를 들어 깃허브에서 1,000개의 U.S. 도시를 로드해 보죠:" ] }, { "cell_type": "code", "execution_count": 134, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:29.140192Z", "iopub.status.busy": "2020-10-16T07:31:29.138604Z", "iopub.status.idle": "2020-10-16T07:31:29.323556Z", "shell.execute_reply": "2020-10-16T07:31:29.322579Z" } }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "HTTP Error 403: Forbidden\n" ] } ], "source": [ "us_cities = None\n", "try:\n", " csv_url = \"https://raw.githubusercontent.com/plotly/datasets/master/us-cities-top-1k.csv\"\n", " us_cities = pd.read_csv(csv_url, index_col=0)\n", " us_cities = us_cities.head()\n", "except IOError as e:\n", " print(e)\n", "us_cities" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "이외에도 많은 옵션이 있습니다. 특히 datetime 포맷에 관련된 옵션이 많습니다. 더 자세한 내용은 온라인 [문서](http://pandas.pydata.org/pandas-docs/stable/io.html)를 참고하세요." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "# `DataFrame` 합치기\n", "\n", "## SQL 조인\n", "\n", "판다스의 강력한 기능 중 하나는 `DataFrame`에 대해 SQL 같은 조인(join)을 수행할 수 있는 것입니다. 여러 종류의 조인이 지원됩니다. 이너 조인(inner join), 레프트/라이트 아우터 조인(left/right outer join), 풀 조인(full join)입니다. 이에 대해 알아 보기 위해 간단한 `DataFrame`을 만들어 보죠:" ] }, { "cell_type": "code", "execution_count": 135, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:29.346066Z", "iopub.status.busy": "2020-10-16T07:31:29.344663Z", "iopub.status.idle": "2020-10-16T07:31:29.351634Z", "shell.execute_reply": "2020-10-16T07:31:29.350373Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
statecitylatlng
0CASan Francisco37.781334-122.416728
1NYNew York40.705649-74.008344
2FLMiami25.791100-80.320733
3OHCleveland41.473508-81.739791
4UTSalt Lake City40.755851-111.896657
\n", "
" ], "text/plain": [ " state city lat lng\n", "0 CA San Francisco 37.781334 -122.416728\n", "1 NY New York 40.705649 -74.008344\n", "2 FL Miami 25.791100 -80.320733\n", "3 OH Cleveland 41.473508 -81.739791\n", "4 UT Salt Lake City 40.755851 -111.896657" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "city_loc = pd.DataFrame(\n", " [\n", " [\"CA\", \"San Francisco\", 37.781334, -122.416728],\n", " [\"NY\", \"New York\", 40.705649, -74.008344],\n", " [\"FL\", \"Miami\", 25.791100, -80.320733],\n", " [\"OH\", \"Cleveland\", 41.473508, -81.739791],\n", " [\"UT\", \"Salt Lake City\", 40.755851, -111.896657]\n", " ], columns=[\"state\", \"city\", \"lat\", \"lng\"])\n", "city_loc" ] }, { "cell_type": "code", "execution_count": 136, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:29.372130Z", "iopub.status.busy": "2020-10-16T07:31:29.370659Z", "iopub.status.idle": "2020-10-16T07:31:29.376662Z", "shell.execute_reply": "2020-10-16T07:31:29.375633Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
populationcitystate
3808976San FranciscoCalifornia
48363710New YorkNew-York
5413201MiamiFlorida
62242193HoustonTexas
\n", "
" ], "text/plain": [ " population city state\n", "3 808976 San Francisco California\n", "4 8363710 New York New-York\n", "5 413201 Miami Florida\n", "6 2242193 Houston Texas" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "city_pop = pd.DataFrame(\n", " [\n", " [808976, \"San Francisco\", \"California\"],\n", " [8363710, \"New York\", \"New-York\"],\n", " [413201, \"Miami\", \"Florida\"],\n", " [2242193, \"Houston\", \"Texas\"]\n", " ], index=[3,4,5,6], columns=[\"population\", \"city\", \"state\"])\n", "city_pop" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "이제 `merge()` 함수를 사용해 이 `DataFrame`을 조인해 보죠:" ] }, { "cell_type": "code", "execution_count": 137, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:29.401493Z", "iopub.status.busy": "2020-10-16T07:31:29.400088Z", "iopub.status.idle": "2020-10-16T07:31:29.407147Z", "shell.execute_reply": "2020-10-16T07:31:29.405772Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
state_xcitylatlngpopulationstate_y
0CASan Francisco37.781334-122.416728808976California
1NYNew York40.705649-74.0083448363710New-York
2FLMiami25.791100-80.320733413201Florida
\n", "
" ], "text/plain": [ " state_x city lat lng population state_y\n", "0 CA San Francisco 37.781334 -122.416728 808976 California\n", "1 NY New York 40.705649 -74.008344 8363710 New-York\n", "2 FL Miami 25.791100 -80.320733 413201 Florida" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "pd.merge(left=city_loc, right=city_pop, on=\"city\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "두 `DataFrame`은 `state`란 이름의 열을 가지고 있으므로 `state_x`와 `state_y`로 이름이 바뀌었습니다.\n", "\n", "또한 Cleveland, Salt Lake City, Houston은 두 `DataFrame`에 모두 존재하지 않기 때문에 삭제되었습니다. SQL의 `INNER JOIN`과 동일합니다. 도시를 삭제하지 않고 `NaN`으로 채우는 `FULL OUTER JOIN`을 원하면 `how=\"outer\"`로 지정합니다:" ] }, { "cell_type": "code", "execution_count": 138, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:29.435099Z", "iopub.status.busy": "2020-10-16T07:31:29.433483Z", "iopub.status.idle": "2020-10-16T07:31:29.439267Z", "shell.execute_reply": "2020-10-16T07:31:29.440577Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
state_xcitylatlngpopulationstate_y
0CASan Francisco37.781334-122.416728808976.0California
1NYNew York40.705649-74.0083448363710.0New-York
2FLMiami25.791100-80.320733413201.0Florida
3OHCleveland41.473508-81.739791NaNNaN
4UTSalt Lake City40.755851-111.896657NaNNaN
5NaNHoustonNaNNaN2242193.0Texas
\n", "
" ], "text/plain": [ " state_x city lat lng population state_y\n", "0 CA San Francisco 37.781334 -122.416728 808976.0 California\n", "1 NY New York 40.705649 -74.008344 8363710.0 New-York\n", "2 FL Miami 25.791100 -80.320733 413201.0 Florida\n", "3 OH Cleveland 41.473508 -81.739791 NaN NaN\n", "4 UT Salt Lake City 40.755851 -111.896657 NaN NaN\n", "5 NaN Houston NaN NaN 2242193.0 Texas" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "all_cities = pd.merge(left=city_loc, right=city_pop, on=\"city\", how=\"outer\")\n", "all_cities" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "물론 `LEFT OUTER JOIN`은 `how=\"left\"`로 지정할 수 있습니다. 왼쪽의 `DataFrame`에 있는 도시만 남습니다. 비슷하게 `how=\"right\"`는 오른쪽 `DataFrame`에 있는 도시만 결과에 남습니다. 예를 들면:" ] }, { "cell_type": "code", "execution_count": 139, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:29.465273Z", "iopub.status.busy": "2020-10-16T07:31:29.454940Z", "iopub.status.idle": "2020-10-16T07:31:29.472015Z", "shell.execute_reply": "2020-10-16T07:31:29.470685Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
state_xcitylatlngpopulationstate_y
0CASan Francisco37.781334-122.416728808976California
1NYNew York40.705649-74.0083448363710New-York
2FLMiami25.791100-80.320733413201Florida
3NaNHoustonNaNNaN2242193Texas
\n", "
" ], "text/plain": [ " state_x city lat lng population state_y\n", "0 CA San Francisco 37.781334 -122.416728 808976 California\n", "1 NY New York 40.705649 -74.008344 8363710 New-York\n", "2 FL Miami 25.791100 -80.320733 413201 Florida\n", "3 NaN Houston NaN NaN 2242193 Texas" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "pd.merge(left=city_loc, right=city_pop, on=\"city\", how=\"right\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "조인할 키가 `DataFrame` 인덱스라면 `left_index=True`나 `right_index=True`로 지정해야 합니다. 키 열의 이름이 다르면 `left_on`과 `right_on`을 사용합니다. 예를 들어:" ] }, { "cell_type": "code", "execution_count": 140, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:29.498246Z", "iopub.status.busy": "2020-10-16T07:31:29.496603Z", "iopub.status.idle": "2020-10-16T07:31:29.503085Z", "shell.execute_reply": "2020-10-16T07:31:29.504399Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
state_xcitylatlngpopulationnamestate_y
0CASan Francisco37.781334-122.416728808976San FranciscoCalifornia
1NYNew York40.705649-74.0083448363710New YorkNew-York
2FLMiami25.791100-80.320733413201MiamiFlorida
\n", "
" ], "text/plain": [ " state_x city lat lng population name \\\n", "0 CA San Francisco 37.781334 -122.416728 808976 San Francisco \n", "1 NY New York 40.705649 -74.008344 8363710 New York \n", "2 FL Miami 25.791100 -80.320733 413201 Miami \n", "\n", " state_y \n", "0 California \n", "1 New-York \n", "2 Florida " ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "city_pop2 = city_pop.copy()\n", "city_pop2.columns = [\"population\", \"name\", \"state\"]\n", "pd.merge(left=city_loc, right=city_pop2, left_on=\"city\", right_on=\"name\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 연결\n", "\n", "`DataFrame`을 조인하는 대신 그냥 연결할 수도 있습니다. `concat()` 함수가 하는 일입니다:" ] }, { "cell_type": "code", "execution_count": 141, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:29.528602Z", "iopub.status.busy": "2020-10-16T07:31:29.527026Z", "iopub.status.idle": "2020-10-16T07:31:29.533411Z", "shell.execute_reply": "2020-10-16T07:31:29.532303Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
statecitylatlngpopulation
0CASan Francisco37.781334-122.416728NaN
1NYNew York40.705649-74.008344NaN
2FLMiami25.791100-80.320733NaN
3OHCleveland41.473508-81.739791NaN
4UTSalt Lake City40.755851-111.896657NaN
3CaliforniaSan FranciscoNaNNaN808976.0
4New-YorkNew YorkNaNNaN8363710.0
5FloridaMiamiNaNNaN413201.0
6TexasHoustonNaNNaN2242193.0
\n", "
" ], "text/plain": [ " state city lat lng population\n", "0 CA San Francisco 37.781334 -122.416728 NaN\n", "1 NY New York 40.705649 -74.008344 NaN\n", "2 FL Miami 25.791100 -80.320733 NaN\n", "3 OH Cleveland 41.473508 -81.739791 NaN\n", "4 UT Salt Lake City 40.755851 -111.896657 NaN\n", "3 California San Francisco NaN NaN 808976.0\n", "4 New-York New York NaN NaN 8363710.0\n", "5 Florida Miami NaN NaN 413201.0\n", "6 Texas Houston NaN NaN 2242193.0" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "result_concat = pd.concat([city_loc, city_pop])\n", "result_concat" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "이 연산은 (행을 따라) 수직적으로 데이터를 연결하고 (열을 따라) 수평으로 연결하지 않습니다. 이 예에서 동일한 인덱스를 가진 행이 있습니다(예를 들면 3). 판다스는 이를 우아하게 처리합니다:" ] }, { "cell_type": "code", "execution_count": 142, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:29.552161Z", "iopub.status.busy": "2020-10-16T07:31:29.550911Z", "iopub.status.idle": "2020-10-16T07:31:29.557417Z", "shell.execute_reply": "2020-10-16T07:31:29.556343Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
statecitylatlngpopulation
3OHCleveland41.473508-81.739791NaN
3CaliforniaSan FranciscoNaNNaN808976.0
\n", "
" ], "text/plain": [ " state city lat lng population\n", "3 OH Cleveland 41.473508 -81.739791 NaN\n", "3 California San Francisco NaN NaN 808976.0" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "result_concat.loc[3]" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "또는 인덱스를 무시하도록 설정할 수 있습니다:" ] }, { "cell_type": "code", "execution_count": 143, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:29.579980Z", "iopub.status.busy": "2020-10-16T07:31:29.578727Z", "iopub.status.idle": "2020-10-16T07:31:29.585613Z", "shell.execute_reply": "2020-10-16T07:31:29.584416Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
statecitylatlngpopulation
0CASan Francisco37.781334-122.416728NaN
1NYNew York40.705649-74.008344NaN
2FLMiami25.791100-80.320733NaN
3OHCleveland41.473508-81.739791NaN
4UTSalt Lake City40.755851-111.896657NaN
5CaliforniaSan FranciscoNaNNaN808976.0
6New-YorkNew YorkNaNNaN8363710.0
7FloridaMiamiNaNNaN413201.0
8TexasHoustonNaNNaN2242193.0
\n", "
" ], "text/plain": [ " state city lat lng population\n", "0 CA San Francisco 37.781334 -122.416728 NaN\n", "1 NY New York 40.705649 -74.008344 NaN\n", "2 FL Miami 25.791100 -80.320733 NaN\n", "3 OH Cleveland 41.473508 -81.739791 NaN\n", "4 UT Salt Lake City 40.755851 -111.896657 NaN\n", "5 California San Francisco NaN NaN 808976.0\n", "6 New-York New York NaN NaN 8363710.0\n", "7 Florida Miami NaN NaN 413201.0\n", "8 Texas Houston NaN NaN 2242193.0" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "pd.concat([city_loc, city_pop], ignore_index=True)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "한 `DataFrame`에 열이 없을 때 `NaN`이 채워져 있는 것처럼 동작합니다. `join=\"inner\"`로 설정하면 *양쪽*의 `DataFrame`에 존재하는 열만 반환됩니다:" ] }, { "cell_type": "code", "execution_count": 144, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:29.604735Z", "iopub.status.busy": "2020-10-16T07:31:29.603386Z", "iopub.status.idle": "2020-10-16T07:31:29.609400Z", "shell.execute_reply": "2020-10-16T07:31:29.608131Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
statecity
0CASan Francisco
1NYNew York
2FLMiami
3OHCleveland
4UTSalt Lake City
3CaliforniaSan Francisco
4New-YorkNew York
5FloridaMiami
6TexasHouston
\n", "
" ], "text/plain": [ " state city\n", "0 CA San Francisco\n", "1 NY New York\n", "2 FL Miami\n", "3 OH Cleveland\n", "4 UT Salt Lake City\n", "3 California San Francisco\n", "4 New-York New York\n", "5 Florida Miami\n", "6 Texas Houston" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "pd.concat([city_loc, city_pop], join=\"inner\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "`axis=1`로 설정하면 `DataFrame`을 수직이 아니라 수평으로 연결할 수 있습니다:" ] }, { "cell_type": "code", "execution_count": 145, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:29.634308Z", "iopub.status.busy": "2020-10-16T07:31:29.633045Z", "iopub.status.idle": "2020-10-16T07:31:29.639806Z", "shell.execute_reply": "2020-10-16T07:31:29.638758Z" }, "scrolled": true }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
statecitylatlngpopulationcitystate
0CASan Francisco37.781334-122.416728NaNNaNNaN
1NYNew York40.705649-74.008344NaNNaNNaN
2FLMiami25.791100-80.320733NaNNaNNaN
3OHCleveland41.473508-81.739791808976.0San FranciscoCalifornia
4UTSalt Lake City40.755851-111.8966578363710.0New YorkNew-York
5NaNNaNNaNNaN413201.0MiamiFlorida
6NaNNaNNaNNaN2242193.0HoustonTexas
\n", "
" ], "text/plain": [ " state city lat lng population city \\\n", "0 CA San Francisco 37.781334 -122.416728 NaN NaN \n", "1 NY New York 40.705649 -74.008344 NaN NaN \n", "2 FL Miami 25.791100 -80.320733 NaN NaN \n", "3 OH Cleveland 41.473508 -81.739791 808976.0 San Francisco \n", "4 UT Salt Lake City 40.755851 -111.896657 8363710.0 New York \n", "5 NaN NaN NaN NaN 413201.0 Miami \n", "6 NaN NaN NaN NaN 2242193.0 Houston \n", "\n", " state \n", "0 NaN \n", "1 NaN \n", "2 NaN \n", "3 California \n", "4 New-York \n", "5 Florida \n", "6 Texas " ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "pd.concat([city_loc, city_pop], axis=1)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "이 경우 인덱스가 잘 정렬되지 않기 때문에 의미가 없습니다(예를 들어 Cleveland와 San Francisco의 인덱스 레이블이 `3`이기 때문에 동일한 행에 놓여 있습니다). 이 `DataFrame`을 연결하기 전에 도시로 인덱스를 재설정해 보죠:" ] }, { "cell_type": "code", "execution_count": 146, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:29.667789Z", "iopub.status.busy": "2020-10-16T07:31:29.648474Z", "iopub.status.idle": "2020-10-16T07:31:29.674949Z", "shell.execute_reply": "2020-10-16T07:31:29.673620Z" }, "scrolled": true }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
statelatlngpopulationstate
San FranciscoCA37.781334-122.416728808976.0California
New YorkNY40.705649-74.0083448363710.0New-York
MiamiFL25.791100-80.320733413201.0Florida
ClevelandOH41.473508-81.739791NaNNaN
Salt Lake CityUT40.755851-111.896657NaNNaN
HoustonNaNNaNNaN2242193.0Texas
\n", "
" ], "text/plain": [ " state lat lng population state\n", "San Francisco CA 37.781334 -122.416728 808976.0 California\n", "New York NY 40.705649 -74.008344 8363710.0 New-York\n", "Miami FL 25.791100 -80.320733 413201.0 Florida\n", "Cleveland OH 41.473508 -81.739791 NaN NaN\n", "Salt Lake City UT 40.755851 -111.896657 NaN NaN\n", "Houston NaN NaN NaN 2242193.0 Texas" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "pd.concat([city_loc.set_index(\"city\"), city_pop.set_index(\"city\")], axis=1)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "`FULL OUTER JOIN`을 수행한 것과 비슷합니다. 하지만 `state` 열이 `state_x`와 `state_y`로 바뀌지 않았고 `city` 열이 인덱스가 되었습니다." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "`append()` 메서드는 `DataFrame`을 수직으로 연결하는 단축 메서드입니다:" ] }, { "cell_type": "code", "execution_count": 147, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:29.698488Z", "iopub.status.busy": "2020-10-16T07:31:29.697097Z", "iopub.status.idle": "2020-10-16T07:31:29.703373Z", "shell.execute_reply": "2020-10-16T07:31:29.702208Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
statecitylatlngpopulation
0CASan Francisco37.781334-122.416728NaN
1NYNew York40.705649-74.008344NaN
2FLMiami25.791100-80.320733NaN
3OHCleveland41.473508-81.739791NaN
4UTSalt Lake City40.755851-111.896657NaN
3CaliforniaSan FranciscoNaNNaN808976.0
4New-YorkNew YorkNaNNaN8363710.0
5FloridaMiamiNaNNaN413201.0
6TexasHoustonNaNNaN2242193.0
\n", "
" ], "text/plain": [ " state city lat lng population\n", "0 CA San Francisco 37.781334 -122.416728 NaN\n", "1 NY New York 40.705649 -74.008344 NaN\n", "2 FL Miami 25.791100 -80.320733 NaN\n", "3 OH Cleveland 41.473508 -81.739791 NaN\n", "4 UT Salt Lake City 40.755851 -111.896657 NaN\n", "3 California San Francisco NaN NaN 808976.0\n", "4 New-York New York NaN NaN 8363710.0\n", "5 Florida Miami NaN NaN 413201.0\n", "6 Texas Houston NaN NaN 2242193.0" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "city_loc.append(city_pop)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "판다스의 다른 메서드와 마찬가지로 `append()` 메서드는 실제 `city_loc`을 수정하지 않습니다. 복사본을 만들어 수정한 다음 반환합니다." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "# 범주\n", "\n", "범주로 표현된 값을 가진 경우가 흔합니다. 예를 들어 `1`은 여성, `2`는 남성이거나 `\"A\"`는 좋은 것, `\"B\"`는 평균, `\"C\"`는 나쁜 것 등입니다. 범주형 값을 읽기 힘들고 다루기 번거롭습니다. 하지만 판다스에서는 간단합니다. 예를 들기 위해 앞서 만든 `city_pop` `DataFrame`에 범주를 표현하는 열을 추가해 보겠습니다:" ] }, { "cell_type": "code", "execution_count": 148, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:29.721192Z", "iopub.status.busy": "2020-10-16T07:31:29.719801Z", "iopub.status.idle": "2020-10-16T07:31:29.725933Z", "shell.execute_reply": "2020-10-16T07:31:29.724844Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
populationcitystateeco_code
3808976San FranciscoCalifornia17
48363710New YorkNew-York17
5413201MiamiFlorida34
62242193HoustonTexas20
\n", "
" ], "text/plain": [ " population city state eco_code\n", "3 808976 San Francisco California 17\n", "4 8363710 New York New-York 17\n", "5 413201 Miami Florida 34\n", "6 2242193 Houston Texas 20" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "city_eco = city_pop.copy()\n", "city_eco[\"eco_code\"] = [17, 17, 34, 20]\n", "city_eco" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "이제 `eco_code`열은 의미없는 코드입니다. 이를 바꿔 보죠. 먼저 `eco_code`를 기반으로 새로운 범주형 열을 만듭니다:" ] }, { "cell_type": "code", "execution_count": 149, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:29.736341Z", "iopub.status.busy": "2020-10-16T07:31:29.735087Z", "iopub.status.idle": "2020-10-16T07:31:29.740551Z", "shell.execute_reply": "2020-10-16T07:31:29.739607Z" } }, "outputs": [ { "data": { "text/plain": [ "Int64Index([17, 20, 34], dtype='int64')" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "city_eco[\"economy\"] = city_eco[\"eco_code\"].astype('category')\n", "city_eco[\"economy\"].cat.categories" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "의미있는 이름을 가진 범주를 지정할 수 있습니다:" ] }, { "cell_type": "code", "execution_count": 150, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:29.762234Z", "iopub.status.busy": "2020-10-16T07:31:29.760867Z", "iopub.status.idle": "2020-10-16T07:31:29.767647Z", "shell.execute_reply": "2020-10-16T07:31:29.766196Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
populationcitystateeco_codeeconomy
3808976San FranciscoCalifornia17Finance
48363710New YorkNew-York17Finance
5413201MiamiFlorida34Tourism
62242193HoustonTexas20Energy
\n", "
" ], "text/plain": [ " population city state eco_code economy\n", "3 808976 San Francisco California 17 Finance\n", "4 8363710 New York New-York 17 Finance\n", "5 413201 Miami Florida 34 Tourism\n", "6 2242193 Houston Texas 20 Energy" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "city_eco[\"economy\"].cat.categories = [\"Finance\", \"Energy\", \"Tourism\"]\n", "city_eco" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "범주형 값은 알파벳 순서가 아니라 범주형 순서로 정렬합니다:" ] }, { "cell_type": "code", "execution_count": 151, "metadata": { "execution": { "iopub.execute_input": "2020-10-16T07:31:29.788100Z", "iopub.status.busy": "2020-10-16T07:31:29.786648Z", "iopub.status.idle": "2020-10-16T07:31:29.792669Z", "shell.execute_reply": "2020-10-16T07:31:29.791639Z" } }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
populationcitystateeco_codeeconomy
5413201MiamiFlorida34Tourism
62242193HoustonTexas20Energy
3808976San FranciscoCalifornia17Finance
48363710New YorkNew-York17Finance
\n", "
" ], "text/plain": [ " population city state eco_code economy\n", "5 413201 Miami Florida 34 Tourism\n", "6 2242193 Houston Texas 20 Energy\n", "3 808976 San Francisco California 17 Finance\n", "4 8363710 New York New-York 17 Finance" ] }, "execution_count": 1, "metadata": {}, "output_type": "execute_result" } ], "source": [ "city_eco.sort_values(by=\"economy\", ascending=False)" ] }, { "cell_type": "markdown", "metadata": { "collapsed": true }, "source": [ "# 그 다음엔?\n", "\n", "이제 알았겠지만 판다스는 매우 커다란 라이브러리이고 기능이 많습니다. 가장 중요한 기능들을 둘러 보았지만 빙산의 일각일 뿐입니다. 더 많은 것을 익히려면 실전 데이터로 직접 실습해 보는 것이 제일 좋습니다. 판다스의 훌륭한 [문서](http://pandas.pydata.org/pandas-docs/stable/index.html)와 [쿡북](http://pandas.pydata.org/pandas-docs/stable/cookbook.html)을 보는 것도 좋습니다." ] } ], "metadata": { "kernelspec": { "display_name": "TensorFlow 2.4 on Python 3.8 & CUDA 11.1", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.8.7" }, "toc": { "toc_cell": false, "toc_number_sections": true, "toc_section_display": "none", "toc_threshold": 6, "toc_window_display": true } }, "nbformat": 4, "nbformat_minor": 1 }