{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "**Công cụ - pandas**\n", "\n", "*Thư viện `pandas` cung cấp các công cụ phân tích dữ liệu và cấu trúc dữ liệu hiệu suất cao, dễ sử dụng. Cấu trúc dữ liệu còn được gọi là `DataFrame`, mà bạn có thể xem như bảng 2D trong bộ nhớ (giống như bảng tính, có tên cột và nhãn hàng). Nhiều tính năng có sẵn trong Excel có được hỗ trợ trong pandas, chẳng hạn như tạo bảng tổng hợp, tính toán cột dựa trên các cột khác, vẽ đồ thị, v.v. Bạn cũng có thể nhóm các hàng theo giá trị cột hoặc nối các bảng giống như trong SQL. Pandas cũng rất mạnh mẽ trong việc xử lý chuỗi thời gian.*\n", "\n", "Điều kiện tiên quyết:\n", "* NumPy – nếu bạn chưa quen với NumPy, chúng tôi khuyên bạn nên xem [Hướng dẫn về NumPy](tools_numpy.ipynb) ngay bây giờ." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "\n", " \n", " \n", "
\n", " \"Open\n", " \n", " \n", "
" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "# Cài đặt" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Đầu tiên, hãy nạp `pandas`. Mọi người thường nạp nó dưới dạng `pd`:" ] }, { "cell_type": "code", "execution_count": 1, "metadata": {}, "outputs": [], "source": [ "import pandas as pd" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "# Đối tượng `Series`\n", "Thư viện `pandas` chứa các cấu trúc dữ liệu hữu ích sau:\n", "* Các đối tượng `Series` mà chúng ta sẽ thảo luận ngay bây giờ. Đối tượng `Series` là mảng 1D, tương tự như cột trong bảng tính (có tên cột và nhãn hàng).\n", "* Các đối tượng `DataFrame`. Đây là bảng 2D, tương tự như bảng tính (có tên cột và nhãn hàng).\n", "* Các đối tượng `Panel`. Bạn có thể xem `Panel` dưới dạng từ điển của `DataFrame`. Chúng ít được sử dụng hơn, vì vậy chúng ta sẽ không thảo luận về chúng ở đây." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Tạo `Series`\n", "Hãy bắt đầu bằng cách tạo đối tượng `Series` đầu tiên của chúng ta!" ] }, { "cell_type": "code", "execution_count": 2, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "0 2\n", "1 -1\n", "2 3\n", "3 5\n", "dtype: int64" ] }, "execution_count": 2, "metadata": {}, "output_type": "execute_result" } ], "source": [ "s = pd.Series([2,-1,3,5])\n", "s" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Tương tự như `ndarray` 1D\n", "Các đối tượng `Series` hoạt động giống như các `ndarray` NumPy một chiều và bạn thường có thể chuyển chúng dưới dạng tham số cho các hàm NumPy:" ] }, { "cell_type": "code", "execution_count": 3, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "0 7.389056\n", "1 0.367879\n", "2 20.085537\n", "3 148.413159\n", "dtype: float64" ] }, "execution_count": 3, "metadata": {}, "output_type": "execute_result" } ], "source": [ "import numpy as np\n", "np.exp(s)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Các phép toán số học trên `Series` cũng có thể thực hiện được và chúng áp dụng *theo từng phần tử*, giống như đối với `ndarray`:" ] }, { "cell_type": "code", "execution_count": 4, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "0 1002\n", "1 1999\n", "2 3003\n", "3 4005\n", "dtype: int64" ] }, "execution_count": 4, "metadata": {}, "output_type": "execute_result" } ], "source": [ "s + [1000,2000,3000,4000]" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Tương tự như NumPy, nếu bạn thêm một số vào `Series`, thì số đó sẽ được thêm vào tất cả các mục trong `Series`. Điều này được gọi là *broadcasting*:" ] }, { "cell_type": "code", "execution_count": 5, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "0 1002\n", "1 999\n", "2 1003\n", "3 1005\n", "dtype: int64" ] }, "execution_count": 5, "metadata": {}, "output_type": "execute_result" } ], "source": [ "s + 1000" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Điều này cũng đúng với tất cả các phép toán nhị phân như `*` hoặc `/`, và thậm chí cả các phép toán có điều kiện:" ] }, { "cell_type": "code", "execution_count": 6, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "0 False\n", "1 True\n", "2 False\n", "3 False\n", "dtype: bool" ] }, "execution_count": 6, "metadata": {}, "output_type": "execute_result" } ], "source": [ "s < 0" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Nhãn chỉ mục\n", "Mỗi mục trong đối tượng `Series` có một mã định danh duy nhất được gọi là *nhãn chỉ mục*. Theo mặc định, nó chỉ đơn giản là thứ hạng của mục trong `Series` (bắt đầu từ `0`) nhưng bạn cũng có thể đặt nhãn chỉ mục theo cách thủ công:" ] }, { "cell_type": "code", "execution_count": 7, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "alice 68\n", "bob 83\n", "charles 112\n", "darwin 68\n", "dtype: int64" ] }, "execution_count": 7, "metadata": {}, "output_type": "execute_result" } ], "source": [ "s2 = pd.Series([68, 83, 112, 68], index=[\"alice\", \"bob\", \"charles\", \"darwin\"])\n", "s2" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Sau đó, bạn có thể sử dụng `Series` giống như `dict`:" ] }, { "cell_type": "code", "execution_count": 8, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "83" ] }, "execution_count": 8, "metadata": {}, "output_type": "execute_result" } ], "source": [ "s2[\"bob\"]" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Bạn vẫn có thể truy cập các mục theo vị trí số nguyên, giống như trong một mảng thông thường:" ] }, { "cell_type": "code", "execution_count": 9, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "83" ] }, "execution_count": 9, "metadata": {}, "output_type": "execute_result" } ], "source": [ "s2[1]" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Để làm rõ khi bạn đang truy cập theo nhãn hoặc theo vị trí số nguyên, bạn nên luôn sử dụng thuộc tính `loc` khi truy cập theo nhãn và thuộc tính `iloc` khi truy cập theo vị trí số nguyên:" ] }, { "cell_type": "code", "execution_count": 10, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "83" ] }, "execution_count": 10, "metadata": {}, "output_type": "execute_result" } ], "source": [ "s2.loc[\"bob\"]" ] }, { "cell_type": "code", "execution_count": 11, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "83" ] }, "execution_count": 11, "metadata": {}, "output_type": "execute_result" } ], "source": [ "s2.iloc[1]" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Ta cũng có thể cắt một `Series` sử dụng các nhãn chỉ mục:" ] }, { "cell_type": "code", "execution_count": 12, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "bob 83\n", "charles 112\n", "dtype: int64" ] }, "execution_count": 12, "metadata": {}, "output_type": "execute_result" } ], "source": [ "s2.iloc[1:3]" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Điều này có thể dẫn đến kết quả không mong muốn khi sử dụng nhãn số mặc định, vì vậy hãy cẩn thận:" ] }, { "cell_type": "code", "execution_count": 13, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "0 1000\n", "1 1001\n", "2 1002\n", "3 1003\n", "dtype: int64" ] }, "execution_count": 13, "metadata": {}, "output_type": "execute_result" } ], "source": [ "surprise = pd.Series([1000, 1001, 1002, 1003])\n", "surprise" ] }, { "cell_type": "code", "execution_count": 14, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "2 1002\n", "3 1003\n", "dtype: int64" ] }, "execution_count": 14, "metadata": {}, "output_type": "execute_result" } ], "source": [ "surprise_slice = surprise[2:]\n", "surprise_slice" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Ồ! Phần tử đầu tiên có nhãn chỉ mục `2`. Phần tử có nhãn chỉ mục `0` không có trong lát cắt:" ] }, { "cell_type": "code", "execution_count": 15, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Key error: 0\n" ] } ], "source": [ "try:\n", " surprise_slice[0]\n", "except KeyError as e:\n", " print(\"Key error:\", e)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Nhưng hãy nhớ rằng bạn có thể truy cập các phần tử theo vị trí số nguyên bằng cách sử dụng thuộc tính `iloc`. Điều này minh họa một lý do khác tại sao việc sử dụng `loc` và `iloc` để truy cập các đối tượng `Series` luôn tốt hơn:" ] }, { "cell_type": "code", "execution_count": 16, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "1002" ] }, "execution_count": 16, "metadata": {}, "output_type": "execute_result" } ], "source": [ "surprise_slice.iloc[0]" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Khởi tạo từ `dict`\n", "Bạn có thể tạo đối tượng `Series` từ `dict`. Các khóa sẽ được sử dụng làm nhãn chỉ mục:" ] }, { "cell_type": "code", "execution_count": 17, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "alice 68\n", "bob 83\n", "colin 86\n", "darwin 68\n", "dtype: int64" ] }, "execution_count": 17, "metadata": {}, "output_type": "execute_result" } ], "source": [ "weights = {\"alice\": 68, \"bob\": 83, \"colin\": 86, \"darwin\": 68}\n", "s3 = pd.Series(weights)\n", "s3" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Bạn có thể kiểm soát những thành phần nào bạn muốn đưa vào `Series` và theo thứ tự nào bằng cách chỉ định rõ ràng `chỉ mục` mong muốn:" ] }, { "cell_type": "code", "execution_count": 18, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "colin 86\n", "alice 68\n", "dtype: int64" ] }, "execution_count": 18, "metadata": {}, "output_type": "execute_result" } ], "source": [ "s4 = pd.Series(weights, index = [\"colin\", \"alice\"])\n", "s4" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Căn chỉnh tự động\n", "Khi một thao tác liên quan đến nhiều đối tượng `Series`, `pandas` sẽ tự động căn chỉnh các mục bằng cách khớp các nhãn chỉ mục." ] }, { "cell_type": "code", "execution_count": 19, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Index(['alice', 'bob', 'charles', 'darwin'], dtype='object')\n", "Index(['alice', 'bob', 'colin', 'darwin'], dtype='object')\n" ] }, { "data": { "text/plain": [ "alice 136.0\n", "bob 166.0\n", "charles NaN\n", "colin NaN\n", "darwin 136.0\n", "dtype: float64" ] }, "execution_count": 19, "metadata": {}, "output_type": "execute_result" } ], "source": [ "print(s2.keys())\n", "print(s3.keys())\n", "\n", "s2 + s3" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "`Series` kết quả chứa sự kết hợp của các nhãn chỉ mục từ `s2` và `s3`. Vì `\"colin\"` bị thiếu trong `s2` và `\"charles\"` bị thiếu trong `s3`, nên các mục này có giá trị kết quả `NaN`. (tức là. Not-a-Number có nghĩa là *thiếu số*).\n", "\n", "Căn chỉnh tự động rất tiện dụng khi làm việc với dữ liệu có thể đến từ nhiều nguồn khác nhau với cấu trúc khác nhau và các mục bị thiếu. Nhưng nếu bạn quên đặt đúng nhãn chỉ mục, bạn có thể nhận được kết quả khá ngạc nhiên:" ] }, { "cell_type": "code", "execution_count": 20, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "s2 = [ 68 83 112 68]\n", "s5 = [1000 1000 1000 1000]\n" ] }, { "data": { "text/plain": [ "alice NaN\n", "bob NaN\n", "charles NaN\n", "darwin NaN\n", "0 NaN\n", "1 NaN\n", "2 NaN\n", "3 NaN\n", "dtype: float64" ] }, "execution_count": 20, "metadata": {}, "output_type": "execute_result" } ], "source": [ "s5 = pd.Series([1000,1000,1000,1000])\n", "print(\"s2 =\", s2.values)\n", "print(\"s5 =\", s5.values)\n", "\n", "s2 + s5" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Pandas không thể căn chỉnh `Series`, vì nhãn của chúng hoàn toàn không khớp, do đó kết quả chứa đầy `NaN`." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Khởi tạo với số vô hướng\n", "Bạn cũng có thể khởi tạo đối tượng `Series` bằng cách sử dụng số vô hướng và danh sách các nhãn chỉ mục: tất cả các mục sẽ được đặt thành số vô hướng." ] }, { "cell_type": "code", "execution_count": 21, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "life 42\n", "universe 42\n", "everything 42\n", "dtype: int64" ] }, "execution_count": 21, "metadata": {}, "output_type": "execute_result" } ], "source": [ "meaning = pd.Series(42, [\"life\", \"universe\", \"everything\"])\n", "meaning" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Tên `Series`\n", "`Series` có thể có `tên`:" ] }, { "cell_type": "code", "execution_count": 22, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "bob 83\n", "alice 68\n", "Name: weights, dtype: int64" ] }, "execution_count": 22, "metadata": {}, "output_type": "execute_result" } ], "source": [ "s6 = pd.Series([83, 68], index=[\"bob\", \"alice\"], name=\"weights\")\n", "s6" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Vẽ đồ thị `Series`\n", "Pandas giúp dễ dàng vẽ biểu đồ dữ liệu `Series` bằng matplotlib (để biết thêm chi tiết về matplotlib, hãy xem [hướng dẫn matplotlib](tools_matplotlib.ipynb)). Chỉ cần nhập matplotlib và gọi phương thức `plot()`:" ] }, { "cell_type": "code", "execution_count": 23, "metadata": { "scrolled": true }, "outputs": [ { "data": { "image/png": "", "text/plain": [ "" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "%matplotlib inline\n", "import matplotlib.pyplot as plt\n", "temperatures = [4.4,5.1,6.1,6.2,6.1,6.1,5.7,5.2,4.7,4.1,3.9,3.5]\n", "s7 = pd.Series(temperatures, name=\"Temperature\")\n", "s7.plot()\n", "plt.show()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Có *nhiều* tùy chọn để vẽ biểu đồ dữ liệu của bạn. Không cần thiết phải liệt kê tất cả chúng ở đây: nếu bạn cần một loại biểu đồ cụ thể (biểu đồ tần số, biểu đồ hình tròn, v.v.), chỉ cần tìm nó trong [Trực quan hóa](http://pandas.pydata.org/pandas-docs/stable/visualization.html) trong tài liệu của pandas và xem mã ví dụ." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "# Xử lý thời gian\n", "Nhiều bộ dữ liệu có mốc thời gian và pandas rất giỏi trong thao tác với các dữ liệu đó:\n", "* nó có thể đại diện cho các khoảng thời gian (chẳng hạn như 2016Q3) và tần suất (chẳng hạn như \"hàng tháng\"),\n", "* nó có thể chuyển đổi các khoảng thời gian thành mốc thời gian thực và *ngược lại*,\n", "* nó có thể lấy mẫu lại dữ liệu và tổng hợp các giá trị theo bất kỳ cách nào bạn muốn.\n", "* nó có thể xử lý các múi giờ.\n", "\n", "## Khoảng thời gian\n", "Hãy bắt đầu bằng cách tạo một chuỗi thời gian bằng cách sử dụng `pd.date_range()`. Thao tác này trả về một `DatetimeIndex` chứa mỗi giờ trong 12 giờ bắt đầu từ ngày 29 tháng 10 năm 2016 lúc 5:30 chiều." ] }, { "cell_type": "code", "execution_count": 24, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "DatetimeIndex(['2016-10-29 17:30:00', '2016-10-29 18:30:00',\n", " '2016-10-29 19:30:00', '2016-10-29 20:30:00',\n", " '2016-10-29 21:30:00', '2016-10-29 22:30:00',\n", " '2016-10-29 23:30:00', '2016-10-30 00:30:00',\n", " '2016-10-30 01:30:00', '2016-10-30 02:30:00',\n", " '2016-10-30 03:30:00', '2016-10-30 04:30:00'],\n", " dtype='datetime64[ns]', freq='H')" ] }, "execution_count": 24, "metadata": {}, "output_type": "execute_result" } ], "source": [ "dates = pd.date_range('2016/10/29 5:30pm', periods=12, freq='H')\n", "dates" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "`DatetimeIndex` này có thể được sử dụng làm chỉ mục trong `Series`:" ] }, { "cell_type": "code", "execution_count": 25, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "2016-10-29 17:30:00 4.4\n", "2016-10-29 18:30:00 5.1\n", "2016-10-29 19:30:00 6.1\n", "2016-10-29 20:30:00 6.2\n", "2016-10-29 21:30:00 6.1\n", "2016-10-29 22:30:00 6.1\n", "2016-10-29 23:30:00 5.7\n", "2016-10-30 00:30:00 5.2\n", "2016-10-30 01:30:00 4.7\n", "2016-10-30 02:30:00 4.1\n", "2016-10-30 03:30:00 3.9\n", "2016-10-30 04:30:00 3.5\n", "Freq: H, dtype: float64" ] }, "execution_count": 25, "metadata": {}, "output_type": "execute_result" } ], "source": [ "temp_series = pd.Series(temperatures, dates)\n", "temp_series" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Hãy vẽ đồ thị Series này:" ] }, { "cell_type": "code", "execution_count": 26, "metadata": {}, "outputs": [ { "data": { "image/png": "", "text/plain": [ "" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "temp_series.plot(kind=\"bar\")\n", "\n", "plt.grid(True)\n", "plt.show()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Lấy mẫu lại\n", "Pandas cho phép chúng ta dễ dàng lấy mẫu lại một chuỗi thời gian. Chỉ cần gọi phương thức `resample()` và chỉ định một tần suất mới:" ] }, { "cell_type": "code", "execution_count": 27, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "DatetimeIndexResampler [freq=<2 * Hours>, axis=0, closed=left, label=left, convention=start, base=0]" ] }, "execution_count": 27, "metadata": {}, "output_type": "execute_result" } ], "source": [ "temp_series_freq_2H = temp_series.resample(\"2H\")\n", "temp_series_freq_2H" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Hoạt động lấy mẫu lại thực ra là một hoạt động bị hoãn, đó là lý do tại sao chúng ta không nhận được đối tượng `Series` mà thay vào đó là đối tượng `DatetimeIndexResampler`. Để thực sự thực hiện thao tác lấy mẫu lại, chúng ta chỉ cần gọi phương thức `mean()`: Pandas sẽ tính giá trị trung bình của mỗi cặp giờ liên tiếp:" ] }, { "cell_type": "code", "execution_count": 28, "metadata": {}, "outputs": [], "source": [ "temp_series_freq_2H = temp_series_freq_2H.mean()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Hãy vẽ kết quả:" ] }, { "cell_type": "code", "execution_count": 29, "metadata": {}, "outputs": [ { "data": { "image/png": "", "text/plain": [ "" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "temp_series_freq_2H.plot(kind=\"bar\")\n", "plt.show()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Lưu ý cách các giá trị tự động được tổng hợp thành các khoảng thời gian 2 giờ. Ví dụ: nếu chúng ta xem xét khoảng thời gian 6-8 giờ tối, thì ta có giá trị là `5,1` lúc 6:30 chiều và `6,1` lúc 7:30 tối. Sau khi lấy mẫu lại, chúng ta chỉ có một giá trị là `5.6`, là giá trị trung bình của `5.1` và `6.1`. Thay vì tính toán giá trị trung bình, chúng ta có thể sử dụng bất kỳ hàm tổng hợp nào khác, ví dụ: chúng ta có thể quyết định giữ giá trị nhỏ nhất của mỗi khoảng thời gian:" ] }, { "cell_type": "code", "execution_count": 30, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "2016-10-29 16:00:00 4.4\n", "2016-10-29 18:00:00 5.1\n", "2016-10-29 20:00:00 6.1\n", "2016-10-29 22:00:00 5.7\n", "2016-10-30 00:00:00 4.7\n", "2016-10-30 02:00:00 3.9\n", "2016-10-30 04:00:00 3.5\n", "Freq: 2H, dtype: float64" ] }, "execution_count": 30, "metadata": {}, "output_type": "execute_result" } ], "source": [ "temp_series_freq_2H = temp_series.resample(\"2H\").min()\n", "temp_series_freq_2H" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Hoặc tương tự, chúng ta có thể sử dụng phương thức `apply()` để thay thế:" ] }, { "cell_type": "code", "execution_count": 31, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "2016-10-29 16:00:00 4.4\n", "2016-10-29 18:00:00 5.1\n", "2016-10-29 20:00:00 6.1\n", "2016-10-29 22:00:00 5.7\n", "2016-10-30 00:00:00 4.7\n", "2016-10-30 02:00:00 3.9\n", "2016-10-30 04:00:00 3.5\n", "Freq: 2H, dtype: float64" ] }, "execution_count": 31, "metadata": {}, "output_type": "execute_result" } ], "source": [ "temp_series_freq_2H = temp_series.resample(\"2H\").apply(np.min)\n", "temp_series_freq_2H" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Lấy mẫu lên và nội suy\n", "Ở trên là một ví dụ về lấy mẫu xuống. Chúng ta cũng có thể lấy mẫu lên (tức là tăng tần suất), nhưng điều này tạo ra lỗ hổng trong dữ liệu:" ] }, { "cell_type": "code", "execution_count": 32, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "2016-10-29 17:30:00 4.4\n", "2016-10-29 17:45:00 NaN\n", "2016-10-29 18:00:00 NaN\n", "2016-10-29 18:15:00 NaN\n", "2016-10-29 18:30:00 5.1\n", "2016-10-29 18:45:00 NaN\n", "2016-10-29 19:00:00 NaN\n", "2016-10-29 19:15:00 NaN\n", "2016-10-29 19:30:00 6.1\n", "2016-10-29 19:45:00 NaN\n", "Freq: 15T, dtype: float64" ] }, "execution_count": 32, "metadata": {}, "output_type": "execute_result" } ], "source": [ "temp_series_freq_15min = temp_series.resample(\"15Min\").mean()\n", "temp_series_freq_15min.head(n=10) # `head` displays the top n values" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Một giải pháp là lấp đầy khoảng trống bằng cách nội suy. Chúng ta chỉ cần gọi phương thức `interpolate()`. Mặc định là sử dụng phép nội suy tuyến tính, nhưng chúng ta cũng có thể chọn một phương pháp khác, chẳng hạn như phép nội suy bậc ba:" ] }, { "cell_type": "code", "execution_count": 33, "metadata": { "scrolled": true }, "outputs": [ { "data": { "text/plain": [ "2016-10-29 17:30:00 4.400000\n", "2016-10-29 17:45:00 4.452911\n", "2016-10-29 18:00:00 4.605113\n", "2016-10-29 18:15:00 4.829758\n", "2016-10-29 18:30:00 5.100000\n", "2016-10-29 18:45:00 5.388992\n", "2016-10-29 19:00:00 5.669887\n", "2016-10-29 19:15:00 5.915839\n", "2016-10-29 19:30:00 6.100000\n", "2016-10-29 19:45:00 6.203621\n", "Freq: 15T, dtype: float64" ] }, "execution_count": 33, "metadata": {}, "output_type": "execute_result" } ], "source": [ "temp_series_freq_15min = temp_series.resample(\"15Min\").interpolate(method=\"cubic\")\n", "temp_series_freq_15min.head(n=10)" ] }, { "cell_type": "code", "execution_count": 34, "metadata": {}, "outputs": [ { "data": { "image/png": "", "text/plain": [ "" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "temp_series.plot(label=\"Period: 1 hour\")\n", "temp_series_freq_15min.plot(label=\"Period: 15 minutes\")\n", "plt.legend()\n", "plt.show()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Múi giờ\n", "Theo mặc định, thời gian dữ liệu là *sơ khai*: chúng không biết múi giờ, vì vậy 2016-10-30 02:30 có thể có nghĩa là ngày 30 tháng 10 năm 2016 lúc 2:30 sáng ở Paris hoặc ở New York. Chúng ta có thể chỉ định múi giờ bằng cách gọi phương thức `tz_localize()`:" ] }, { "cell_type": "code", "execution_count": 35, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "2016-10-29 17:30:00-04:00 4.4\n", "2016-10-29 18:30:00-04:00 5.1\n", "2016-10-29 19:30:00-04:00 6.1\n", "2016-10-29 20:30:00-04:00 6.2\n", "2016-10-29 21:30:00-04:00 6.1\n", "2016-10-29 22:30:00-04:00 6.1\n", "2016-10-29 23:30:00-04:00 5.7\n", "2016-10-30 00:30:00-04:00 5.2\n", "2016-10-30 01:30:00-04:00 4.7\n", "2016-10-30 02:30:00-04:00 4.1\n", "2016-10-30 03:30:00-04:00 3.9\n", "2016-10-30 04:30:00-04:00 3.5\n", "Freq: H, dtype: float64" ] }, "execution_count": 35, "metadata": {}, "output_type": "execute_result" } ], "source": [ "temp_series_ny = temp_series.tz_localize(\"America/New_York\")\n", "temp_series_ny" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Lưu ý rằng `-04:00` hiện được thêm vào tất cả các mốc thời gian. Điều này có nghĩa là các mốc thời gian này đề cập đến [UTC](https://en.wikipedia.org/wiki/Coordined_Universal_Time) - 4 giờ.\n", "\n", "Chúng ta có thể chuyển đổi các ngày giờ này sang giờ Paris như sau:" ] }, { "cell_type": "code", "execution_count": 36, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "2016-10-29 23:30:00+02:00 4.4\n", "2016-10-30 00:30:00+02:00 5.1\n", "2016-10-30 01:30:00+02:00 6.1\n", "2016-10-30 02:30:00+02:00 6.2\n", "2016-10-30 02:30:00+01:00 6.1\n", "2016-10-30 03:30:00+01:00 6.1\n", "2016-10-30 04:30:00+01:00 5.7\n", "2016-10-30 05:30:00+01:00 5.2\n", "2016-10-30 06:30:00+01:00 4.7\n", "2016-10-30 07:30:00+01:00 4.1\n", "2016-10-30 08:30:00+01:00 3.9\n", "2016-10-30 09:30:00+01:00 3.5\n", "Freq: H, dtype: float64" ] }, "execution_count": 36, "metadata": {}, "output_type": "execute_result" } ], "source": [ "temp_series_paris = temp_series_ny.tz_convert(\"Europe/Paris\")\n", "temp_series_paris" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Bạn có thể nhận thấy rằng phần bù UTC thay đổi từ `+02:00` thành `+01:00`: điều này là do Pháp chuyển sang giờ mùa đông lúc 3 giờ sáng vào đêm cụ thể đó (thời gian quay trở lại 2 giờ sáng). Lưu ý rằng 2:30 sáng xảy ra hai lần! Hãy quay lại với một biểu diễn sơ khai (nếu bạn ghi nhật ký một số dữ liệu hàng giờ bằng giờ địa phương mà không lưu trữ múi giờ, bạn có thể nhận được kết quả như sau):" ] }, { "cell_type": "code", "execution_count": 37, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "2016-10-29 23:30:00 4.4\n", "2016-10-30 00:30:00 5.1\n", "2016-10-30 01:30:00 6.1\n", "2016-10-30 02:30:00 6.2\n", "2016-10-30 02:30:00 6.1\n", "2016-10-30 03:30:00 6.1\n", "2016-10-30 04:30:00 5.7\n", "2016-10-30 05:30:00 5.2\n", "2016-10-30 06:30:00 4.7\n", "2016-10-30 07:30:00 4.1\n", "2016-10-30 08:30:00 3.9\n", "2016-10-30 09:30:00 3.5\n", "Freq: H, dtype: float64" ] }, "execution_count": 37, "metadata": {}, "output_type": "execute_result" } ], "source": [ "temp_series_paris_naive = temp_series_paris.tz_localize(None)\n", "temp_series_paris_naive" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Bây giờ `02:30` thực sự mơ hồ. Nếu chúng ta cố gắng bản địa hóa những ngày giờ sơ khai này sang múi giờ Paris, ta sẽ gặp lỗi:" ] }, { "cell_type": "code", "execution_count": 38, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "\n", "Cannot infer dst time from Timestamp('2016-10-30 02:30:00'), try using the 'ambiguous' argument\n" ] } ], "source": [ "try:\n", " temp_series_paris_naive.tz_localize(\"Europe/Paris\")\n", "except Exception as e:\n", " print(type(e))\n", " print(e)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "May mắn thay, bằng cách sử dụng đối số `ambiguous`, chúng ta có thể yêu cầu pandas suy ra đúng DST (Daylight Saving Time) dựa trên thứ tự của các dấu thời gian mơ hồ:" ] }, { "cell_type": "code", "execution_count": 39, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "2016-10-29 23:30:00+02:00 4.4\n", "2016-10-30 00:30:00+02:00 5.1\n", "2016-10-30 01:30:00+02:00 6.1\n", "2016-10-30 02:30:00+02:00 6.2\n", "2016-10-30 02:30:00+01:00 6.1\n", "2016-10-30 03:30:00+01:00 6.1\n", "2016-10-30 04:30:00+01:00 5.7\n", "2016-10-30 05:30:00+01:00 5.2\n", "2016-10-30 06:30:00+01:00 4.7\n", "2016-10-30 07:30:00+01:00 4.1\n", "2016-10-30 08:30:00+01:00 3.9\n", "2016-10-30 09:30:00+01:00 3.5\n", "Freq: H, dtype: float64" ] }, "execution_count": 39, "metadata": {}, "output_type": "execute_result" } ], "source": [ "temp_series_paris_naive.tz_localize(\"Europe/Paris\", ambiguous=\"infer\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Chu kỳ\n", "Hàm `pd.period_range()` trả về `PeriodIndex` thay vì `DatetimeIndex`. Ví dụ: hãy lấy tất cả các quý trong năm 2016 và 2017:" ] }, { "cell_type": "code", "execution_count": 40, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "PeriodIndex(['2016Q1', '2016Q2', '2016Q3', '2016Q4', '2017Q1', '2017Q2',\n", " '2017Q3', '2017Q4'],\n", " dtype='period[Q-DEC]', freq='Q-DEC')" ] }, "execution_count": 40, "metadata": {}, "output_type": "execute_result" } ], "source": [ "quarters = pd.period_range('2016Q1', periods=8, freq='Q')\n", "quarters" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Việc thêm một số `N` vào `PeriodIndex` sẽ dịch chuyển các khoảng thời gian bằng `N` lần tần suất của `PeriodIndex`:" ] }, { "cell_type": "code", "execution_count": 41, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "PeriodIndex(['2016Q4', '2017Q1', '2017Q2', '2017Q3', '2017Q4', '2018Q1',\n", " '2018Q2', '2018Q3'],\n", " dtype='period[Q-DEC]', freq='Q-DEC')" ] }, "execution_count": 41, "metadata": {}, "output_type": "execute_result" } ], "source": [ "quarters + 3" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Phương thức `asfreq()` cho phép chúng ta thay đổi tần số của `PeriodIndex`. Tất cả các giai đoạn được kéo dài hoặc rút ngắn cho phù hợp. Ví dụ: hãy chuyển đổi tất cả các khoảng thời gian hàng quý thành khoảng thời gian hàng tháng (phóng đại):" ] }, { "cell_type": "code", "execution_count": 42, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "PeriodIndex(['2016-03', '2016-06', '2016-09', '2016-12', '2017-03', '2017-06',\n", " '2017-09', '2017-12'],\n", " dtype='period[M]', freq='M')" ] }, "execution_count": 42, "metadata": {}, "output_type": "execute_result" } ], "source": [ "quarters.asfreq(\"M\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Theo mặc định, `asfreq` phóng đại vào cuối mỗi khoảng thời gian. Thay vào đó, chúng ta có thể yêu cầu nó phóng đại vào đầu mỗi khoảng thời gian:" ] }, { "cell_type": "code", "execution_count": 43, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "PeriodIndex(['2016-01', '2016-04', '2016-07', '2016-10', '2017-01', '2017-04',\n", " '2017-07', '2017-10'],\n", " dtype='period[M]', freq='M')" ] }, "execution_count": 43, "metadata": {}, "output_type": "execute_result" } ], "source": [ "quarters.asfreq(\"M\", how=\"start\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Và chúng ta có thể thu nhỏ:" ] }, { "cell_type": "code", "execution_count": 44, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "PeriodIndex(['2016', '2016', '2016', '2016', '2017', '2017', '2017', '2017'], dtype='period[A-DEC]', freq='A-DEC')" ] }, "execution_count": 44, "metadata": {}, "output_type": "execute_result" } ], "source": [ "quarters.asfreq(\"A\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Tất nhiên chúng ta có thể tạo `Series` với `PeriodIndex`:" ] }, { "cell_type": "code", "execution_count": 45, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "2016Q1 300\n", "2016Q2 320\n", "2016Q3 290\n", "2016Q4 390\n", "2017Q1 320\n", "2017Q2 360\n", "2017Q3 310\n", "2017Q4 410\n", "Freq: Q-DEC, dtype: int64" ] }, "execution_count": 45, "metadata": {}, "output_type": "execute_result" } ], "source": [ "quarterly_revenue = pd.Series([300, 320, 290, 390, 320, 360, 310, 410], index = quarters)\n", "quarterly_revenue" ] }, { "cell_type": "code", "execution_count": 46, "metadata": {}, "outputs": [ { "data": { "image/png": "", "text/plain": [ "" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "quarterly_revenue.plot(kind=\"line\")\n", "plt.show()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Chúng ta có thể chuyển đổi các khoảng thời gian thành mốc thời gian bằng cách gọi `to_timestamp`. Theo mặc định, điều này sẽ cung cấp cho chúng ta ngày đầu tiên của mỗi khoảng thời gian, nhưng bằng cách đặt `how` và `freq`, chúng ta có thể nhận được giờ cuối cùng của mỗi khoảng thời gian:" ] }, { "cell_type": "code", "execution_count": 47, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "2016-03-31 23:00:00 300\n", "2016-06-30 23:00:00 320\n", "2016-09-30 23:00:00 290\n", "2016-12-31 23:00:00 390\n", "2017-03-31 23:00:00 320\n", "2017-06-30 23:00:00 360\n", "2017-09-30 23:00:00 310\n", "2017-12-31 23:00:00 410\n", "Freq: Q-DEC, dtype: int64" ] }, "execution_count": 47, "metadata": {}, "output_type": "execute_result" } ], "source": [ "last_hours = quarterly_revenue.to_timestamp(how=\"end\", freq=\"H\")\n", "last_hours" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Và quay lại thời gian bằng cách gọi `to_period`:" ] }, { "cell_type": "code", "execution_count": 48, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "2016Q1 300\n", "2016Q2 320\n", "2016Q3 290\n", "2016Q4 390\n", "2017Q1 320\n", "2017Q2 360\n", "2017Q3 310\n", "2017Q4 410\n", "Freq: Q-DEC, dtype: int64" ] }, "execution_count": 48, "metadata": {}, "output_type": "execute_result" } ], "source": [ "last_hours.to_period()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Pandas cũng cung cấp nhiều chức năng khác liên quan đến thời gian mà chúng tôi khuyên bạn nên xem trong [tài liệu](http://pandas.pydata.org/pandas-docs/stable/timeseries.html). Để kích thích sự tò mò của bạn, đây là một cách để có được ngày làm việc cuối cùng của mỗi tháng trong năm 2016, lúc 9 giờ sáng:" ] }, { "cell_type": "code", "execution_count": 49, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "PeriodIndex(['2016-01-29 09:00', '2016-02-29 09:00', '2016-03-31 09:00',\n", " '2016-04-29 09:00', '2016-05-31 09:00', '2016-06-30 09:00',\n", " '2016-07-29 09:00', '2016-08-31 09:00', '2016-09-30 09:00',\n", " '2016-10-31 09:00', '2016-11-30 09:00', '2016-12-30 09:00'],\n", " dtype='period[H]', freq='H')" ] }, "execution_count": 49, "metadata": {}, "output_type": "execute_result" } ], "source": [ "months_2016 = pd.period_range(\"2016\", periods=12, freq=\"M\")\n", "one_day_after_last_days = months_2016.asfreq(\"D\") + 1\n", "last_bdays = one_day_after_last_days.to_timestamp() - pd.tseries.offsets.BDay()\n", "last_bdays.to_period(\"H\") + 9" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "# Đối tượng `DataFrame`\n", "Một đối tượng DataFrame đại diện cho một bảng tính, với các giá trị ô, tên cột và nhãn chỉ mục hàng. Bạn có thể xác định các biểu thức để tính toán cột dựa trên các cột khác, tạo bảng tổng hợp, nhóm hàng, vẽ biểu đồ, v.v. Bạn có thể xem `DataFrame` là từ điển của `Series`.\n", "\n", "## Tạo `DataFrame`\n", "Bạn có thể tạo DataFrame bằng cách chuyển từ điển các đối tượng `Series`:" ] }, { "cell_type": "code", "execution_count": 50, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
birthyearchildrenhobbyweight
alice1985NaNBiking68
bob19843.0Dancing83
charles19920.0NaN112
\n", "
" ], "text/plain": [ " birthyear children hobby weight\n", "alice 1985 NaN Biking 68\n", "bob 1984 3.0 Dancing 83\n", "charles 1992 0.0 NaN 112" ] }, "execution_count": 50, "metadata": {}, "output_type": "execute_result" } ], "source": [ "people_dict = {\n", " \"weight\": pd.Series([68, 83, 112], index=[\"alice\", \"bob\", \"charles\"]),\n", " \"birthyear\": pd.Series([1984, 1985, 1992], index=[\"bob\", \"alice\", \"charles\"], name=\"year\"),\n", " \"children\": pd.Series([0, 3], index=[\"charles\", \"bob\"]),\n", " \"hobby\": pd.Series([\"Biking\", \"Dancing\"], index=[\"alice\", \"bob\"]),\n", "}\n", "people = pd.DataFrame(people_dict)\n", "people" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Một số điều cần lưu ý:\n", "* `Series` được căn chỉnh tự động dựa trên chỉ mục của chúng,\n", "* các giá trị bị thiếu được biểu thị dưới dạng `NaN`,\n", "* Tên `Series` bị bỏ qua (tên `\"year\"` đã bị loại bỏ),\n", "* `DataFrame` được hiển thị rõ ràng trong Jupyter Notebook, tuyệt vời!" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Bạn có thể truy cập các cột một cách dễ dàng. Chúng được trả về dưới dạng các đối tượng `Series`:" ] }, { "cell_type": "code", "execution_count": 51, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "alice 1985\n", "bob 1984\n", "charles 1992\n", "Name: birthyear, dtype: int64" ] }, "execution_count": 51, "metadata": {}, "output_type": "execute_result" } ], "source": [ "people[\"birthyear\"]" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Bạn cũng có thể lấy nhiều cột cùng một lúc:" ] }, { "cell_type": "code", "execution_count": 52, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
birthyearhobby
alice1985Biking
bob1984Dancing
charles1992NaN
\n", "
" ], "text/plain": [ " birthyear hobby\n", "alice 1985 Biking\n", "bob 1984 Dancing\n", "charles 1992 NaN" ] }, "execution_count": 52, "metadata": {}, "output_type": "execute_result" } ], "source": [ "people[[\"birthyear\", \"hobby\"]]" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Nếu bạn chuyển danh sách các cột và/hoặc nhãn hàng chỉ mục cho hàm tạo `DataFrame`, nó sẽ đảm bảo rằng các cột và/hoặc hàng này sẽ tồn tại, theo thứ tự đó và sẽ không tồn tại cột/hàng nào khác. Ví dụ:" ] }, { "cell_type": "code", "execution_count": 53, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
birthyearweightheight
bob1984.083.0NaN
alice1985.068.0NaN
eugeneNaNNaNNaN
\n", "
" ], "text/plain": [ " birthyear weight height\n", "bob 1984.0 83.0 NaN\n", "alice 1985.0 68.0 NaN\n", "eugene NaN NaN NaN" ] }, "execution_count": 53, "metadata": {}, "output_type": "execute_result" } ], "source": [ "d2 = pd.DataFrame(\n", " people_dict,\n", " columns=[\"birthyear\", \"weight\", \"height\"],\n", " index=[\"bob\", \"alice\", \"eugene\"]\n", " )\n", "d2" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Một cách thuận tiện khác để tạo `DataFrame` là chuyển tất cả các giá trị cho hàm tạo dưới dạng `ndarray` hoặc danh sách các danh sách và chỉ định riêng tên cột và nhãn chỉ mục hàng:" ] }, { "cell_type": "code", "execution_count": 54, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
birthyearchildrenhobbyweight
alice1985NaNBiking68
bob19843.0Dancing83
charles19920.0NaN112
\n", "
" ], "text/plain": [ " birthyear children hobby weight\n", "alice 1985 NaN Biking 68\n", "bob 1984 3.0 Dancing 83\n", "charles 1992 0.0 NaN 112" ] }, "execution_count": 54, "metadata": {}, "output_type": "execute_result" } ], "source": [ "values = [\n", " [1985, np.nan, \"Biking\", 68],\n", " [1984, 3, \"Dancing\", 83],\n", " [1992, 0, np.nan, 112]\n", " ]\n", "d3 = pd.DataFrame(\n", " values,\n", " columns=[\"birthyear\", \"children\", \"hobby\", \"weight\"],\n", " index=[\"alice\", \"bob\", \"charles\"]\n", " )\n", "d3" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Để chỉ định các giá trị bị thiếu, bạn có thể sử dụng các mảng được che dấu của `np.nan` hoặc NumPy:" ] }, { "cell_type": "code", "execution_count": 55, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
birthyearchildrenhobbyweight
alice1985NaNBiking68
bob19843Dancing83
charles19920NaN112
\n", "
" ], "text/plain": [ " birthyear children hobby weight\n", "alice 1985 NaN Biking 68\n", "bob 1984 3 Dancing 83\n", "charles 1992 0 NaN 112" ] }, "execution_count": 55, "metadata": {}, "output_type": "execute_result" } ], "source": [ "masked_array = np.ma.asarray(values, dtype=np.object)\n", "masked_array[(0, 2), (1, 2)] = np.ma.masked\n", "d3 = pd.DataFrame(\n", " masked_array,\n", " columns=[\"birthyear\", \"children\", \"hobby\", \"weight\"],\n", " index=[\"alice\", \"bob\", \"charles\"]\n", " )\n", "d3" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Thay vì `ndarray`, bạn cũng có thể truyền đối tượng `DataFrame`:" ] }, { "cell_type": "code", "execution_count": 56, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
hobbychildren
aliceBikingNaN
bobDancing3
\n", "
" ], "text/plain": [ " hobby children\n", "alice Biking NaN\n", "bob Dancing 3" ] }, "execution_count": 56, "metadata": {}, "output_type": "execute_result" } ], "source": [ "d4 = pd.DataFrame(\n", " d3,\n", " columns=[\"hobby\", \"children\"],\n", " index=[\"alice\", \"bob\"]\n", " )\n", "d4" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Cũng có thể tạo `DataFrame` bằng từ điển (hoặc danh sách) lồng trong từ điển (hoặc danh sách):" ] }, { "cell_type": "code", "execution_count": 57, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
birthyearchildrenhobbyweight
alice1985NaNBiking68
bob19843.0Dancing83
charles19920.0NaN112
\n", "
" ], "text/plain": [ " birthyear children hobby weight\n", "alice 1985 NaN Biking 68\n", "bob 1984 3.0 Dancing 83\n", "charles 1992 0.0 NaN 112" ] }, "execution_count": 57, "metadata": {}, "output_type": "execute_result" } ], "source": [ "people = pd.DataFrame({\n", " \"birthyear\": {\"alice\":1985, \"bob\": 1984, \"charles\": 1992},\n", " \"hobby\": {\"alice\":\"Biking\", \"bob\": \"Dancing\"},\n", " \"weight\": {\"alice\":68, \"bob\": 83, \"charles\": 112},\n", " \"children\": {\"bob\": 3, \"charles\": 0}\n", "})\n", "people" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Đa chỉ mục\n", "Nếu tất cả các cột là các tuple có cùng kích thước, thì chúng được hiểu là đa chỉ mục. Điều tương tự cũng xảy ra với nhãn chỉ mục hàng. Ví dụ:" ] }, { "cell_type": "code", "execution_count": 58, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
privatepublic
childrenweightbirthyearhobby
Londoncharles0.01121992NaN
ParisaliceNaN681985Biking
bob3.0831984Dancing
\n", "
" ], "text/plain": [ " private public \n", " children weight birthyear hobby\n", "London charles 0.0 112 1992 NaN\n", "Paris alice NaN 68 1985 Biking\n", " bob 3.0 83 1984 Dancing" ] }, "execution_count": 58, "metadata": {}, "output_type": "execute_result" } ], "source": [ "d5 = pd.DataFrame(\n", " {\n", " (\"public\", \"birthyear\"):\n", " {(\"Paris\",\"alice\"):1985, (\"Paris\",\"bob\"): 1984, (\"London\",\"charles\"): 1992},\n", " (\"public\", \"hobby\"):\n", " {(\"Paris\",\"alice\"):\"Biking\", (\"Paris\",\"bob\"): \"Dancing\"},\n", " (\"private\", \"weight\"):\n", " {(\"Paris\",\"alice\"):68, (\"Paris\",\"bob\"): 83, (\"London\",\"charles\"): 112},\n", " (\"private\", \"children\"):\n", " {(\"Paris\", \"alice\"):np.nan, (\"Paris\",\"bob\"): 3, (\"London\",\"charles\"): 0}\n", " }\n", ")\n", "d5" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Giờ đây, bạn có thể nhận được một `DataFrame` chứa tất cả các cột `\"public\"` một cách dễ dàng:" ] }, { "cell_type": "code", "execution_count": 59, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
birthyearhobby
Londoncharles1992NaN
Parisalice1985Biking
bob1984Dancing
\n", "
" ], "text/plain": [ " birthyear hobby\n", "London charles 1992 NaN\n", "Paris alice 1985 Biking\n", " bob 1984 Dancing" ] }, "execution_count": 59, "metadata": {}, "output_type": "execute_result" } ], "source": [ "d5[\"public\"]" ] }, { "cell_type": "code", "execution_count": 60, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "London charles NaN\n", "Paris alice Biking\n", " bob Dancing\n", "Name: (public, hobby), dtype: object" ] }, "execution_count": 60, "metadata": {}, "output_type": "execute_result" } ], "source": [ "d5[\"public\", \"hobby\"] # Same result as d5[\"public\"][\"hobby\"]" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Hạ cấp\n", "Hãy xem lại `d5`:" ] }, { "cell_type": "code", "execution_count": 61, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
privatepublic
childrenweightbirthyearhobby
Londoncharles0.01121992NaN
ParisaliceNaN681985Biking
bob3.0831984Dancing
\n", "
" ], "text/plain": [ " private public \n", " children weight birthyear hobby\n", "London charles 0.0 112 1992 NaN\n", "Paris alice NaN 68 1985 Biking\n", " bob 3.0 83 1984 Dancing" ] }, "execution_count": 61, "metadata": {}, "output_type": "execute_result" } ], "source": [ "d5" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Có hai cấp độ cột và hai cấp độ chỉ mục. Chúng ta có thể giảm cấp độ cột bằng cách gọi `droplevel()` (tương tự với các chỉ mục):" ] }, { "cell_type": "code", "execution_count": 62, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
childrenweightbirthyearhobby
Londoncharles0.01121992NaN
ParisaliceNaN681985Biking
bob3.0831984Dancing
\n", "
" ], "text/plain": [ " children weight birthyear hobby\n", "London charles 0.0 112 1992 NaN\n", "Paris alice NaN 68 1985 Biking\n", " bob 3.0 83 1984 Dancing" ] }, "execution_count": 62, "metadata": {}, "output_type": "execute_result" } ], "source": [ "d5.columns = d5.columns.droplevel(level = 0)\n", "d5" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Chuyển vị\n", "Bạn có thể hoán đổi các cột và chỉ mục bằng thuộc tính `T`:" ] }, { "cell_type": "code", "execution_count": 63, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
LondonParis
charlesalicebob
children0NaN3
weight1126883
birthyear199219851984
hobbyNaNBikingDancing
\n", "
" ], "text/plain": [ " London Paris \n", " charles alice bob\n", "children 0 NaN 3\n", "weight 112 68 83\n", "birthyear 1992 1985 1984\n", "hobby NaN Biking Dancing" ] }, "execution_count": 63, "metadata": {}, "output_type": "execute_result" } ], "source": [ "d6 = d5.T\n", "d6" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Xếp chồng và gỡ chồng\n", "Gọi phương thức `stack()` sẽ đẩy cột thấp nhất vào sau chỉ mục thấp nhất:" ] }, { "cell_type": "code", "execution_count": 64, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
LondonParis
childrenbobNaN3
charles0NaN
weightaliceNaN68
bobNaN83
charles112NaN
birthyearaliceNaN1985
bobNaN1984
charles1992NaN
hobbyaliceNaNBiking
bobNaNDancing
\n", "
" ], "text/plain": [ " London Paris\n", "children bob NaN 3\n", " charles 0 NaN\n", "weight alice NaN 68\n", " bob NaN 83\n", " charles 112 NaN\n", "birthyear alice NaN 1985\n", " bob NaN 1984\n", " charles 1992 NaN\n", "hobby alice NaN Biking\n", " bob NaN Dancing" ] }, "execution_count": 64, "metadata": {}, "output_type": "execute_result" } ], "source": [ "d7 = d6.stack()\n", "d7" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Lưu ý rằng nhiều giá trị `NaN` đã xuất hiện. Điều này có ý nghĩa bởi vì nhiều kết hợp mới không tồn tại trước đây (ví dụ: không có `bob` trong `London`).\n", "\n", "Việc gọi `unstack()` sẽ làm ngược lại, một lần nữa tạo ra nhiều giá trị `NaN`." ] }, { "cell_type": "code", "execution_count": 65, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
LondonParis
alicebobcharlesalicebobcharles
childrenNoneNaN0None3NaN
weightNaNNaN1126883NaN
birthyearNaNNaN199219851984NaN
hobbyNaNNaNNoneBikingDancingNone
\n", "
" ], "text/plain": [ " London Paris \n", " alice bob charles alice bob charles\n", "children None NaN 0 None 3 NaN\n", "weight NaN NaN 112 68 83 NaN\n", "birthyear NaN NaN 1992 1985 1984 NaN\n", "hobby NaN NaN None Biking Dancing None" ] }, "execution_count": 65, "metadata": {}, "output_type": "execute_result" } ], "source": [ "d8 = d7.unstack()\n", "d8" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Nếu chúng ta gọi lại `unstack`, chúng ta sẽ có một đối tượng `Series`:" ] }, { "cell_type": "code", "execution_count": 66, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "London alice children None\n", " weight NaN\n", " birthyear NaN\n", " hobby NaN\n", " bob children NaN\n", " weight NaN\n", " birthyear NaN\n", " hobby NaN\n", " charles children 0\n", " weight 112\n", " birthyear 1992\n", " hobby None\n", "Paris alice children None\n", " weight 68\n", " birthyear 1985\n", " hobby Biking\n", " bob children 3\n", " weight 83\n", " birthyear 1984\n", " hobby Dancing\n", " charles children NaN\n", " weight NaN\n", " birthyear NaN\n", " hobby None\n", "dtype: object" ] }, "execution_count": 66, "metadata": {}, "output_type": "execute_result" } ], "source": [ "d9 = d8.unstack()\n", "d9" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Các phương thức `stack()` và `unstack()` cho phép bạn chọn `level` để xếp chồng/gỡ chồng. Bạn thậm chí có thể xếp chồng/gỡ chồng nhiều cấp độ cùng một lúc:" ] }, { "cell_type": "code", "execution_count": 67, "metadata": { "scrolled": true }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
LondonParis
alicebobcharlesalicebobcharles
childrenNoneNaN0None3NaN
weightNaNNaN1126883NaN
birthyearNaNNaN199219851984NaN
hobbyNaNNaNNoneBikingDancingNone
\n", "
" ], "text/plain": [ " London Paris \n", " alice bob charles alice bob charles\n", "children None NaN 0 None 3 NaN\n", "weight NaN NaN 112 68 83 NaN\n", "birthyear NaN NaN 1992 1985 1984 NaN\n", "hobby NaN NaN None Biking Dancing None" ] }, "execution_count": 67, "metadata": {}, "output_type": "execute_result" } ], "source": [ "d10 = d9.unstack(level = (0,1))\n", "d10" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Hầu hết các phương thức trả về các bản sao đã sửa đổi\n", "Như bạn có thể nhận thấy, các phương thức `stack()` và `unstack()` không sửa đổi đối tượng mà chúng áp dụng. Thay vào đó, chúng làm việc trên một bản sao và trả lại bản sao đó. Điều này đúng với hầu hết các phương thức trong pandas." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Truy cập hàng\n", "Hãy quay lại `DataFrame` `people`:" ] }, { "cell_type": "code", "execution_count": 68, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
birthyearchildrenhobbyweight
alice1985NaNBiking68
bob19843.0Dancing83
charles19920.0NaN112
\n", "
" ], "text/plain": [ " birthyear children hobby weight\n", "alice 1985 NaN Biking 68\n", "bob 1984 3.0 Dancing 83\n", "charles 1992 0.0 NaN 112" ] }, "execution_count": 68, "metadata": {}, "output_type": "execute_result" } ], "source": [ "people" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Thuộc tính `loc` cho phép bạn truy cập các hàng thay vì các cột. Kết quả là một đối tượng `Series` trong đó tên cột của `DataFrame` được ánh xạ tới nhãn chỉ mục hàng:" ] }, { "cell_type": "code", "execution_count": 69, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "birthyear 1992\n", "children 0\n", "hobby NaN\n", "weight 112\n", "Name: charles, dtype: object" ] }, "execution_count": 69, "metadata": {}, "output_type": "execute_result" } ], "source": [ "people.loc[\"charles\"]" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Bạn cũng có thể truy cập các hàng theo vị trí số nguyên bằng thuộc tính `iloc`:" ] }, { "cell_type": "code", "execution_count": 70, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "birthyear 1992\n", "children 0\n", "hobby NaN\n", "weight 112\n", "Name: charles, dtype: object" ] }, "execution_count": 70, "metadata": {}, "output_type": "execute_result" } ], "source": [ "people.iloc[2]" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Bạn cũng có thể lấy một lát hàng và điều này trả về một đối tượng `DataFrame`:" ] }, { "cell_type": "code", "execution_count": 71, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
birthyearchildrenhobbyweight
bob19843.0Dancing83
charles19920.0NaN112
\n", "
" ], "text/plain": [ " birthyear children hobby weight\n", "bob 1984 3.0 Dancing 83\n", "charles 1992 0.0 NaN 112" ] }, "execution_count": 71, "metadata": {}, "output_type": "execute_result" } ], "source": [ "people.iloc[1:3]" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Cuối cùng, bạn có thể chuyển một mảng boolean để nhận các hàng phù hợp:" ] }, { "cell_type": "code", "execution_count": 72, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
birthyearchildrenhobbyweight
alice1985NaNBiking68
charles19920.0NaN112
\n", "
" ], "text/plain": [ " birthyear children hobby weight\n", "alice 1985 NaN Biking 68\n", "charles 1992 0.0 NaN 112" ] }, "execution_count": 72, "metadata": {}, "output_type": "execute_result" } ], "source": [ "people[np.array([True, False, True])]" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Điều này hữu ích nhất khi được kết hợp với các biểu thức boolean:" ] }, { "cell_type": "code", "execution_count": 73, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
birthyearchildrenhobbyweight
alice1985NaNBiking68
bob19843.0Dancing83
\n", "
" ], "text/plain": [ " birthyear children hobby weight\n", "alice 1985 NaN Biking 68\n", "bob 1984 3.0 Dancing 83" ] }, "execution_count": 73, "metadata": {}, "output_type": "execute_result" } ], "source": [ "people[people[\"birthyear\"] < 1990]" ] }, { "attachments": {}, "cell_type": "markdown", "metadata": {}, "source": [ "## Thêm, bớt cột\n", "Nhìn chung, bạn có thể xem các đối tượng `DataFrame` giống như từ điển của `Series`:" ] }, { "cell_type": "code", "execution_count": 74, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
birthyearchildrenhobbyweight
alice1985NaNBiking68
bob19843.0Dancing83
charles19920.0NaN112
\n", "
" ], "text/plain": [ " birthyear children hobby weight\n", "alice 1985 NaN Biking 68\n", "bob 1984 3.0 Dancing 83\n", "charles 1992 0.0 NaN 112" ] }, "execution_count": 74, "metadata": {}, "output_type": "execute_result" } ], "source": [ "people" ] }, { "cell_type": "code", "execution_count": 75, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
hobbyweightageover 30
aliceBiking6833True
bobDancing8334True
charlesNaN11226False
\n", "
" ], "text/plain": [ " hobby weight age over 30\n", "alice Biking 68 33 True\n", "bob Dancing 83 34 True\n", "charles NaN 112 26 False" ] }, "execution_count": 75, "metadata": {}, "output_type": "execute_result" } ], "source": [ "people[\"age\"] = 2018 - people[\"birthyear\"] # adds a new column \"age\"\n", "people[\"over 30\"] = people[\"age\"] > 30 # adds another column \"over 30\"\n", "birthyears = people.pop(\"birthyear\")\n", "del people[\"children\"]\n", "\n", "people" ] }, { "cell_type": "code", "execution_count": 76, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "alice 1985\n", "bob 1984\n", "charles 1992\n", "Name: birthyear, dtype: int64" ] }, "execution_count": 76, "metadata": {}, "output_type": "execute_result" } ], "source": [ "birthyears" ] }, { "attachments": {}, "cell_type": "markdown", "metadata": {}, "source": [ "Khi bạn thêm một cột mới, cột đó phải có cùng số hàng. Các hàng bị thiếu được lấp đầy bằng `NaN` và các hàng thừa sẽ bị bỏ qua:" ] }, { "cell_type": "code", "execution_count": 77, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
hobbyweightageover 30pets
aliceBiking6833TrueNaN
bobDancing8334True0.0
charlesNaN11226False5.0
\n", "
" ], "text/plain": [ " hobby weight age over 30 pets\n", "alice Biking 68 33 True NaN\n", "bob Dancing 83 34 True 0.0\n", "charles NaN 112 26 False 5.0" ] }, "execution_count": 77, "metadata": {}, "output_type": "execute_result" } ], "source": [ "people[\"pets\"] = pd.Series({\"bob\": 0, \"charles\": 5, \"eugene\":1}) # alice is missing, eugene is ignored\n", "people" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Khi thêm một cột mới, nó sẽ được thêm vào cuối (ở bên phải) theo mặc định. Bạn cũng có thể chèn một cột vào bất kỳ nơi nào khác bằng phương thức `insert()`:" ] }, { "cell_type": "code", "execution_count": 78, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
hobbyheightweightageover 30pets
aliceBiking1726833TrueNaN
bobDancing1818334True0.0
charlesNaN18511226False5.0
\n", "
" ], "text/plain": [ " hobby height weight age over 30 pets\n", "alice Biking 172 68 33 True NaN\n", "bob Dancing 181 83 34 True 0.0\n", "charles NaN 185 112 26 False 5.0" ] }, "execution_count": 78, "metadata": {}, "output_type": "execute_result" } ], "source": [ "people.insert(1, \"height\", [172, 181, 185])\n", "people" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Gán cột mới\n", "Bạn cũng có thể tạo các cột mới bằng cách gọi phương thức `assign()`. Lưu ý rằng điều này trả về một đối tượng `DataFrame` mới, bản gốc không được sửa đổi:" ] }, { "cell_type": "code", "execution_count": 79, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
hobbyheightweightageover 30petsbody_mass_indexhas_pets
aliceBiking1726833TrueNaN22.985398False
bobDancing1818334True0.025.335002False
charlesNaN18511226False5.032.724617True
\n", "
" ], "text/plain": [ " hobby height weight age over 30 pets body_mass_index \\\n", "alice Biking 172 68 33 True NaN 22.985398 \n", "bob Dancing 181 83 34 True 0.0 25.335002 \n", "charles NaN 185 112 26 False 5.0 32.724617 \n", "\n", " has_pets \n", "alice False \n", "bob False \n", "charles True " ] }, "execution_count": 79, "metadata": {}, "output_type": "execute_result" } ], "source": [ "people.assign(\n", " body_mass_index = people[\"weight\"] / (people[\"height\"] / 100) ** 2,\n", " has_pets = people[\"pets\"] > 0\n", ")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Lưu ý rằng bạn không thể truy cập các cột được tạo trong cùng một tác vụ:" ] }, { "cell_type": "code", "execution_count": 80, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Key error: 'body_mass_index'\n" ] } ], "source": [ "try:\n", " people.assign(\n", " body_mass_index = people[\"weight\"] / (people[\"height\"] / 100) ** 2,\n", " overweight = people[\"body_mass_index\"] > 25\n", " )\n", "except KeyError as e:\n", " print(\"Key error:\", e)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Giải pháp là chia tác vụ này thành hai tác vụ liên tiếp:" ] }, { "cell_type": "code", "execution_count": 81, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
hobbyheightweightageover 30petsbody_mass_indexoverweight
aliceBiking1726833TrueNaN22.985398False
bobDancing1818334True0.025.335002True
charlesNaN18511226False5.032.724617True
\n", "
" ], "text/plain": [ " hobby height weight age over 30 pets body_mass_index \\\n", "alice Biking 172 68 33 True NaN 22.985398 \n", "bob Dancing 181 83 34 True 0.0 25.335002 \n", "charles NaN 185 112 26 False 5.0 32.724617 \n", "\n", " overweight \n", "alice False \n", "bob True \n", "charles True " ] }, "execution_count": 81, "metadata": {}, "output_type": "execute_result" } ], "source": [ "d6 = people.assign(body_mass_index = people[\"weight\"] / (people[\"height\"] / 100) ** 2)\n", "d6.assign(overweight = d6[\"body_mass_index\"] > 25)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Việc phải tạo một biến tạm thời `d6` không thuận tiện lắm. Bạn có thể chỉ muốn tạo một chuỗi các lệnh gọi phân công, nhưng điều này không khả thi vì đối tượng `people` không thực sự được sửa đổi bởi phép gán đầu tiên:" ] }, { "cell_type": "code", "execution_count": 82, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Key error: 'body_mass_index'\n" ] } ], "source": [ "try:\n", " (people\n", " .assign(body_mass_index = people[\"weight\"] / (people[\"height\"] / 100) ** 2)\n", " .assign(overweight = people[\"body_mass_index\"] > 25)\n", " )\n", "except KeyError as e:\n", " print(\"Key error:\", e)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Nhưng đừng lo, có một giải pháp đơn giản. Bạn có thể chuyển một hàm cho phương thức `assign()` (thường là hàm `lambda`) và hàm này sẽ được gọi với `DataFrame` làm tham số:" ] }, { "cell_type": "code", "execution_count": 83, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
hobbyheightweightageover 30petsbody_mass_indexoverweight
aliceBiking1726833TrueNaN22.985398False
bobDancing1818334True0.025.335002True
charlesNaN18511226False5.032.724617True
\n", "
" ], "text/plain": [ " hobby height weight age over 30 pets body_mass_index \\\n", "alice Biking 172 68 33 True NaN 22.985398 \n", "bob Dancing 181 83 34 True 0.0 25.335002 \n", "charles NaN 185 112 26 False 5.0 32.724617 \n", "\n", " overweight \n", "alice False \n", "bob True \n", "charles True " ] }, "execution_count": 83, "metadata": {}, "output_type": "execute_result" } ], "source": [ "(people\n", " .assign(body_mass_index = lambda df: df[\"weight\"] / (df[\"height\"] / 100) ** 2)\n", " .assign(overweight = lambda df: df[\"body_mass_index\"] > 25)\n", ")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Vấn đề đã được giải quyết!" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Đánh giá một biểu thức\n", "Một tính năng tuyệt vời được hỗ trợ bởi pandas là đánh giá biểu thức. Điều này yêu cầu thư viện `numexpr` phải được cài đặt." ] }, { "cell_type": "code", "execution_count": 84, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "alice False\n", "bob True\n", "charles True\n", "dtype: bool" ] }, "execution_count": 84, "metadata": {}, "output_type": "execute_result" } ], "source": [ "people.eval(\"weight / (height/100) ** 2 > 25\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Biểu thức gán cũng được hỗ trợ. Hãy đặt `inplace=True` để sửa đổi trực tiếp `DataFrame` thay vì lấy một bản sao đã sửa đổi:" ] }, { "cell_type": "code", "execution_count": 85, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
hobbyheightweightageover 30petsbody_mass_index
aliceBiking1726833TrueNaN22.985398
bobDancing1818334True0.025.335002
charlesNaN18511226False5.032.724617
\n", "
" ], "text/plain": [ " hobby height weight age over 30 pets body_mass_index\n", "alice Biking 172 68 33 True NaN 22.985398\n", "bob Dancing 181 83 34 True 0.0 25.335002\n", "charles NaN 185 112 26 False 5.0 32.724617" ] }, "execution_count": 85, "metadata": {}, "output_type": "execute_result" } ], "source": [ "people.eval(\"body_mass_index = weight / (height/100) ** 2\", inplace=True)\n", "people" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Bạn có thể sử dụng một biến cục bộ hoặc biến toàn cục trong một biểu thức bằng cách đặt trước nó `'@'`:" ] }, { "cell_type": "code", "execution_count": 86, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
hobbyheightweightageover 30petsbody_mass_indexoverweight
aliceBiking1726833TrueNaN22.985398False
bobDancing1818334True0.025.335002False
charlesNaN18511226False5.032.724617True
\n", "
" ], "text/plain": [ " hobby height weight age over 30 pets body_mass_index \\\n", "alice Biking 172 68 33 True NaN 22.985398 \n", "bob Dancing 181 83 34 True 0.0 25.335002 \n", "charles NaN 185 112 26 False 5.0 32.724617 \n", "\n", " overweight \n", "alice False \n", "bob False \n", "charles True " ] }, "execution_count": 86, "metadata": {}, "output_type": "execute_result" } ], "source": [ "overweight_threshold = 30\n", "people.eval(\"overweight = body_mass_index > @overweight_threshold\", inplace=True)\n", "people" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Truy vấn `DataFrame`\n", "Phương thức `query()` cho phép bạn lọc `DataFrame` dựa trên biểu thức truy vấn:" ] }, { "cell_type": "code", "execution_count": 87, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
hobbyheightweightageover 30petsbody_mass_indexoverweight
bobDancing1818334True0.025.335002False
\n", "
" ], "text/plain": [ " hobby height weight age over 30 pets body_mass_index overweight\n", "bob Dancing 181 83 34 True 0.0 25.335002 False" ] }, "execution_count": 87, "metadata": {}, "output_type": "execute_result" } ], "source": [ "people.query(\"age > 30 and pets == 0\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Sắp xếp `DataFrame`\n", "Bạn có thể sắp xếp `DataFrame` bằng cách gọi phương thức `sort_index` của nó. Theo mặc định, nó sắp xếp các hàng theo nhãn chỉ mục của chúng, theo thứ tự tăng dần, nhưng hãy đảo ngược thứ tự:" ] }, { "cell_type": "code", "execution_count": 88, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
hobbyheightweightageover 30petsbody_mass_indexoverweight
charlesNaN18511226False5.032.724617True
bobDancing1818334True0.025.335002False
aliceBiking1726833TrueNaN22.985398False
\n", "
" ], "text/plain": [ " hobby height weight age over 30 pets body_mass_index \\\n", "charles NaN 185 112 26 False 5.0 32.724617 \n", "bob Dancing 181 83 34 True 0.0 25.335002 \n", "alice Biking 172 68 33 True NaN 22.985398 \n", "\n", " overweight \n", "charles True \n", "bob False \n", "alice False " ] }, "execution_count": 88, "metadata": {}, "output_type": "execute_result" } ], "source": [ "people.sort_index(ascending=False)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Lưu ý rằng `sort_index` đã trả về một *bản sao* đã được sắp xếp của `DataFrame`. Để trực tiếp sửa đổi `people`, chúng ta có thể đặt đối số `inplace` thành `True`. Ngoài ra, chúng ta có thể sắp xếp các cột thay vì các hàng bằng cách đặt `axis=1`:" ] }, { "cell_type": "code", "execution_count": 89, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
agebody_mass_indexheighthobbyover 30overweightpetsweight
alice3322.985398172BikingTrueFalseNaN68
bob3425.335002181DancingTrueFalse0.083
charles2632.724617185NaNFalseTrue5.0112
\n", "
" ], "text/plain": [ " age body_mass_index height hobby over 30 overweight pets \\\n", "alice 33 22.985398 172 Biking True False NaN \n", "bob 34 25.335002 181 Dancing True False 0.0 \n", "charles 26 32.724617 185 NaN False True 5.0 \n", "\n", " weight \n", "alice 68 \n", "bob 83 \n", "charles 112 " ] }, "execution_count": 89, "metadata": {}, "output_type": "execute_result" } ], "source": [ "people.sort_index(axis=1, inplace=True)\n", "people" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Để sắp xếp `DataFrame` theo giá trị thay vì nhãn, chúng ta có thể sử dụng `sort_values` và chỉ định cột để sắp xếp theo:" ] }, { "cell_type": "code", "execution_count": 90, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
agebody_mass_indexheighthobbyover 30overweightpetsweight
charles2632.724617185NaNFalseTrue5.0112
alice3322.985398172BikingTrueFalseNaN68
bob3425.335002181DancingTrueFalse0.083
\n", "
" ], "text/plain": [ " age body_mass_index height hobby over 30 overweight pets \\\n", "charles 26 32.724617 185 NaN False True 5.0 \n", "alice 33 22.985398 172 Biking True False NaN \n", "bob 34 25.335002 181 Dancing True False 0.0 \n", "\n", " weight \n", "charles 112 \n", "alice 68 \n", "bob 83 " ] }, "execution_count": 90, "metadata": {}, "output_type": "execute_result" } ], "source": [ "people.sort_values(by=\"age\", inplace=True)\n", "people" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Vẽ đồ thị với `DataFrame`\n", "Giống như đối với `Series`, pandas giúp ta dễ dàng vẽ các biểu đồ đẹp dựa trên `DataFrame`.\n", "\n", "Ví dụ: việc tạo một biểu đồ đường từ dữ liệu của `DataFrame` bằng cách gọi phương thức `plot` của nó là chuyện nhỏ:" ] }, { "cell_type": "code", "execution_count": 91, "metadata": {}, "outputs": [ { "data": { "image/png": "", "text/plain": [ "" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "people.plot(kind = \"line\", x = \"body_mass_index\", y = [\"height\", \"weight\"])\n", "plt.show()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Bạn có thể chuyển các đối số bổ sung được hỗ trợ bởi các hàm của matplotlib. Ví dụ: chúng ta có thể tạo biểu đồ phân tán và chuyển cho nó một danh sách các kích thước bằng cách sử dụng đối số `s` của hàm `scatter()` của matplotlib:" ] }, { "cell_type": "code", "execution_count": 92, "metadata": { "scrolled": true }, "outputs": [ { "data": { "image/png": "iVBORw0KGgoAAAANSUhEUgAAAYgAAAEKCAYAAAAIO8L1AAAABHNCSVQICAgIfAhkiAAAAAlwSFlzAAALEgAACxIB0t1+/AAAADl0RVh0U29mdHdhcmUAbWF0cGxvdGxpYiB2ZXJzaW9uIDIuMS4xLCBodHRwOi8vbWF0cGxvdGxpYi5vcmcvAOZPmwAAFYVJREFUeJzt3XuYXHWd5/H3N+mmcyFyTcIlQMLVXRBZaJDh4iAMIo4zMIyDMCqXzYqOOqu4zgPuM7P47LPjo4zuuM5tB0duOw6iDA6suugsyuKqIB2FEBBMnBAIBBJuCdeQpL/7R50sReeX7qrQ1acq/X49Tz1V9atTfT7dpPvD+Z1T50RmIknSSFPqDiBJ6k4WhCSpyIKQJBVZEJKkIgtCklRkQUiSiiwISVKRBSFJKrIgJElFfXUHeD123333nD9/ft0xJKmnLFq06MnMnD3Wcj1dEPPnz2doaKjuGJLUUyJiRSvLOcUkSSqyICRJRRaEJKnIgpAkFfX0TmpJmmx++cRzPPj4c+y76wwOn7cTEdGxdVkQktQDXli/kQ9cO8TPHn6GvinBcMJ+u83g2n/7FmbPGujIOp1ikqQe8Cc3LWHRimd4ecMwz6/fxIuvbGLpE8/z4a8u6tg6LQhJ6nIvb9jEtxavYv3G4deMbxxOFq9cy8pnXuzIei0ISepyz6/fuNXX+qdO4annX+nIei0ISepyu87YgZ2m9Rdf2zg8zIFzduzIei0ISepyU6YEn3rnG5ne/9o/2dP7p/IHv34AMwc6c7yRRzFJUg8468h5zBzo48+++yArnnqBObOm8dGTD+Sco/fp2DotCEnqEacdugenHbrHhK3PKSZJUlHHCiIiroyI1RGxpGns9yLivogYjojBEct/KiKWRcSDEXFap3JJklrTyS2Iq4F3jBhbApwF3N48GBH/GjgHOLR6z19HxNQOZpMkjaFjBZGZtwNPjxj7RWY+WFj8DOBrmbk+M5cDy4BjOpVNkjS2btkHsTfwSNPzldXYFiLioogYioihNWvWTEg4SZqMuqUgWpaZV2TmYGYOzp495iVVJUnbqFsK4lGg+WDeedWYJKkm3VIQNwPnRMRARCwADgJ+WnMmSZrUOvZBuYi4DjgJ2D0iVgKX0dhp/RfAbODbEXF3Zp6WmfdFxNeB+4GNwEcyc1OnskmSxtaxgsjMc7fy0je3svyfAn/aqTySpPZ0yxSTJKnLWBCSpCILQpJUZEFIkoosCElSkQUhSSqyICRJRRaEJKnIgpAkFVkQkqQiC0KSVGRBSJKKLAhJUpEFIUkqsiAkSUUWhCSpyIKQJBVZEJKkIgtCklRkQUiSiiwISVKRBSFJKrIgJElFFoQkqciCkCQVWRCSpCILQpJUZEFIkoosCElSkQUhSSqyICRJRRaEJKnIgpAkFVkQkqQiC0KSVGRBSJKKOlYQEXFlRKyOiCVNY7tGxD9HxNLqfpdqPCLiSxGxLCIWR8SRncolSWpNJ7cgrgbeMWLsUuDWzDwIuLV6DnA6cFB1uwj4mw7mkiS1oGMFkZm3A0+PGD4DuKZ6fA1wZtP4tdlwB7BzROzZqWySpLFN9D6IuZm5qnr8ODC3erw38EjTciursS1ExEURMRQRQ2vWrOlcUkma5GrbSZ2ZCeQ2vO+KzBzMzMHZs2d3IJkkCSa+IJ7YPHVU3a+uxh8F9mlabl41JkmqyUQXxM3A+dXj84GbmsbPq45mOhZY2zQVJUmqQV+nvnBEXAecBOweESuBy4DPAl+PiIXACuDsavHvAO8ElgEvAhd2KpckqTUdK4jMPHcrL51SWDaBj3QqiySpfX6SWpJUZEFIkoosCElSkQUhSSqyICRJRRaEJKnIgpAkFVkQkqQiC0KSVGRBSJKKLAhJUpEFIUkqsiAkSUUWhCSpyIKQJBVZEJKkIgtCklRkQUiSiiwISVKRBSFJKrIgJElFFoQkqciCkCQVWRCSpKKWCiIiPtbKmCRp+9HqFsT5hbELxjGHJKnL9I32YkScC/w+sCAibm56aRbwdCeDSZLqNWpBAD8GVgG7A19oGn8OWNypUJKk+o1aEJm5AlgB/NrExJEkdYtWd1KfFRFLI2JtRKyLiOciYl2nw0mS6jPWFNNmlwO/lZm/6GQYSVL3aPUopicsB0maXMY6iums6uFQRFwP/BOwfvPrmXljB7NJkmo01hTTbzU9fhF4e9PzBCwISdpOjXUU04UTFUSS1F1a2kkdEV8qDK8FhjLzpnZXWp2m4wNAAF/OzC9GxK7A9cB84CHg7Mx8pt2vLUkaH63upJ4GHAEsrW6HA/OAhRHxxXZWGBGH0SiHY4A3A++KiAOBS4FbM/Mg4NbquSSpJq0e5no4cHxmbgKIiL8BfgicANzb5jr/FXBnZr5Yfa3/A5wFnAGcVC1zDXAbcEmbX1uSNE5a3YLYBdix6flMYNeqMNaX37JVS4ATI2K3iJgBvBPYB5ibmauqZR4H5rb5dSVJ46idD8rdHRG30dhv8FbgMxExE/jf7awwM38REZ8Dvge8ANwNbBqxTEZElt4fERcBFwHsu+++7axaktSGyCz+Hd5ywYg9aew3ALgrMx8blwARnwFWAh8DTsrMVdW6bsvMQ0Z77+DgYA4NDY1HDEmaNCJiUWYOjrXcqFNMEfHG6v5IYE/gkeq2RzW2reHmVPf70tj/8A/Azbx63YnzgbaPjpIkjZ+xppg+QWM65wuF1xI4eRvX+48RsRuwAfhIZj4bEZ8Fvh4RC2mcQfbsbfzakqRxMNYH5S6q7t82nivNzBMLY08Bp4zneiRJ267V033PiIg/jogrqucHRcS7OhtNklSnVg9zvQp4BTiuev4o8F86kkiS1BVaLYgDMvNyGvsMqD7kFh1LJUmqXasF8UpETKexY5qIOID2PyAnSeohrX5Q7jLgFmCfiPgqcDxwQadCSZLq12pBnA98G7gB+BfgY5n5ZMdSSZJq12pBfAU4ETgVOAD4eUTcnpn/rWPJJEm1aqkgMvMHEXE7cDTwNuBDwKGABSFJ26lWLxh0K40zuP6Exmm+j87M1Z0MJkmqV6tHMS2m8TmIw2hcG+Kw6qgmSdJ2qtUpposBImIWjaOXrgL2AAY6lkySVKtWp5g+SmMn9VE0rhd9JY2pJknSdqrVo5imAf8VWJSZGzuYR5LUJVqdYvp8p4NIkrpLqzupJUmTjAUhSSqyICRJRRaEJKmo1aOYJOk1MpPn1m9keDiZNa2fqVO8RMz2xoKQ1JblT77AVT9azjeGVrJxeJggGM7k7YfO5QMn7s8R++xMhGWxPbAgJLVkeDj5z9+6j+t++gjDw8mG4axeadzfsuRxfvDAGo7abxf+9v1HMXPAPy+9zn0QksaUmfzRDfdw/V0rWb9xuKkcXjWc8NKGTdz10NO854qf8PKGTTUk1XiyICSN6VuLV/Gdex/npRb+6K/fOMzSJ57n8lsemIBk6iQLQtKY/vL7y1oqh83Wbxzma3c94lZEj7MgJI3q/sfWseLpF7bpvf/znsfGOY0mkgUhaVSLVjxNbrnLYUwvvrKJ/7vMS9f3MgtC0qheeGUTmwo7pVux7qUN45xGE8mCkDSqmQN99E3dts817DS9f5zTaCJZEJJG9ZYFu27T+2buMJWTDpkzzmk0kSwISaM6eO4sDpy9Y/tvjOD0N+0x/oE0YSwISWP66MkHMb1/asvLT+ufwnm/th8Dfa2/R93HgpA0pncctgdnD85rqSSm9U/hTXvvxCdOPXgCkqmTLAhJLfn0bx/KwhMWMNA3hYG+Lf90TJ3SKIeTDp7D/1j4Fvqn+uel13k2LUktiQg+edohvO/Y/fj7O1bw93euYO1LGwhgoG8qZxyxFwtPWMBBc2fVHVXjJHJbPgHTJQYHB3NoaKjuGNKktXHTMMMJOxS2KNS9ImJRZg6OtZxbEJK2WZ/TSNu1Wv7rRsTFEXFfRCyJiOsiYlpELIiIOyNiWURcHxE71JFNktQw4QUREXsD/x4YzMzDgKnAOcDngD/PzAOBZ4CFE51NkvSqurYP+4DpEdEHzABWAScDN1SvXwOcWVM2SRI1FERmPgp8HniYRjGsBRYBz2bmxmqxlcDeE51NkvSqOqaYdgHOABYAewEzgXe08f6LImIoIobWrFnToZSSpDqmmH4DWJ6ZazJzA3AjcDywczXlBDAPeLT05sy8IjMHM3Nw9uzZE5NYkiahOgriYeDYiJgREQGcAtwP/AB4d7XM+cBNNWSTJFXq2AdxJ42d0T8D7q0yXAFcAnwiIpYBuwFfmehskqRX1fJBucy8DLhsxPC/AMfUEEeSVODHICVJRRaEJKnIgpAkFVkQkqQiC0KSVGRBSJKKLAhJUpEFIUkqsiAkSUUWhCSpyIKQJBVZEJKkIgtCklRkQUiSiiwISVKRBSFJKrIgJElFFoQkqciCkCQVWRCSpCILQpJUZEFIkoosCElSkQUhSSqyICRJRRaEJKnIgpAkFVkQkqQiC0KSVGRBSJKKLAhJUpEFIUkqsiAkSUUWhCSpyIKQJBVZEJKkogkviIg4JCLubrqti4iPR8SuEfHPEbG0ut9lorNJkl414QWRmQ9m5hGZeQRwFPAi8E3gUuDWzDwIuLV6LkmqSd1TTKcAv8rMFcAZwDXV+DXAmbWlkiTVXhDnANdVj+dm5qrq8ePA3HoiSZKgxoKIiB2A3wa+MfK1zEwgt/K+iyJiKCKG1qxZ0+GUkjR51bkFcTrws8x8onr+RETsCVDdry69KTOvyMzBzBycPXv2BEWVpMmnzoI4l1enlwBuBs6vHp8P3NSpFT/38gaWrX6eh596kU3DxQ0VSZr0+upYaUTMBE4FPtg0/Fng6xGxEFgBnD3e613y6Fq+9P2l3PbAGvqnBsMJ0/qncOHxC7jg+Pm8YVr/eK9SknpWNKb7e9Pg4GAODQ21tOxNP3+US25czPqNw4z8lgf6pjB71gA3fvg45sya1oGkktQ9ImJRZg6OtVzdRzFNiHtXruWSGxfz8oYtywFg/cZhHl/7Mud95af0cmFK0niaFAXxF99fyvqNw6Mus3E4efjpF7nroWcmKJUkdbftviDWvbyB2x5cU9xyGOmlVzZx1Y+Wdz6UJPWA7b4gVq97mf6+aGnZBJY/+UJnA0lSj9juC6J/6hSGR59d2mJ5SdIkKIh5u8xgoL+1b3OgbwonHeKH7yQJJkFBTJ0SXHjcfAb6xv5WE3j/sft1PpQk9YDtviAALjxhAbvvOMBos0fT+6fyobfuz5w3+DkISYJJUhBvmNbPNz9yHAfOnsWMHabSvMt6oG8KA31T+HcnLuDiUw+uLaMkdZtaTrVRhzmzpnHLx0/kzuVPc/WPH2L5mhfYoS846ZA5vO/Y/ZjrloMkvcakKQiAiODY/Xfj2P13qzuKJHW9STHFJElqnwUhSSqyICRJRT19uu+IWEPj2hHbanfgyXGKM9F6NXuv5gaz16FXc0N3Z98vM8f8VHBPF8TrFRFDrZwTvRv1avZezQ1mr0Ov5obezr6ZU0ySpCILQpJUNNkL4oq6A7wOvZq9V3OD2evQq7mht7MDk3wfhCRp6yb7FoQkaSu224KIiCsjYnVELGkauz4i7q5uD0XE3dX4qRGxKCLure5Pri95e9mbXt83Ip6PiE9OfOLX5Ggre0QcHhE/iYj7qp9/bSfFavPfTH9EXFNl/kVEfKrLch8REXdUuYci4phqPCLiSxGxLCIWR8SRdeWu8rST/b1V5nsj4scR8eb6kreXven1oyNiY0S8e+ITb4PM3C5vwFuBI4ElW3n9C8B/qh7/G2Cv6vFhwKO9kr1p7AbgG8AneyU7jXOBLQbeXD3fDZjaI9l/H/ha9XgG8BAwv1tyA98DTq8evxO4renx/wICOBa4s9v+vYyS/Thgl+rx6b2UvXo+Ffg+8B3g3XVmb/W23W5BZObtwNOl1yIigLOB66plf56Zj1Uv3wdMj4iBCQla0E72auxMYDmN7LVqM/vbgcWZeU/13qcyc9OEBC1oM3sCMyOiD5gOvAKsm4icI20ldwJvqB7vBGz+930GcG023AHsHBF7TkzSLbWTPTN/nJnPVON3APMmJORWtPlzB/hD4B+B1Z1PNz4m1dlcm5wIPJGZSwuv/S7ws8xcP8GZWvWa7BGxI3AJcCpQ6/RSC0b+3A8GMiK+C8ym8X/kl9eWbnQjs99A44/tKhpbEBdnZrFcavJx4LsR8XkaU8nHVeN7A480LbeyGls1sfFGtbXszRbS2BLqNsXsEbE38DvA24Cj64vXnu12C2IM59L0f+CbRcShwOeAD054otaNzP5p4M8z8/l64rRlZPY+4ATgvdX970TEKXUEa8HI7McAm4C9gAXAf4iI/esIthV/QKO09gEuBr5Sc552jJo9It5GoyAuqSHbWLaW/YvAJZk5XFuybVH3HFcnb8B8Rswn0/ij9AQwb8T4POCXwPF1524nO/BDGvPfDwHP0tjk/WiPZD8HuKbp+Z8Af9Qj2f8KeH/T8yuBs7slN7CWVw9jD2Bd9fhvgXOblnsQ2LObfuZby149Pxz4FXBwnZm34ee+vOn39Hka00xn1p1/rNtk3IL4DeCBzFy5eSAidga+DVyamT+qLdnYtsiemSdm5vzMnE/j/1I+k5l/WVfAUWyRHfgu8KaImFHN5f86cH8t6UZXyv4wcDJARMykscP3gRqybc1jNH6e0Mi5eWrsZuC86mimY4G1mdlN00uwlewRsS9wI41i/mVN2cZSzJ6ZC5p+T28APpyZ/1RPxDbU3VAdbPbraMyrbqAxz7qwGr8a+NCIZf8YeAG4u+k2pxeyj3jfp6n/KKa2sgPvo7FzfQlwea9kB3akcdTYfTRKrbYtn1JuGlN2i4B7gDuBo6plg8bWz6+Ae4HBbvuZj5L974Bnmn5Hh3ol+4j3XU2PHMXkJ6klSUWTcYpJktQCC0KSVGRBSJKKLAhJUpEFIUkqsiCkrYiI+c1n6mxh+Q9FxHljLHNBRBQ/pxIR/7HdjFInWRDSOMnM/56Z176OL2FBqKtYENLopkbEl6vrVXwvIqZHxAERcUt17ZAfRsQbASLi05uvx1Gd939xdV2APxuxJbJX9f6lEXF5tfxnaZxF+O6I+OrEf5vSliwIaXQHAX+VmYfSONfV79K41vAfZuZRNM6g+9eF910FfDAzj6BxUr9mRwDvAd4EvCci9snMS4GXMvOIzHxvh74XqS2T9XTfUquWZ+bmK+AtonFytuOAbzQuEQHAa64dUp3ba1Zm/qQa+gfgXU2L3JqZa6tl7wf247Wn4Ja6ggUhja75uiCbgLnAs9WWwXh9TX8P1ZWcYpLasw5YHhG/B///Gs+vuTZyZj4LPBcRb6mGzmnxa2+IiP7xiyq9PhaE1L73Agsj4h4aZ3M9o7DMQuDLEXE3MJPGdQLGcgWw2J3U6haezVXqgIjYMaur/EXEpTQuyvOxmmNJbXHuU+qM34yIT9H4HVsBXFBvHKl9bkFIkorcByFJKrIgJElFFoQkqciCkCQVWRCSpCILQpJU9P8AYzsGxmdb6ocAAAAASUVORK5CYII=", "text/plain": [ "" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "people.plot(kind = \"scatter\", x = \"height\", y = \"weight\", s=[40, 120, 200])\n", "plt.show()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Một lần nữa, có quá nhiều tùy chọn để liệt kê ở đây: tùy chọn tốt nhất là tham khảo trang [Trực quan hóa](http://pandas.pydata.org/pandas-docs/stable/visualization.html) trong tài liệu của pandas, tìm đồ thị mà bạn quan tâm và xem mã ví dụ." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Toán tử trên `DataFrame`\n", "Mặc dù `DataFrame` không cố gắng bắt chước các mảng NumPy, nhưng có một vài điểm tương đồng. Hãy tạo một `DataFrame` để chứng minh điều này:" ] }, { "cell_type": "code", "execution_count": 93, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
sepoctnov
alice889
bob1099
charles482
darwin91010
\n", "
" ], "text/plain": [ " sep oct nov\n", "alice 8 8 9\n", "bob 10 9 9\n", "charles 4 8 2\n", "darwin 9 10 10" ] }, "execution_count": 93, "metadata": {}, "output_type": "execute_result" } ], "source": [ "grades_array = np.array([[8,8,9],[10,9,9],[4, 8, 2], [9, 10, 10]])\n", "grades = pd.DataFrame(grades_array, columns=[\"sep\", \"oct\", \"nov\"], index=[\"alice\",\"bob\",\"charles\",\"darwin\"])\n", "grades" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Bạn có thể áp dụng các hàm toán học NumPy trên `DataFrame`: hàm được áp dụng cho tất cả các giá trị:" ] }, { "cell_type": "code", "execution_count": 94, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
sepoctnov
alice2.8284272.8284273.000000
bob3.1622783.0000003.000000
charles2.0000002.8284271.414214
darwin3.0000003.1622783.162278
\n", "
" ], "text/plain": [ " sep oct nov\n", "alice 2.828427 2.828427 3.000000\n", "bob 3.162278 3.000000 3.000000\n", "charles 2.000000 2.828427 1.414214\n", "darwin 3.000000 3.162278 3.162278" ] }, "execution_count": 94, "metadata": {}, "output_type": "execute_result" } ], "source": [ "np.sqrt(grades)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Tương tự, việc thêm một giá trị vào `DataFrame` sẽ thêm giá trị đó vào tất cả các phần tử trong `DataFrame`. Điều này được gọi là *broadcasting*:" ] }, { "cell_type": "code", "execution_count": 95, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
sepoctnov
alice9910
bob111010
charles593
darwin101111
\n", "
" ], "text/plain": [ " sep oct nov\n", "alice 9 9 10\n", "bob 11 10 10\n", "charles 5 9 3\n", "darwin 10 11 11" ] }, "execution_count": 95, "metadata": {}, "output_type": "execute_result" } ], "source": [ "grades + 1" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Tất nhiên, điều này cũng đúng với tất cả các phép toán nhị phân khác, bao gồm phép toán số học (`*`,`/`,`**`...) và phép toán có điều kiện (`>`, `==`...):" ] }, { "cell_type": "code", "execution_count": 96, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
sepoctnov
aliceTrueTrueTrue
bobTrueTrueTrue
charlesFalseTrueFalse
darwinTrueTrueTrue
\n", "
" ], "text/plain": [ " sep oct nov\n", "alice True True True\n", "bob True True True\n", "charles False True False\n", "darwin True True True" ] }, "execution_count": 96, "metadata": {}, "output_type": "execute_result" } ], "source": [ "grades >= 5" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Các hoạt động tổng hợp, chẳng hạn như tính toán `max`, `sum` hoặc `mean` của `DataFrame`, áp dụng cho từng cột và bạn nhận được một đối tượng `Series`:" ] }, { "cell_type": "code", "execution_count": 97, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "sep 7.75\n", "oct 8.75\n", "nov 7.50\n", "dtype: float64" ] }, "execution_count": 97, "metadata": {}, "output_type": "execute_result" } ], "source": [ "grades.mean()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Phương thức `all` cũng là một thao tác tổng hợp: nó kiểm tra xem tất cả các giá trị có phải là `True` hay không. Hãy xem trong những tháng nào tất cả học sinh đạt điểm cao hơn `5`:" ] }, { "cell_type": "code", "execution_count": 98, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "sep False\n", "oct True\n", "nov False\n", "dtype: bool" ] }, "execution_count": 98, "metadata": {}, "output_type": "execute_result" } ], "source": [ "(grades > 5).all()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Hầu hết các hàm này đều có tham số `axis` tùy chọn cho phép bạn chỉ định dọc theo trục nào của `DataFrame` mà bạn muốn thao tác được thực thi. Giá trị mặc định là `axis=0`, nghĩa là thao tác được thực hiện theo chiều dọc (trên mỗi cột). Bạn có thể đặt `axis=1` để thực hiện thao tác theo chiều ngang (trên mỗi hàng). Ví dụ: hãy tìm xem học sinh nào có tất cả các điểm lớn hơn `5`:" ] }, { "cell_type": "code", "execution_count": 99, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "alice True\n", "bob True\n", "charles False\n", "darwin True\n", "dtype: bool" ] }, "execution_count": 99, "metadata": {}, "output_type": "execute_result" } ], "source": [ "(grades > 5).all(axis = 1)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Phương thức `any` trả về `True` nếu bất kỳ giá trị nào là True. Cùng xem ai đạt ít nhất một điểm 10 nào:" ] }, { "cell_type": "code", "execution_count": 100, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "alice False\n", "bob True\n", "charles False\n", "darwin True\n", "dtype: bool" ] }, "execution_count": 100, "metadata": {}, "output_type": "execute_result" } ], "source": [ "(grades == 10).any(axis = 1)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Nếu bạn thêm đối tượng `Series` vào `DataFrame` (hoặc thực thi bất kỳ thao tác nhị phân nào khác), pandas sẽ cố gắng broadcast tới tất cả *hàng* trong `DataFrame`. Điều này chỉ hoạt động nếu `Series` có cùng kích thước với các hàng của `DataFrame`. Ví dụ: hãy trừ `giá trị trung bình` của `DataFrame` (một đối tượng `Series`) khỏi `DataFrame`:" ] }, { "cell_type": "code", "execution_count": 101, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
sepoctnov
alice0.25-0.751.5
bob2.250.251.5
charles-3.75-0.75-5.5
darwin1.251.252.5
\n", "
" ], "text/plain": [ " sep oct nov\n", "alice 0.25 -0.75 1.5\n", "bob 2.25 0.25 1.5\n", "charles -3.75 -0.75 -5.5\n", "darwin 1.25 1.25 2.5" ] }, "execution_count": 101, "metadata": {}, "output_type": "execute_result" } ], "source": [ "grades - grades.mean() # equivalent to: grades - [7.75, 8.75, 7.50]" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Chúng ta đã trừ `7,75` cho tất cả các điểm tháng 9, `8,75` cho các điểm tháng 10 và `7,50` cho các điểm tháng 11. Nó tương đương với việc trừ `DataFrame` này:" ] }, { "cell_type": "code", "execution_count": 102, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
sepoctnov
alice7.758.757.5
bob7.758.757.5
charles7.758.757.5
darwin7.758.757.5
\n", "
" ], "text/plain": [ " sep oct nov\n", "alice 7.75 8.75 7.5\n", "bob 7.75 8.75 7.5\n", "charles 7.75 8.75 7.5\n", "darwin 7.75 8.75 7.5" ] }, "execution_count": 102, "metadata": {}, "output_type": "execute_result" } ], "source": [ "pd.DataFrame([[7.75, 8.75, 7.50]]*4, index=grades.index, columns=grades.columns)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Nếu bạn muốn trừ đi giá trị trung bình toàn cầu từ mọi cấp độ, đây là một cách để thực hiện:" ] }, { "cell_type": "code", "execution_count": 103, "metadata": { "scrolled": true }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
sepoctnov
alice0.00.01.0
bob2.01.01.0
charles-4.00.0-6.0
darwin1.02.02.0
\n", "
" ], "text/plain": [ " sep oct nov\n", "alice 0.0 0.0 1.0\n", "bob 2.0 1.0 1.0\n", "charles -4.0 0.0 -6.0\n", "darwin 1.0 2.0 2.0" ] }, "execution_count": 103, "metadata": {}, "output_type": "execute_result" } ], "source": [ "grades - grades.values.mean() # subtracts the global mean (8.00) from all grades" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Căn chỉnh tự động\n", "Tương tự như `Series`, khi hoạt động trên nhiều `DataFrame`, pandas sẽ tự động sắp xếp chúng theo nhãn chỉ mục hàng cũng như theo tên cột. Hãy tạo `DataFrame` với điểm thưởng cho mỗi người từ tháng 10 đến tháng 12:" ] }, { "cell_type": "code", "execution_count": 104, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
octnovdec
bob0.0NaN2.0
colinNaN1.00.0
darwin0.01.00.0
charles3.03.00.0
\n", "
" ], "text/plain": [ " oct nov dec\n", "bob 0.0 NaN 2.0\n", "colin NaN 1.0 0.0\n", "darwin 0.0 1.0 0.0\n", "charles 3.0 3.0 0.0" ] }, "execution_count": 104, "metadata": {}, "output_type": "execute_result" } ], "source": [ "bonus_array = np.array([[0,np.nan,2],[np.nan,1,0],[0, 1, 0], [3, 3, 0]])\n", "bonus_points = pd.DataFrame(bonus_array, columns=[\"oct\", \"nov\", \"dec\"], index=[\"bob\",\"colin\", \"darwin\", \"charles\"])\n", "bonus_points" ] }, { "cell_type": "code", "execution_count": 105, "metadata": { "scrolled": true }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
decnovoctsep
aliceNaNNaNNaNNaN
bobNaNNaN9.0NaN
charlesNaN5.011.0NaN
colinNaNNaNNaNNaN
darwinNaN11.010.0NaN
\n", "
" ], "text/plain": [ " dec nov oct sep\n", "alice NaN NaN NaN NaN\n", "bob NaN NaN 9.0 NaN\n", "charles NaN 5.0 11.0 NaN\n", "colin NaN NaN NaN NaN\n", "darwin NaN 11.0 10.0 NaN" ] }, "execution_count": 105, "metadata": {}, "output_type": "execute_result" } ], "source": [ "grades + bonus_points" ] }, { "attachments": {}, "cell_type": "markdown", "metadata": {}, "source": [ "Có vẻ như phần bổ sung đã hoạt động trong một số trường hợp nhưng có quá nhiều phần tử hiện đang trống. Đó là bởi vì khi căn chỉnh `DataFrame`, một số cột và hàng chỉ xuất hiện ở một bên và do đó chúng được xem là bị thiếu ở phía bên kia (`NaN`). Sau đó, phép cộng với `NaN` cho kết quả `NaN`, dẫn đến kết quả như trên.\n", "\n", "## Xử lý dữ liệu bị thiếu\n", "Xử lý dữ liệu bị thiếu là một nhiệm vụ thường xuyên khi làm việc với dữ liệu thực tế. Pandas cung cấp một số công cụ để xử lý dữ liệu bị thiếu.\n", "\n", "Hãy thử khắc phục sự cố trên. Ví dụ: chúng ta có thể quyết định rằng dữ liệu bị thiếu sẽ dẫn đến kết quả là 0, thay vì `NaN`. Chúng ta có thể thay thế tất cả các giá trị `NaN` bằng một giá trị bất kỳ bằng cách sử dụng phương thức `fillna()`:" ] }, { "cell_type": "code", "execution_count": 106, "metadata": { "scrolled": true }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
decnovoctsep
alice0.00.00.00.0
bob0.00.09.00.0
charles0.05.011.00.0
colin0.00.00.00.0
darwin0.011.010.00.0
\n", "
" ], "text/plain": [ " dec nov oct sep\n", "alice 0.0 0.0 0.0 0.0\n", "bob 0.0 0.0 9.0 0.0\n", "charles 0.0 5.0 11.0 0.0\n", "colin 0.0 0.0 0.0 0.0\n", "darwin 0.0 11.0 10.0 0.0" ] }, "execution_count": 106, "metadata": {}, "output_type": "execute_result" } ], "source": [ "(grades + bonus_points).fillna(0)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Tuy nhiên, có một chút không công bằng khi chúng ta đặt điểm bằng 0 vào tháng 9. Có lẽ chúng ta nên quyết định rằng điểm thiếu là điểm thiếu, nhưng điểm thưởng bị thiếu nên được thay thế bằng số không:" ] }, { "cell_type": "code", "execution_count": 107, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
decnovoctsep
aliceNaN9.08.08.0
bobNaN9.09.010.0
charlesNaN5.011.04.0
colinNaNNaNNaNNaN
darwinNaN11.010.09.0
\n", "
" ], "text/plain": [ " dec nov oct sep\n", "alice NaN 9.0 8.0 8.0\n", "bob NaN 9.0 9.0 10.0\n", "charles NaN 5.0 11.0 4.0\n", "colin NaN NaN NaN NaN\n", "darwin NaN 11.0 10.0 9.0" ] }, "execution_count": 107, "metadata": {}, "output_type": "execute_result" } ], "source": [ "fixed_bonus_points = bonus_points.fillna(0)\n", "fixed_bonus_points.insert(0, \"sep\", 0)\n", "fixed_bonus_points.loc[\"alice\"] = 0\n", "grades + fixed_bonus_points" ] }, { "attachments": {}, "cell_type": "markdown", "metadata": {}, "source": [ "Trông đã tốt hơn nhiều: mặc dù chúng ta đã tự tạo một số dữ liệu, nhưng chúng không quá bất công.\n", "\n", "Một cách khác để xử lý dữ liệu bị thiếu là nội suy. Hãy xem lại `bonus_points` `DataFrame`:" ] }, { "cell_type": "code", "execution_count": 108, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
octnovdec
bob0.0NaN2.0
colinNaN1.00.0
darwin0.01.00.0
charles3.03.00.0
\n", "
" ], "text/plain": [ " oct nov dec\n", "bob 0.0 NaN 2.0\n", "colin NaN 1.0 0.0\n", "darwin 0.0 1.0 0.0\n", "charles 3.0 3.0 0.0" ] }, "execution_count": 108, "metadata": {}, "output_type": "execute_result" } ], "source": [ "bonus_points" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Bây giờ, hãy gọi phương thức `nội suy`. Theo mặc định, nó nội suy theo chiều dọc (`trục=0`), vì vậy hãy bảo nó nội suy theo chiều ngang (`trục=1`)." ] }, { "cell_type": "code", "execution_count": 109, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
octnovdec
bob0.01.02.0
colinNaN1.00.0
darwin0.01.00.0
charles3.03.00.0
\n", "
" ], "text/plain": [ " oct nov dec\n", "bob 0.0 1.0 2.0\n", "colin NaN 1.0 0.0\n", "darwin 0.0 1.0 0.0\n", "charles 3.0 3.0 0.0" ] }, "execution_count": 109, "metadata": {}, "output_type": "execute_result" } ], "source": [ "bonus_points.interpolate(axis=1)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Bob có 0 điểm thưởng vào tháng 10 và 2 vào tháng 12. Khi chúng ta nội suy cho tháng 11, ta nhận được giá trị trung bình: 1 điểm thưởng. Colin có 1 điểm thưởng trong tháng 11, nhưng chúng ta không biết anh ấy có bao nhiêu điểm thưởng trong tháng 9, vì vậy ta không thể nội suy, đây là lý do tại sao vẫn còn thiếu một giá trị trong tháng 10 sau khi nội suy. Để khắc phục, chúng ta có thể set điểm thưởng tháng 9 bằng 0 trước khi nội suy." ] }, { "cell_type": "code", "execution_count": 110, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
sepoctnovdec
bob0.00.01.02.0
colin0.00.51.00.0
darwin0.00.01.00.0
charles0.03.03.00.0
alice0.00.00.00.0
\n", "
" ], "text/plain": [ " sep oct nov dec\n", "bob 0.0 0.0 1.0 2.0\n", "colin 0.0 0.5 1.0 0.0\n", "darwin 0.0 0.0 1.0 0.0\n", "charles 0.0 3.0 3.0 0.0\n", "alice 0.0 0.0 0.0 0.0" ] }, "execution_count": 110, "metadata": {}, "output_type": "execute_result" } ], "source": [ "better_bonus_points = bonus_points.copy()\n", "better_bonus_points.insert(0, \"sep\", 0)\n", "better_bonus_points.loc[\"alice\"] = 0\n", "better_bonus_points = better_bonus_points.interpolate(axis=1)\n", "better_bonus_points" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Tuyệt vời, bây giờ chúng ta đã có điểm thưởng hợp lý ở khắp mọi nơi. Hãy cùng tìm hiểu các lớp cuối cùng:" ] }, { "cell_type": "code", "execution_count": 111, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
decnovoctsep
aliceNaN9.08.08.0
bobNaN10.09.010.0
charlesNaN5.011.04.0
colinNaNNaNNaNNaN
darwinNaN11.010.09.0
\n", "
" ], "text/plain": [ " dec nov oct sep\n", "alice NaN 9.0 8.0 8.0\n", "bob NaN 10.0 9.0 10.0\n", "charles NaN 5.0 11.0 4.0\n", "colin NaN NaN NaN NaN\n", "darwin NaN 11.0 10.0 9.0" ] }, "execution_count": 111, "metadata": {}, "output_type": "execute_result" } ], "source": [ "grades + better_bonus_points" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Hơi khó chịu khi cột tháng 9 kết thúc ở bên phải. Điều này là do `DataFrame` mà chúng ta đang thêm không có các cột giống hệt nhau (`DataFrame` `grades` thiếu cột `\"dec\"`), vì vậy, để làm cho mọi thứ có thể dự đoán được, pandas sắp xếp các cột cuối cùng theo thứ tự abc. Để khắc phục điều này, chúng ta chỉ cần thêm cột bị thiếu trước khi thêm:" ] }, { "cell_type": "code", "execution_count": 112, "metadata": { "scrolled": true }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
sepoctnovdec
alice8.08.09.0NaN
bob10.09.010.0NaN
charles4.011.05.0NaN
colinNaNNaNNaNNaN
darwin9.010.011.0NaN
\n", "
" ], "text/plain": [ " sep oct nov dec\n", "alice 8.0 8.0 9.0 NaN\n", "bob 10.0 9.0 10.0 NaN\n", "charles 4.0 11.0 5.0 NaN\n", "colin NaN NaN NaN NaN\n", "darwin 9.0 10.0 11.0 NaN" ] }, "execution_count": 112, "metadata": {}, "output_type": "execute_result" } ], "source": [ "grades[\"dec\"] = np.nan\n", "final_grades = grades + better_bonus_points\n", "final_grades" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Không có nhiều thứ chúng ta có thể làm về tháng 12 và Colin: thật tệ khi chúng ta tự tạo điểm thưởng, nhưng chúng ta không thể tự tạo điểm một cách hợp lý được (tôi đoán một số giáo viên có thể làm được). Vì vậy, hãy gọi phương thức `dropna()` để loại bỏ các hàng chứa đầy `NaN`:" ] }, { "cell_type": "code", "execution_count": 113, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
sepoctnovdec
alice8.08.09.0NaN
bob10.09.010.0NaN
charles4.011.05.0NaN
darwin9.010.011.0NaN
\n", "
" ], "text/plain": [ " sep oct nov dec\n", "alice 8.0 8.0 9.0 NaN\n", "bob 10.0 9.0 10.0 NaN\n", "charles 4.0 11.0 5.0 NaN\n", "darwin 9.0 10.0 11.0 NaN" ] }, "execution_count": 113, "metadata": {}, "output_type": "execute_result" } ], "source": [ "final_grades_clean = final_grades.dropna(how=\"all\")\n", "final_grades_clean" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Bây giờ, hãy xóa các cột chứa đầy `NaN` bằng cách đặt đối số `axis` thành `1`:" ] }, { "cell_type": "code", "execution_count": 114, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
sepoctnov
alice8.08.09.0
bob10.09.010.0
charles4.011.05.0
darwin9.010.011.0
\n", "
" ], "text/plain": [ " sep oct nov\n", "alice 8.0 8.0 9.0\n", "bob 10.0 9.0 10.0\n", "charles 4.0 11.0 5.0\n", "darwin 9.0 10.0 11.0" ] }, "execution_count": 114, "metadata": {}, "output_type": "execute_result" } ], "source": [ "final_grades_clean = final_grades_clean.dropna(axis=1, how=\"all\")\n", "final_grades_clean" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Tổng hợp với `groupby`\n", "Tương tự như ngôn ngữ SQL, pandas cho phép nhóm dữ liệu của bạn thành từng nhóm để chạy tính toán trên từng nhóm.\n", "\n", "Trước tiên, hãy thêm một số dữ liệu bổ sung về từng người để chúng ta có thể nhóm họ và hãy quay lại `DataFrame` `final_grades` để xem cách các giá trị `NaN` được xử lý:" ] }, { "cell_type": "code", "execution_count": 115, "metadata": { "scrolled": true }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
sepoctnovdechobby
alice8.08.09.0NaNBiking
bob10.09.010.0NaNDancing
charles4.011.05.0NaNNaN
colinNaNNaNNaNNaNDancing
darwin9.010.011.0NaNBiking
\n", "
" ], "text/plain": [ " sep oct nov dec hobby\n", "alice 8.0 8.0 9.0 NaN Biking\n", "bob 10.0 9.0 10.0 NaN Dancing\n", "charles 4.0 11.0 5.0 NaN NaN\n", "colin NaN NaN NaN NaN Dancing\n", "darwin 9.0 10.0 11.0 NaN Biking" ] }, "execution_count": 115, "metadata": {}, "output_type": "execute_result" } ], "source": [ "final_grades[\"hobby\"] = [\"Biking\", \"Dancing\", np.nan, \"Dancing\", \"Biking\"]\n", "final_grades" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Bây giờ hãy nhóm dữ liệu trong `DataFrame` này theo sở thích:" ] }, { "cell_type": "code", "execution_count": 116, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "" ] }, "execution_count": 116, "metadata": {}, "output_type": "execute_result" } ], "source": [ "grouped_grades = final_grades.groupby(\"hobby\")\n", "grouped_grades" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Chúng ta đã sẵn sàng để tính điểm trung bình cho mỗi sở thích:" ] }, { "cell_type": "code", "execution_count": 117, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
sepoctnovdec
hobby
Biking8.59.010.0NaN
Dancing10.09.010.0NaN
\n", "
" ], "text/plain": [ " sep oct nov dec\n", "hobby \n", "Biking 8.5 9.0 10.0 NaN\n", "Dancing 10.0 9.0 10.0 NaN" ] }, "execution_count": 117, "metadata": {}, "output_type": "execute_result" } ], "source": [ "grouped_grades.mean()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Điều đó thật dễ dàng! Lưu ý rằng các giá trị `NaN` đã bị bỏ qua khi tính rung bình." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Bảng tổng hợp\n", "Pandas hỗ trợ [bảng tổng hợp](https://en.wikipedia.org/wiki/Pivot_table) dạng bảng tính cho phép tóm tắt dữ liệu nhanh chóng. Để minh họa điều này, hãy tạo một `DataFrame` đơn giản:" ] }, { "cell_type": "code", "execution_count": 118, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
octnovdec
bob0.0NaN2.0
colinNaN1.00.0
darwin0.01.00.0
charles3.03.00.0
\n", "
" ], "text/plain": [ " oct nov dec\n", "bob 0.0 NaN 2.0\n", "colin NaN 1.0 0.0\n", "darwin 0.0 1.0 0.0\n", "charles 3.0 3.0 0.0" ] }, "execution_count": 118, "metadata": {}, "output_type": "execute_result" } ], "source": [ "bonus_points" ] }, { "cell_type": "code", "execution_count": 119, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
namemonthgradebonus
0alicesep8.0NaN
1aliceoct8.0NaN
2alicenov9.0NaN
3bobsep10.00.0
4boboct9.0NaN
5bobnov10.02.0
6charlessep4.03.0
7charlesoct11.03.0
8charlesnov5.00.0
9darwinsep9.00.0
10darwinoct10.01.0
11darwinnov11.00.0
\n", "
" ], "text/plain": [ " name month grade bonus\n", "0 alice sep 8.0 NaN\n", "1 alice oct 8.0 NaN\n", "2 alice nov 9.0 NaN\n", "3 bob sep 10.0 0.0\n", "4 bob oct 9.0 NaN\n", "5 bob nov 10.0 2.0\n", "6 charles sep 4.0 3.0\n", "7 charles oct 11.0 3.0\n", "8 charles nov 5.0 0.0\n", "9 darwin sep 9.0 0.0\n", "10 darwin oct 10.0 1.0\n", "11 darwin nov 11.0 0.0" ] }, "execution_count": 119, "metadata": {}, "output_type": "execute_result" } ], "source": [ "more_grades = final_grades_clean.stack().reset_index()\n", "more_grades.columns = [\"name\", \"month\", \"grade\"]\n", "more_grades[\"bonus\"] = [np.nan, np.nan, np.nan, 0, np.nan, 2, 3, 3, 0, 0, 1, 0]\n", "more_grades" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Bây giờ chúng ta có thể gọi hàm `pd.pivot_table()` cho `DataFrame` này, yêu cầu nhóm theo cột `name`. Theo mặc định, `pivot_table()` tính giá trị trung bình của từng cột số:" ] }, { "cell_type": "code", "execution_count": 120, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
bonusgrade
name
aliceNaN8.333333
bob1.0000009.666667
charles2.0000006.666667
darwin0.33333310.000000
\n", "
" ], "text/plain": [ " bonus grade\n", "name \n", "alice NaN 8.333333\n", "bob 1.000000 9.666667\n", "charles 2.000000 6.666667\n", "darwin 0.333333 10.000000" ] }, "execution_count": 120, "metadata": {}, "output_type": "execute_result" } ], "source": [ "pd.pivot_table(more_grades, index=\"name\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Chúng ta có thể thay đổi hàm tổng hợp bằng cách đặt đối số `aggfunc` và chúng ta cũng có thể chỉ định danh sách các cột có giá trị sẽ được tổng hợp:" ] }, { "cell_type": "code", "execution_count": 121, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
bonusgrade
name
aliceNaN9.0
bob2.010.0
charles3.011.0
darwin1.011.0
\n", "
" ], "text/plain": [ " bonus grade\n", "name \n", "alice NaN 9.0\n", "bob 2.0 10.0\n", "charles 3.0 11.0\n", "darwin 1.0 11.0" ] }, "execution_count": 121, "metadata": {}, "output_type": "execute_result" } ], "source": [ "pd.pivot_table(more_grades, index=\"name\", values=[\"grade\",\"bonus\"], aggfunc=np.max)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Chúng ta cũng có thể chỉ định `cột` để tổng hợp theo chiều ngang và yêu cầu tổng cộng cho mỗi hàng và cột bằng cách đặt `margins=True`:" ] }, { "cell_type": "code", "execution_count": 122, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
monthnovoctsepAll
name
alice9.008.08.008.333333
bob10.009.010.009.666667
charles5.0011.04.006.666667
darwin11.0010.09.0010.000000
All8.759.57.758.666667
\n", "
" ], "text/plain": [ "month nov oct sep All\n", "name \n", "alice 9.00 8.0 8.00 8.333333\n", "bob 10.00 9.0 10.00 9.666667\n", "charles 5.00 11.0 4.00 6.666667\n", "darwin 11.00 10.0 9.00 10.000000\n", "All 8.75 9.5 7.75 8.666667" ] }, "execution_count": 122, "metadata": {}, "output_type": "execute_result" } ], "source": [ "pd.pivot_table(more_grades, index=\"name\", values=\"grade\", columns=\"month\", margins=True)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Cuối cùng, chúng ta có thể chỉ định nhiều tên chỉ mục hoặc cột và pandas sẽ tạo các chỉ mục đa cấp:" ] }, { "cell_type": "code", "execution_count": 123, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
bonusgrade
namemonth
alicenovNaN9.00
octNaN8.00
sepNaN8.00
bobnov2.00010.00
octNaN9.00
sep0.00010.00
charlesnov0.0005.00
oct3.00011.00
sep3.0004.00
darwinnov0.00011.00
oct1.00010.00
sep0.0009.00
All1.1258.75
\n", "
" ], "text/plain": [ " bonus grade\n", "name month \n", "alice nov NaN 9.00\n", " oct NaN 8.00\n", " sep NaN 8.00\n", "bob nov 2.000 10.00\n", " oct NaN 9.00\n", " sep 0.000 10.00\n", "charles nov 0.000 5.00\n", " oct 3.000 11.00\n", " sep 3.000 4.00\n", "darwin nov 0.000 11.00\n", " oct 1.000 10.00\n", " sep 0.000 9.00\n", "All 1.125 8.75" ] }, "execution_count": 123, "metadata": {}, "output_type": "execute_result" } ], "source": [ "pd.pivot_table(more_grades, index=(\"name\", \"month\"), margins=True)" ] }, { "cell_type": "markdown", "metadata": { "tags": [] }, "source": [ "## Chức năng tổng quan\n", "Khi xử lý `DataFrames` lớn, sẽ rất hữu ích nếu bạn có cái nhìn tổng quan nhanh về nội dung của nó. Pandas cung cấp một số chức năng cho việc này. Trước tiên, hãy tạo một `DataFrame` lớn với sự kết hợp của các giá trị số, giá trị bị thiếu và giá trị văn bản. Lưu ý cách Jupyter chỉ hiển thị các góc của `DataFrame`:" ] }, { "cell_type": "code", "execution_count": 124, "metadata": { "tags": [] }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
ABCsome_textDEFGHI...QRSTUVWXYZ
0NaN11.044.0Blabla99.0NaN88.022.0165.0143.0...11.0NaN11.044.099.0NaN88.022.0165.0143.0
111.022.055.0Blabla110.0NaN99.033.0NaN154.0...22.011.022.055.0110.0NaN99.033.0NaN154.0
222.033.066.0Blabla121.011.0110.044.0NaN165.0...33.022.033.066.0121.011.0110.044.0NaN165.0
333.044.077.0Blabla132.022.0121.055.011.0NaN...44.033.044.077.0132.022.0121.055.011.0NaN
444.055.088.0Blabla143.033.0132.066.022.0NaN...55.044.055.088.0143.033.0132.066.022.0NaN
555.066.099.0Blabla154.044.0143.077.033.011.0...66.055.066.099.0154.044.0143.077.033.011.0
666.077.0110.0Blabla165.055.0154.088.044.022.0...77.066.077.0110.0165.055.0154.088.044.022.0
777.088.0121.0BlablaNaN66.0165.099.055.033.0...88.077.088.0121.0NaN66.0165.099.055.033.0
888.099.0132.0BlablaNaN77.0NaN110.066.044.0...99.088.099.0132.0NaN77.0NaN110.066.044.0
999.0110.0143.0Blabla11.088.0NaN121.077.055.0...110.099.0110.0143.011.088.0NaN121.077.055.0
10110.0121.0154.0Blabla22.099.011.0132.088.066.0...121.0110.0121.0154.022.099.011.0132.088.066.0
11121.0132.0165.0Blabla33.0110.022.0143.099.077.0...132.0121.0132.0165.033.0110.022.0143.099.077.0
12132.0143.0NaNBlabla44.0121.033.0154.0110.088.0...143.0132.0143.0NaN44.0121.033.0154.0110.088.0
13143.0154.0NaNBlabla55.0132.044.0165.0121.099.0...154.0143.0154.0NaN55.0132.044.0165.0121.099.0
14154.0165.011.0Blabla66.0143.055.0NaN132.0110.0...165.0154.0165.011.066.0143.055.0NaN132.0110.0
15165.0NaN22.0Blabla77.0154.066.0NaN143.0121.0...NaN165.0NaN22.077.0154.066.0NaN143.0121.0
16NaNNaN33.0Blabla88.0165.077.011.0154.0132.0...NaNNaNNaN33.088.0165.077.011.0154.0132.0
17NaN11.044.0Blabla99.0NaN88.022.0165.0143.0...11.0NaN11.044.099.0NaN88.022.0165.0143.0
1811.022.055.0Blabla110.0NaN99.033.0NaN154.0...22.011.022.055.0110.0NaN99.033.0NaN154.0
1922.033.066.0Blabla121.011.0110.044.0NaN165.0...33.022.033.066.0121.011.0110.044.0NaN165.0
2033.044.077.0Blabla132.022.0121.055.011.0NaN...44.033.044.077.0132.022.0121.055.011.0NaN
2144.055.088.0Blabla143.033.0132.066.022.0NaN...55.044.055.088.0143.033.0132.066.022.0NaN
2255.066.099.0Blabla154.044.0143.077.033.011.0...66.055.066.099.0154.044.0143.077.033.011.0
2366.077.0110.0Blabla165.055.0154.088.044.022.0...77.066.077.0110.0165.055.0154.088.044.022.0
2477.088.0121.0BlablaNaN66.0165.099.055.033.0...88.077.088.0121.0NaN66.0165.099.055.033.0
2588.099.0132.0BlablaNaN77.0NaN110.066.044.0...99.088.099.0132.0NaN77.0NaN110.066.044.0
2699.0110.0143.0Blabla11.088.0NaN121.077.055.0...110.099.0110.0143.011.088.0NaN121.077.055.0
27110.0121.0154.0Blabla22.099.011.0132.088.066.0...121.0110.0121.0154.022.099.011.0132.088.066.0
28121.0132.0165.0Blabla33.0110.022.0143.099.077.0...132.0121.0132.0165.033.0110.022.0143.099.077.0
29132.0143.0NaNBlabla44.0121.033.0154.0110.088.0...143.0132.0143.0NaN44.0121.033.0154.0110.088.0
..................................................................
997088.099.0132.0BlablaNaN77.0NaN110.066.044.0...99.088.099.0132.0NaN77.0NaN110.066.044.0
997199.0110.0143.0Blabla11.088.0NaN121.077.055.0...110.099.0110.0143.011.088.0NaN121.077.055.0
9972110.0121.0154.0Blabla22.099.011.0132.088.066.0...121.0110.0121.0154.022.099.011.0132.088.066.0
9973121.0132.0165.0Blabla33.0110.022.0143.099.077.0...132.0121.0132.0165.033.0110.022.0143.099.077.0
9974132.0143.0NaNBlabla44.0121.033.0154.0110.088.0...143.0132.0143.0NaN44.0121.033.0154.0110.088.0
9975143.0154.0NaNBlabla55.0132.044.0165.0121.099.0...154.0143.0154.0NaN55.0132.044.0165.0121.099.0
9976154.0165.011.0Blabla66.0143.055.0NaN132.0110.0...165.0154.0165.011.066.0143.055.0NaN132.0110.0
9977165.0NaN22.0Blabla77.0154.066.0NaN143.0121.0...NaN165.0NaN22.077.0154.066.0NaN143.0121.0
9978NaNNaN33.0Blabla88.0165.077.011.0154.0132.0...NaNNaNNaN33.088.0165.077.011.0154.0132.0
9979NaN11.044.0Blabla99.0NaN88.022.0165.0143.0...11.0NaN11.044.099.0NaN88.022.0165.0143.0
998011.022.055.0Blabla110.0NaN99.033.0NaN154.0...22.011.022.055.0110.0NaN99.033.0NaN154.0
998122.033.066.0Blabla121.011.0110.044.0NaN165.0...33.022.033.066.0121.011.0110.044.0NaN165.0
998233.044.077.0Blabla132.022.0121.055.011.0NaN...44.033.044.077.0132.022.0121.055.011.0NaN
998344.055.088.0Blabla143.033.0132.066.022.0NaN...55.044.055.088.0143.033.0132.066.022.0NaN
998455.066.099.0Blabla154.044.0143.077.033.011.0...66.055.066.099.0154.044.0143.077.033.011.0
998566.077.0110.0Blabla165.055.0154.088.044.022.0...77.066.077.0110.0165.055.0154.088.044.022.0
998677.088.0121.0BlablaNaN66.0165.099.055.033.0...88.077.088.0121.0NaN66.0165.099.055.033.0
998788.099.0132.0BlablaNaN77.0NaN110.066.044.0...99.088.099.0132.0NaN77.0NaN110.066.044.0
998899.0110.0143.0Blabla11.088.0NaN121.077.055.0...110.099.0110.0143.011.088.0NaN121.077.055.0
9989110.0121.0154.0Blabla22.099.011.0132.088.066.0...121.0110.0121.0154.022.099.011.0132.088.066.0
9990121.0132.0165.0Blabla33.0110.022.0143.099.077.0...132.0121.0132.0165.033.0110.022.0143.099.077.0
9991132.0143.0NaNBlabla44.0121.033.0154.0110.088.0...143.0132.0143.0NaN44.0121.033.0154.0110.088.0
9992143.0154.0NaNBlabla55.0132.044.0165.0121.099.0...154.0143.0154.0NaN55.0132.044.0165.0121.099.0
9993154.0165.011.0Blabla66.0143.055.0NaN132.0110.0...165.0154.0165.011.066.0143.055.0NaN132.0110.0
9994165.0NaN22.0Blabla77.0154.066.0NaN143.0121.0...NaN165.0NaN22.077.0154.066.0NaN143.0121.0
9995NaNNaN33.0Blabla88.0165.077.011.0154.0132.0...NaNNaNNaN33.088.0165.077.011.0154.0132.0
9996NaN11.044.0Blabla99.0NaN88.022.0165.0143.0...11.0NaN11.044.099.0NaN88.022.0165.0143.0
999711.022.055.0Blabla110.0NaN99.033.0NaN154.0...22.011.022.055.0110.0NaN99.033.0NaN154.0
999822.033.066.0Blabla121.011.0110.044.0NaN165.0...33.022.033.066.0121.011.0110.044.0NaN165.0
999933.044.077.0Blabla132.022.0121.055.011.0NaN...44.033.044.077.0132.022.0121.055.011.0NaN
\n", "

10000 rows × 27 columns

\n", "
" ], "text/plain": [ " A B C some_text D E F G H I \\\n", "0 NaN 11.0 44.0 Blabla 99.0 NaN 88.0 22.0 165.0 143.0 \n", "1 11.0 22.0 55.0 Blabla 110.0 NaN 99.0 33.0 NaN 154.0 \n", "2 22.0 33.0 66.0 Blabla 121.0 11.0 110.0 44.0 NaN 165.0 \n", "3 33.0 44.0 77.0 Blabla 132.0 22.0 121.0 55.0 11.0 NaN \n", "4 44.0 55.0 88.0 Blabla 143.0 33.0 132.0 66.0 22.0 NaN \n", "5 55.0 66.0 99.0 Blabla 154.0 44.0 143.0 77.0 33.0 11.0 \n", "6 66.0 77.0 110.0 Blabla 165.0 55.0 154.0 88.0 44.0 22.0 \n", "7 77.0 88.0 121.0 Blabla NaN 66.0 165.0 99.0 55.0 33.0 \n", "8 88.0 99.0 132.0 Blabla NaN 77.0 NaN 110.0 66.0 44.0 \n", "9 99.0 110.0 143.0 Blabla 11.0 88.0 NaN 121.0 77.0 55.0 \n", "10 110.0 121.0 154.0 Blabla 22.0 99.0 11.0 132.0 88.0 66.0 \n", "11 121.0 132.0 165.0 Blabla 33.0 110.0 22.0 143.0 99.0 77.0 \n", "12 132.0 143.0 NaN Blabla 44.0 121.0 33.0 154.0 110.0 88.0 \n", "13 143.0 154.0 NaN Blabla 55.0 132.0 44.0 165.0 121.0 99.0 \n", "14 154.0 165.0 11.0 Blabla 66.0 143.0 55.0 NaN 132.0 110.0 \n", "15 165.0 NaN 22.0 Blabla 77.0 154.0 66.0 NaN 143.0 121.0 \n", "16 NaN NaN 33.0 Blabla 88.0 165.0 77.0 11.0 154.0 132.0 \n", "17 NaN 11.0 44.0 Blabla 99.0 NaN 88.0 22.0 165.0 143.0 \n", "18 11.0 22.0 55.0 Blabla 110.0 NaN 99.0 33.0 NaN 154.0 \n", "19 22.0 33.0 66.0 Blabla 121.0 11.0 110.0 44.0 NaN 165.0 \n", "20 33.0 44.0 77.0 Blabla 132.0 22.0 121.0 55.0 11.0 NaN \n", "21 44.0 55.0 88.0 Blabla 143.0 33.0 132.0 66.0 22.0 NaN \n", "22 55.0 66.0 99.0 Blabla 154.0 44.0 143.0 77.0 33.0 11.0 \n", "23 66.0 77.0 110.0 Blabla 165.0 55.0 154.0 88.0 44.0 22.0 \n", "24 77.0 88.0 121.0 Blabla NaN 66.0 165.0 99.0 55.0 33.0 \n", "25 88.0 99.0 132.0 Blabla NaN 77.0 NaN 110.0 66.0 44.0 \n", "26 99.0 110.0 143.0 Blabla 11.0 88.0 NaN 121.0 77.0 55.0 \n", "27 110.0 121.0 154.0 Blabla 22.0 99.0 11.0 132.0 88.0 66.0 \n", "28 121.0 132.0 165.0 Blabla 33.0 110.0 22.0 143.0 99.0 77.0 \n", "29 132.0 143.0 NaN Blabla 44.0 121.0 33.0 154.0 110.0 88.0 \n", "... ... ... ... ... ... ... ... ... ... ... \n", "9970 88.0 99.0 132.0 Blabla NaN 77.0 NaN 110.0 66.0 44.0 \n", "9971 99.0 110.0 143.0 Blabla 11.0 88.0 NaN 121.0 77.0 55.0 \n", "9972 110.0 121.0 154.0 Blabla 22.0 99.0 11.0 132.0 88.0 66.0 \n", "9973 121.0 132.0 165.0 Blabla 33.0 110.0 22.0 143.0 99.0 77.0 \n", "9974 132.0 143.0 NaN Blabla 44.0 121.0 33.0 154.0 110.0 88.0 \n", "9975 143.0 154.0 NaN Blabla 55.0 132.0 44.0 165.0 121.0 99.0 \n", "9976 154.0 165.0 11.0 Blabla 66.0 143.0 55.0 NaN 132.0 110.0 \n", "9977 165.0 NaN 22.0 Blabla 77.0 154.0 66.0 NaN 143.0 121.0 \n", "9978 NaN NaN 33.0 Blabla 88.0 165.0 77.0 11.0 154.0 132.0 \n", "9979 NaN 11.0 44.0 Blabla 99.0 NaN 88.0 22.0 165.0 143.0 \n", "9980 11.0 22.0 55.0 Blabla 110.0 NaN 99.0 33.0 NaN 154.0 \n", "9981 22.0 33.0 66.0 Blabla 121.0 11.0 110.0 44.0 NaN 165.0 \n", "9982 33.0 44.0 77.0 Blabla 132.0 22.0 121.0 55.0 11.0 NaN \n", "9983 44.0 55.0 88.0 Blabla 143.0 33.0 132.0 66.0 22.0 NaN \n", "9984 55.0 66.0 99.0 Blabla 154.0 44.0 143.0 77.0 33.0 11.0 \n", "9985 66.0 77.0 110.0 Blabla 165.0 55.0 154.0 88.0 44.0 22.0 \n", "9986 77.0 88.0 121.0 Blabla NaN 66.0 165.0 99.0 55.0 33.0 \n", "9987 88.0 99.0 132.0 Blabla NaN 77.0 NaN 110.0 66.0 44.0 \n", "9988 99.0 110.0 143.0 Blabla 11.0 88.0 NaN 121.0 77.0 55.0 \n", "9989 110.0 121.0 154.0 Blabla 22.0 99.0 11.0 132.0 88.0 66.0 \n", "9990 121.0 132.0 165.0 Blabla 33.0 110.0 22.0 143.0 99.0 77.0 \n", "9991 132.0 143.0 NaN Blabla 44.0 121.0 33.0 154.0 110.0 88.0 \n", "9992 143.0 154.0 NaN Blabla 55.0 132.0 44.0 165.0 121.0 99.0 \n", "9993 154.0 165.0 11.0 Blabla 66.0 143.0 55.0 NaN 132.0 110.0 \n", "9994 165.0 NaN 22.0 Blabla 77.0 154.0 66.0 NaN 143.0 121.0 \n", "9995 NaN NaN 33.0 Blabla 88.0 165.0 77.0 11.0 154.0 132.0 \n", "9996 NaN 11.0 44.0 Blabla 99.0 NaN 88.0 22.0 165.0 143.0 \n", "9997 11.0 22.0 55.0 Blabla 110.0 NaN 99.0 33.0 NaN 154.0 \n", "9998 22.0 33.0 66.0 Blabla 121.0 11.0 110.0 44.0 NaN 165.0 \n", "9999 33.0 44.0 77.0 Blabla 132.0 22.0 121.0 55.0 11.0 NaN \n", "\n", " ... Q R S T U V W X Y \\\n", "0 ... 11.0 NaN 11.0 44.0 99.0 NaN 88.0 22.0 165.0 \n", "1 ... 22.0 11.0 22.0 55.0 110.0 NaN 99.0 33.0 NaN \n", "2 ... 33.0 22.0 33.0 66.0 121.0 11.0 110.0 44.0 NaN \n", "3 ... 44.0 33.0 44.0 77.0 132.0 22.0 121.0 55.0 11.0 \n", "4 ... 55.0 44.0 55.0 88.0 143.0 33.0 132.0 66.0 22.0 \n", "5 ... 66.0 55.0 66.0 99.0 154.0 44.0 143.0 77.0 33.0 \n", "6 ... 77.0 66.0 77.0 110.0 165.0 55.0 154.0 88.0 44.0 \n", "7 ... 88.0 77.0 88.0 121.0 NaN 66.0 165.0 99.0 55.0 \n", "8 ... 99.0 88.0 99.0 132.0 NaN 77.0 NaN 110.0 66.0 \n", "9 ... 110.0 99.0 110.0 143.0 11.0 88.0 NaN 121.0 77.0 \n", "10 ... 121.0 110.0 121.0 154.0 22.0 99.0 11.0 132.0 88.0 \n", "11 ... 132.0 121.0 132.0 165.0 33.0 110.0 22.0 143.0 99.0 \n", "12 ... 143.0 132.0 143.0 NaN 44.0 121.0 33.0 154.0 110.0 \n", "13 ... 154.0 143.0 154.0 NaN 55.0 132.0 44.0 165.0 121.0 \n", "14 ... 165.0 154.0 165.0 11.0 66.0 143.0 55.0 NaN 132.0 \n", "15 ... NaN 165.0 NaN 22.0 77.0 154.0 66.0 NaN 143.0 \n", "16 ... NaN NaN NaN 33.0 88.0 165.0 77.0 11.0 154.0 \n", "17 ... 11.0 NaN 11.0 44.0 99.0 NaN 88.0 22.0 165.0 \n", "18 ... 22.0 11.0 22.0 55.0 110.0 NaN 99.0 33.0 NaN \n", "19 ... 33.0 22.0 33.0 66.0 121.0 11.0 110.0 44.0 NaN \n", "20 ... 44.0 33.0 44.0 77.0 132.0 22.0 121.0 55.0 11.0 \n", "21 ... 55.0 44.0 55.0 88.0 143.0 33.0 132.0 66.0 22.0 \n", "22 ... 66.0 55.0 66.0 99.0 154.0 44.0 143.0 77.0 33.0 \n", "23 ... 77.0 66.0 77.0 110.0 165.0 55.0 154.0 88.0 44.0 \n", "24 ... 88.0 77.0 88.0 121.0 NaN 66.0 165.0 99.0 55.0 \n", "25 ... 99.0 88.0 99.0 132.0 NaN 77.0 NaN 110.0 66.0 \n", "26 ... 110.0 99.0 110.0 143.0 11.0 88.0 NaN 121.0 77.0 \n", "27 ... 121.0 110.0 121.0 154.0 22.0 99.0 11.0 132.0 88.0 \n", "28 ... 132.0 121.0 132.0 165.0 33.0 110.0 22.0 143.0 99.0 \n", "29 ... 143.0 132.0 143.0 NaN 44.0 121.0 33.0 154.0 110.0 \n", "... ... ... ... ... ... ... ... ... ... ... \n", "9970 ... 99.0 88.0 99.0 132.0 NaN 77.0 NaN 110.0 66.0 \n", "9971 ... 110.0 99.0 110.0 143.0 11.0 88.0 NaN 121.0 77.0 \n", "9972 ... 121.0 110.0 121.0 154.0 22.0 99.0 11.0 132.0 88.0 \n", "9973 ... 132.0 121.0 132.0 165.0 33.0 110.0 22.0 143.0 99.0 \n", "9974 ... 143.0 132.0 143.0 NaN 44.0 121.0 33.0 154.0 110.0 \n", "9975 ... 154.0 143.0 154.0 NaN 55.0 132.0 44.0 165.0 121.0 \n", "9976 ... 165.0 154.0 165.0 11.0 66.0 143.0 55.0 NaN 132.0 \n", "9977 ... NaN 165.0 NaN 22.0 77.0 154.0 66.0 NaN 143.0 \n", "9978 ... NaN NaN NaN 33.0 88.0 165.0 77.0 11.0 154.0 \n", "9979 ... 11.0 NaN 11.0 44.0 99.0 NaN 88.0 22.0 165.0 \n", "9980 ... 22.0 11.0 22.0 55.0 110.0 NaN 99.0 33.0 NaN \n", "9981 ... 33.0 22.0 33.0 66.0 121.0 11.0 110.0 44.0 NaN \n", "9982 ... 44.0 33.0 44.0 77.0 132.0 22.0 121.0 55.0 11.0 \n", "9983 ... 55.0 44.0 55.0 88.0 143.0 33.0 132.0 66.0 22.0 \n", "9984 ... 66.0 55.0 66.0 99.0 154.0 44.0 143.0 77.0 33.0 \n", "9985 ... 77.0 66.0 77.0 110.0 165.0 55.0 154.0 88.0 44.0 \n", "9986 ... 88.0 77.0 88.0 121.0 NaN 66.0 165.0 99.0 55.0 \n", "9987 ... 99.0 88.0 99.0 132.0 NaN 77.0 NaN 110.0 66.0 \n", "9988 ... 110.0 99.0 110.0 143.0 11.0 88.0 NaN 121.0 77.0 \n", "9989 ... 121.0 110.0 121.0 154.0 22.0 99.0 11.0 132.0 88.0 \n", "9990 ... 132.0 121.0 132.0 165.0 33.0 110.0 22.0 143.0 99.0 \n", "9991 ... 143.0 132.0 143.0 NaN 44.0 121.0 33.0 154.0 110.0 \n", "9992 ... 154.0 143.0 154.0 NaN 55.0 132.0 44.0 165.0 121.0 \n", "9993 ... 165.0 154.0 165.0 11.0 66.0 143.0 55.0 NaN 132.0 \n", "9994 ... NaN 165.0 NaN 22.0 77.0 154.0 66.0 NaN 143.0 \n", "9995 ... NaN NaN NaN 33.0 88.0 165.0 77.0 11.0 154.0 \n", "9996 ... 11.0 NaN 11.0 44.0 99.0 NaN 88.0 22.0 165.0 \n", "9997 ... 22.0 11.0 22.0 55.0 110.0 NaN 99.0 33.0 NaN \n", "9998 ... 33.0 22.0 33.0 66.0 121.0 11.0 110.0 44.0 NaN \n", "9999 ... 44.0 33.0 44.0 77.0 132.0 22.0 121.0 55.0 11.0 \n", "\n", " Z \n", "0 143.0 \n", "1 154.0 \n", "2 165.0 \n", "3 NaN \n", "4 NaN \n", "5 11.0 \n", "6 22.0 \n", "7 33.0 \n", "8 44.0 \n", "9 55.0 \n", "10 66.0 \n", "11 77.0 \n", "12 88.0 \n", "13 99.0 \n", "14 110.0 \n", "15 121.0 \n", "16 132.0 \n", "17 143.0 \n", "18 154.0 \n", "19 165.0 \n", "20 NaN \n", "21 NaN \n", "22 11.0 \n", "23 22.0 \n", "24 33.0 \n", "25 44.0 \n", "26 55.0 \n", "27 66.0 \n", "28 77.0 \n", "29 88.0 \n", "... ... \n", "9970 44.0 \n", "9971 55.0 \n", "9972 66.0 \n", "9973 77.0 \n", "9974 88.0 \n", "9975 99.0 \n", "9976 110.0 \n", "9977 121.0 \n", "9978 132.0 \n", "9979 143.0 \n", "9980 154.0 \n", "9981 165.0 \n", "9982 NaN \n", "9983 NaN \n", "9984 11.0 \n", "9985 22.0 \n", "9986 33.0 \n", "9987 44.0 \n", "9988 55.0 \n", "9989 66.0 \n", "9990 77.0 \n", "9991 88.0 \n", "9992 99.0 \n", "9993 110.0 \n", "9994 121.0 \n", "9995 132.0 \n", "9996 143.0 \n", "9997 154.0 \n", "9998 165.0 \n", "9999 NaN \n", "\n", "[10000 rows x 27 columns]" ] }, "execution_count": 124, "metadata": {}, "output_type": "execute_result" } ], "source": [ "much_data = np.fromfunction(lambda x,y: (x+y*y)%17*11, (10000, 26))\n", "large_df = pd.DataFrame(much_data, columns=list(\"ABCDEFGHIJKLMNOPQRSTUVWXYZ\"))\n", "large_df[large_df % 16 == 0] = np.nan\n", "large_df.insert(3,\"some_text\", \"Blabla\")\n", "large_df" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Phương thức `head()` trả về 5 hàng trên cùng:" ] }, { "cell_type": "code", "execution_count": 125, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
ABCsome_textDEFGHI...QRSTUVWXYZ
0NaN11.044.0Blabla99.0NaN88.022.0165.0143.0...11.0NaN11.044.099.0NaN88.022.0165.0143.0
111.022.055.0Blabla110.0NaN99.033.0NaN154.0...22.011.022.055.0110.0NaN99.033.0NaN154.0
222.033.066.0Blabla121.011.0110.044.0NaN165.0...33.022.033.066.0121.011.0110.044.0NaN165.0
333.044.077.0Blabla132.022.0121.055.011.0NaN...44.033.044.077.0132.022.0121.055.011.0NaN
444.055.088.0Blabla143.033.0132.066.022.0NaN...55.044.055.088.0143.033.0132.066.022.0NaN
\n", "

5 rows × 27 columns

\n", "
" ], "text/plain": [ " A B C some_text D E F G H I ... \\\n", "0 NaN 11.0 44.0 Blabla 99.0 NaN 88.0 22.0 165.0 143.0 ... \n", "1 11.0 22.0 55.0 Blabla 110.0 NaN 99.0 33.0 NaN 154.0 ... \n", "2 22.0 33.0 66.0 Blabla 121.0 11.0 110.0 44.0 NaN 165.0 ... \n", "3 33.0 44.0 77.0 Blabla 132.0 22.0 121.0 55.0 11.0 NaN ... \n", "4 44.0 55.0 88.0 Blabla 143.0 33.0 132.0 66.0 22.0 NaN ... \n", "\n", " Q R S T U V W X Y Z \n", "0 11.0 NaN 11.0 44.0 99.0 NaN 88.0 22.0 165.0 143.0 \n", "1 22.0 11.0 22.0 55.0 110.0 NaN 99.0 33.0 NaN 154.0 \n", "2 33.0 22.0 33.0 66.0 121.0 11.0 110.0 44.0 NaN 165.0 \n", "3 44.0 33.0 44.0 77.0 132.0 22.0 121.0 55.0 11.0 NaN \n", "4 55.0 44.0 55.0 88.0 143.0 33.0 132.0 66.0 22.0 NaN \n", "\n", "[5 rows x 27 columns]" ] }, "execution_count": 125, "metadata": {}, "output_type": "execute_result" } ], "source": [ "large_df.head()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Tất nhiên, cũng có chức năng `tail()` để xem 5 hàng dưới cùng. Bạn cũng có thể chỉ định số hàng bạn muốn:" ] }, { "cell_type": "code", "execution_count": 126, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
ABCsome_textDEFGHI...QRSTUVWXYZ
999822.033.066.0Blabla121.011.0110.044.0NaN165.0...33.022.033.066.0121.011.0110.044.0NaN165.0
999933.044.077.0Blabla132.022.0121.055.011.0NaN...44.033.044.077.0132.022.0121.055.011.0NaN
\n", "

2 rows × 27 columns

\n", "
" ], "text/plain": [ " A B C some_text D E F G H I \\\n", "9998 22.0 33.0 66.0 Blabla 121.0 11.0 110.0 44.0 NaN 165.0 \n", "9999 33.0 44.0 77.0 Blabla 132.0 22.0 121.0 55.0 11.0 NaN \n", "\n", " ... Q R S T U V W X Y Z \n", "9998 ... 33.0 22.0 33.0 66.0 121.0 11.0 110.0 44.0 NaN 165.0 \n", "9999 ... 44.0 33.0 44.0 77.0 132.0 22.0 121.0 55.0 11.0 NaN \n", "\n", "[2 rows x 27 columns]" ] }, "execution_count": 126, "metadata": {}, "output_type": "execute_result" } ], "source": [ "large_df.tail(n=2)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Phương thức `info()` in ra bản tóm tắt nội dung của từng cột:" ] }, { "cell_type": "code", "execution_count": 127, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "\n", "RangeIndex: 10000 entries, 0 to 9999\n", "Data columns (total 27 columns):\n", "A 8823 non-null float64\n", "B 8824 non-null float64\n", "C 8824 non-null float64\n", "some_text 10000 non-null object\n", "D 8824 non-null float64\n", "E 8822 non-null float64\n", "F 8824 non-null float64\n", "G 8824 non-null float64\n", "H 8822 non-null float64\n", "I 8823 non-null float64\n", "J 8823 non-null float64\n", "K 8822 non-null float64\n", "L 8824 non-null float64\n", "M 8824 non-null float64\n", "N 8822 non-null float64\n", "O 8824 non-null float64\n", "P 8824 non-null float64\n", "Q 8824 non-null float64\n", "R 8823 non-null float64\n", "S 8824 non-null float64\n", "T 8824 non-null float64\n", "U 8824 non-null float64\n", "V 8822 non-null float64\n", "W 8824 non-null float64\n", "X 8824 non-null float64\n", "Y 8822 non-null float64\n", "Z 8823 non-null float64\n", "dtypes: float64(26), object(1)\n", "memory usage: 2.1+ MB\n" ] } ], "source": [ "large_df.info()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Cuối cùng, phương thức `describe()` cung cấp một cái nhìn tổng quan về các giá trị tổng hợp chính trên mỗi cột:\n", "* `count`: số giá trị khác null (không phải NaN)\n", "* `mean`: giá trị trung bình của các giá trị khác null\n", "* `std`: [độ lệch chuẩn](https://en.wikipedia.org/wiki/Standard_deviation) của các giá trị khác null\n", "* `min`: giá trị khác null tối thiểu\n", "* `25%`, `50%`, `75%`: [phần trăm thứ 25, 50 và 75](https://en.wikipedia.org/wiki/Percentile) của các giá trị khác null\n", "* `max`: giá trị lớn nhất khác null" ] }, { "cell_type": "code", "execution_count": 128, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
ABCDEFGHIJ...QRSTUVWXYZ
count8823.0000008824.0000008824.0000008824.0000008822.0000008824.0000008824.0000008822.0000008823.0000008823.000000...8824.0000008823.0000008824.0000008824.0000008824.0000008822.0000008824.0000008824.0000008822.0000008823.000000
mean87.97755987.97257587.98753488.01246687.98379188.00748087.97756188.00000088.02244188.022441...87.97257587.97755987.97257587.98753488.01246687.98379188.00748087.97756188.00000088.022441
std47.53591147.53552347.52167947.52167947.53500147.51937147.52975547.53687947.53591147.535911...47.53552347.53591147.53552347.52167947.52167947.53500147.51937147.52975547.53687947.535911
min11.00000011.00000011.00000011.00000011.00000011.00000011.00000011.00000011.00000011.000000...11.00000011.00000011.00000011.00000011.00000011.00000011.00000011.00000011.00000011.000000
25%44.00000044.00000044.00000044.00000044.00000044.00000044.00000044.00000044.00000044.000000...44.00000044.00000044.00000044.00000044.00000044.00000044.00000044.00000044.00000044.000000
50%88.00000088.00000088.00000088.00000088.00000088.00000088.00000088.00000088.00000088.000000...88.00000088.00000088.00000088.00000088.00000088.00000088.00000088.00000088.00000088.000000
75%132.000000132.000000132.000000132.000000132.000000132.000000132.000000132.000000132.000000132.000000...132.000000132.000000132.000000132.000000132.000000132.000000132.000000132.000000132.000000132.000000
max165.000000165.000000165.000000165.000000165.000000165.000000165.000000165.000000165.000000165.000000...165.000000165.000000165.000000165.000000165.000000165.000000165.000000165.000000165.000000165.000000
\n", "

8 rows × 26 columns

\n", "
" ], "text/plain": [ " A B C D E \\\n", "count 8823.000000 8824.000000 8824.000000 8824.000000 8822.000000 \n", "mean 87.977559 87.972575 87.987534 88.012466 87.983791 \n", "std 47.535911 47.535523 47.521679 47.521679 47.535001 \n", "min 11.000000 11.000000 11.000000 11.000000 11.000000 \n", "25% 44.000000 44.000000 44.000000 44.000000 44.000000 \n", "50% 88.000000 88.000000 88.000000 88.000000 88.000000 \n", "75% 132.000000 132.000000 132.000000 132.000000 132.000000 \n", "max 165.000000 165.000000 165.000000 165.000000 165.000000 \n", "\n", " F G H I J \\\n", "count 8824.000000 8824.000000 8822.000000 8823.000000 8823.000000 \n", "mean 88.007480 87.977561 88.000000 88.022441 88.022441 \n", "std 47.519371 47.529755 47.536879 47.535911 47.535911 \n", "min 11.000000 11.000000 11.000000 11.000000 11.000000 \n", "25% 44.000000 44.000000 44.000000 44.000000 44.000000 \n", "50% 88.000000 88.000000 88.000000 88.000000 88.000000 \n", "75% 132.000000 132.000000 132.000000 132.000000 132.000000 \n", "max 165.000000 165.000000 165.000000 165.000000 165.000000 \n", "\n", " ... Q R S T \\\n", "count ... 8824.000000 8823.000000 8824.000000 8824.000000 \n", "mean ... 87.972575 87.977559 87.972575 87.987534 \n", "std ... 47.535523 47.535911 47.535523 47.521679 \n", "min ... 11.000000 11.000000 11.000000 11.000000 \n", "25% ... 44.000000 44.000000 44.000000 44.000000 \n", "50% ... 88.000000 88.000000 88.000000 88.000000 \n", "75% ... 132.000000 132.000000 132.000000 132.000000 \n", "max ... 165.000000 165.000000 165.000000 165.000000 \n", "\n", " U V W X Y \\\n", "count 8824.000000 8822.000000 8824.000000 8824.000000 8822.000000 \n", "mean 88.012466 87.983791 88.007480 87.977561 88.000000 \n", "std 47.521679 47.535001 47.519371 47.529755 47.536879 \n", "min 11.000000 11.000000 11.000000 11.000000 11.000000 \n", "25% 44.000000 44.000000 44.000000 44.000000 44.000000 \n", "50% 88.000000 88.000000 88.000000 88.000000 88.000000 \n", "75% 132.000000 132.000000 132.000000 132.000000 132.000000 \n", "max 165.000000 165.000000 165.000000 165.000000 165.000000 \n", "\n", " Z \n", "count 8823.000000 \n", "mean 88.022441 \n", "std 47.535911 \n", "min 11.000000 \n", "25% 44.000000 \n", "50% 88.000000 \n", "75% 132.000000 \n", "max 165.000000 \n", "\n", "[8 rows x 26 columns]" ] }, "execution_count": 128, "metadata": {}, "output_type": "execute_result" } ], "source": [ "large_df.describe()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "# Lưu & nạp\n", "Pandas có thể lưu `DataFrame` vào các chương trình phụ trợ khác nhau, bao gồm các định dạng tệp như CSV, Excel, JSON, HTML và HDF5 hoặc vào cơ sở dữ liệu SQL. Hãy tạo một `DataFrame` để chứng minh điều này:" ] }, { "cell_type": "code", "execution_count": 129, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
hobbyweightbirthyearchildren
aliceBiking68.51985NaN
bobDancing83.119843.0
\n", "
" ], "text/plain": [ " hobby weight birthyear children\n", "alice Biking 68.5 1985 NaN\n", "bob Dancing 83.1 1984 3.0" ] }, "execution_count": 129, "metadata": {}, "output_type": "execute_result" } ], "source": [ "my_df = pd.DataFrame(\n", " [[\"Biking\", 68.5, 1985, np.nan], [\"Dancing\", 83.1, 1984, 3]], \n", " columns=[\"hobby\",\"weight\",\"birthyear\",\"children\"],\n", " index=[\"alice\", \"bob\"]\n", ")\n", "my_df" ] }, { "cell_type": "markdown", "metadata": { "tags": [] }, "source": [ "## Lưu\n", "Hãy lưu nó dưới dạng CSV, HTML và JSON:" ] }, { "cell_type": "code", "execution_count": 130, "metadata": {}, "outputs": [], "source": [ "my_df.to_csv(\"my_df.csv\")\n", "my_df.to_html(\"my_df.html\")\n", "my_df.to_json(\"my_df.json\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Xong! Hãy xem qua những gì đã được lưu:" ] }, { "cell_type": "code", "execution_count": 131, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "# my_df.csv\n", ",hobby,weight,birthyear,children\n", "alice,Biking,68.5,1985,\n", "bob,Dancing,83.1,1984,3.0\n", "\n", "\n", "# my_df.html\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
hobbyweightbirthyearchildren
aliceBiking68.51985NaN
bobDancing83.119843.0
\n", "\n", "# my_df.json\n", "{\"hobby\":{\"alice\":\"Biking\",\"bob\":\"Dancing\"},\"weight\":{\"alice\":68.5,\"bob\":83.1},\"birthyear\":{\"alice\":1985,\"bob\":1984},\"children\":{\"alice\":null,\"bob\":3.0}}\n", "\n" ] } ], "source": [ "for filename in (\"my_df.csv\", \"my_df.html\", \"my_df.json\"):\n", " print(\"#\", filename)\n", " with open(filename, \"rt\") as f:\n", " print(f.read())\n", " print()\n" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Lưu ý rằng chỉ mục được lưu dưới dạng cột đầu tiên (không có tên) trong tệp CSV, dưới dạng thẻ `` trong HTML và dưới dạng khóa trong JSON.\n", "\n", "Lưu vào các định dạng khác hoạt động rất giống nhau, nhưng một số định dạng yêu cầu cài đặt thêm thư viện. Ví dụ: lưu vào Excel yêu cầu thư viện openpyxl:" ] }, { "cell_type": "code", "execution_count": 132, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "No module named 'openpyxl'\n" ] } ], "source": [ "try:\n", " my_df.to_excel(\"my_df.xlsx\", sheet_name='People')\n", "except ImportError as e:\n", " print(e)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Nạp\n", "Bây giờ, hãy nạp lại tệp CSV của chúng ta vào `DataFrame`:" ] }, { "cell_type": "code", "execution_count": 133, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
hobbyweightbirthyearchildren
aliceBiking68.51985NaN
bobDancing83.119843.0
\n", "
" ], "text/plain": [ " hobby weight birthyear children\n", "alice Biking 68.5 1985 NaN\n", "bob Dancing 83.1 1984 3.0" ] }, "execution_count": 133, "metadata": {}, "output_type": "execute_result" } ], "source": [ "my_df_loaded = pd.read_csv(\"my_df.csv\", index_col=0)\n", "my_df_loaded" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Như bạn có thể đoán, cũng có các hàm `read_json`, `read_html`, `read_excel` tương tự. Chúng ta cũng có thể đọc dữ liệu trực tiếp từ Internet. Ví dụ: hãy tải 1.000 thành phố nằm đầu của Hoa Kỳ từ github:" ] }, { "cell_type": "code", "execution_count": 134, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
StatePopulationlatlon
City
MarysvilleWashington6326948.051764-122.177082
PerrisCalifornia7232633.782519-117.228648
ClevelandOhio39011341.499320-81.694361
WorcesterMassachusetts18254442.262593-71.802293
ColumbiaSouth Carolina13335834.000710-81.034814
\n", "
" ], "text/plain": [ " State Population lat lon\n", "City \n", "Marysville Washington 63269 48.051764 -122.177082\n", "Perris California 72326 33.782519 -117.228648\n", "Cleveland Ohio 390113 41.499320 -81.694361\n", "Worcester Massachusetts 182544 42.262593 -71.802293\n", "Columbia South Carolina 133358 34.000710 -81.034814" ] }, "execution_count": 134, "metadata": {}, "output_type": "execute_result" } ], "source": [ "us_cities = None\n", "try:\n", " csv_url = \"https://raw.githubusercontent.com/plotly/datasets/master/us-cities-top-1k.csv\"\n", " us_cities = pd.read_csv(csv_url, index_col=0)\n", " us_cities = us_cities.head()\n", "except IOError as e:\n", " print(e)\n", "us_cities" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Có nhiều tùy chọn hơn, đặc biệt là về định dạng ngày giờ. Hãy xem [tài liệu](http://pandas.pydata.org/pandas-docs/stable/io.html) để biết thêm chi tiết." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "# Kết hợp `DataFrame`\n", "\n", "## Phép gộp giống như SQL\n", "Một tính năng mạnh mẽ của pandas là khả năng thực hiện các phép gộp giống SQL trên `DataFrame`. Các kiểu gộp khác nhau được hỗ trợ: gộp bên trong, gộp ngoài trái/phải và gộp đầy đủ. Để minh họa điều này, hãy bắt đầu bằng cách tạo một vài `DataFrame` đơn giản:" ] }, { "cell_type": "code", "execution_count": 135, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
statecitylatlng
0CASan Francisco37.781334-122.416728
1NYNew York40.705649-74.008344
2FLMiami25.791100-80.320733
3OHCleveland41.473508-81.739791
4UTSalt Lake City40.755851-111.896657
\n", "
" ], "text/plain": [ " state city lat lng\n", "0 CA San Francisco 37.781334 -122.416728\n", "1 NY New York 40.705649 -74.008344\n", "2 FL Miami 25.791100 -80.320733\n", "3 OH Cleveland 41.473508 -81.739791\n", "4 UT Salt Lake City 40.755851 -111.896657" ] }, "execution_count": 135, "metadata": {}, "output_type": "execute_result" } ], "source": [ "city_loc = pd.DataFrame(\n", " [\n", " [\"CA\", \"San Francisco\", 37.781334, -122.416728],\n", " [\"NY\", \"New York\", 40.705649, -74.008344],\n", " [\"FL\", \"Miami\", 25.791100, -80.320733],\n", " [\"OH\", \"Cleveland\", 41.473508, -81.739791],\n", " [\"UT\", \"Salt Lake City\", 40.755851, -111.896657]\n", " ], columns=[\"state\", \"city\", \"lat\", \"lng\"])\n", "city_loc" ] }, { "cell_type": "code", "execution_count": 136, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
populationcitystate
3808976San FranciscoCalifornia
48363710New YorkNew-York
5413201MiamiFlorida
62242193HoustonTexas
\n", "
" ], "text/plain": [ " population city state\n", "3 808976 San Francisco California\n", "4 8363710 New York New-York\n", "5 413201 Miami Florida\n", "6 2242193 Houston Texas" ] }, "execution_count": 136, "metadata": {}, "output_type": "execute_result" } ], "source": [ "city_pop = pd.DataFrame(\n", " [\n", " [808976, \"San Francisco\", \"California\"],\n", " [8363710, \"New York\", \"New-York\"],\n", " [413201, \"Miami\", \"Florida\"],\n", " [2242193, \"Houston\", \"Texas\"]\n", " ], index=[3,4,5,6], columns=[\"population\", \"city\", \"state\"])\n", "city_pop" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Bây giờ, hãy gộp các `DataFrame` này bằng hàm `merge()`:" ] }, { "cell_type": "code", "execution_count": 137, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
state_xcitylatlngpopulationstate_y
0CASan Francisco37.781334-122.416728808976California
1NYNew York40.705649-74.0083448363710New-York
2FLMiami25.791100-80.320733413201Florida
\n", "
" ], "text/plain": [ " state_x city lat lng population state_y\n", "0 CA San Francisco 37.781334 -122.416728 808976 California\n", "1 NY New York 40.705649 -74.008344 8363710 New-York\n", "2 FL Miami 25.791100 -80.320733 413201 Florida" ] }, "execution_count": 137, "metadata": {}, "output_type": "execute_result" } ], "source": [ "pd.merge(left=city_loc, right=city_pop, on=\"city\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Lưu ý rằng cả `DataFrame` đều có một cột có tên là `state`, do đó, kết quả là chúng được đổi tên thành `state_x` và `state_y`.\n", "\n", "Ngoài ra, hãy lưu ý rằng Cleveland, Thành phố Salt Lake và Houston đã bị loại bỏ vì chúng không tồn tại trong *cả hai* `DataFrame`. Điều này tương đương với SQL `INNER JOIN`. Nếu bạn muốn `FULL OUTER JOIN`, trong đó không có thành phố nào bị loại bỏ và các giá trị `NaN` được thêm vào, bạn phải chỉ định `how=\"outer\"`:" ] }, { "cell_type": "code", "execution_count": 138, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
state_xcitylatlngpopulationstate_y
0CASan Francisco37.781334-122.416728808976.0California
1NYNew York40.705649-74.0083448363710.0New-York
2FLMiami25.791100-80.320733413201.0Florida
3OHCleveland41.473508-81.739791NaNNaN
4UTSalt Lake City40.755851-111.896657NaNNaN
5NaNHoustonNaNNaN2242193.0Texas
\n", "
" ], "text/plain": [ " state_x city lat lng population state_y\n", "0 CA San Francisco 37.781334 -122.416728 808976.0 California\n", "1 NY New York 40.705649 -74.008344 8363710.0 New-York\n", "2 FL Miami 25.791100 -80.320733 413201.0 Florida\n", "3 OH Cleveland 41.473508 -81.739791 NaN NaN\n", "4 UT Salt Lake City 40.755851 -111.896657 NaN NaN\n", "5 NaN Houston NaN NaN 2242193.0 Texas" ] }, "execution_count": 138, "metadata": {}, "output_type": "execute_result" } ], "source": [ "all_cities = pd.merge(left=city_loc, right=city_pop, on=\"city\", how=\"outer\")\n", "all_cities" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Tất nhiên, `LEFT OUTER JOIN` cũng khả dụng bằng cách đặt `how=\"left\"`: chỉ các thành phố có trong `DataFrame` bên trái mới có kết quả. Tương tự, với `how=\"right\"`, chỉ các thành phố ở bên phải `DataFrame` mới xuất hiện trong kết quả. Ví dụ:" ] }, { "cell_type": "code", "execution_count": 139, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
state_xcitylatlngpopulationstate_y
0CASan Francisco37.781334-122.416728808976California
1NYNew York40.705649-74.0083448363710New-York
2FLMiami25.791100-80.320733413201Florida
3NaNHoustonNaNNaN2242193Texas
\n", "
" ], "text/plain": [ " state_x city lat lng population state_y\n", "0 CA San Francisco 37.781334 -122.416728 808976 California\n", "1 NY New York 40.705649 -74.008344 8363710 New-York\n", "2 FL Miami 25.791100 -80.320733 413201 Florida\n", "3 NaN Houston NaN NaN 2242193 Texas" ] }, "execution_count": 139, "metadata": {}, "output_type": "execute_result" } ], "source": [ "pd.merge(left=city_loc, right=city_pop, on=\"city\", how=\"right\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Nếu khóa gộp nằm trong một (hoặc cả hai) chỉ mục của `DataFrame`, thì bạn phải sử dụng `left_index=True` và/hoặc `right_index=True`. Nếu các tên cột chính khác nhau, bạn phải sử dụng `left_on` và `right_on`. Ví dụ:" ] }, { "cell_type": "code", "execution_count": 140, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
state_xcitylatlngpopulationnamestate_y
0CASan Francisco37.781334-122.416728808976San FranciscoCalifornia
1NYNew York40.705649-74.0083448363710New YorkNew-York
2FLMiami25.791100-80.320733413201MiamiFlorida
\n", "
" ], "text/plain": [ " state_x city lat lng population name \\\n", "0 CA San Francisco 37.781334 -122.416728 808976 San Francisco \n", "1 NY New York 40.705649 -74.008344 8363710 New York \n", "2 FL Miami 25.791100 -80.320733 413201 Miami \n", "\n", " state_y \n", "0 California \n", "1 New-York \n", "2 Florida " ] }, "execution_count": 140, "metadata": {}, "output_type": "execute_result" } ], "source": [ "city_pop2 = city_pop.copy()\n", "city_pop2.columns = [\"population\", \"name\", \"state\"]\n", "pd.merge(left=city_loc, right=city_pop2, left_on=\"city\", right_on=\"name\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Nối\n", "Thay vì gộp `DataFrame`, chúng ta có thể chỉ muốn nối chúng. Ta có thể sử dụng `concat()` cho mục đích này:" ] }, { "cell_type": "code", "execution_count": 141, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
citylatlngpopulationstate
0San Francisco37.781334-122.416728NaNCA
1New York40.705649-74.008344NaNNY
2Miami25.791100-80.320733NaNFL
3Cleveland41.473508-81.739791NaNOH
4Salt Lake City40.755851-111.896657NaNUT
3San FranciscoNaNNaN808976.0California
4New YorkNaNNaN8363710.0New-York
5MiamiNaNNaN413201.0Florida
6HoustonNaNNaN2242193.0Texas
\n", "
" ], "text/plain": [ " city lat lng population state\n", "0 San Francisco 37.781334 -122.416728 NaN CA\n", "1 New York 40.705649 -74.008344 NaN NY\n", "2 Miami 25.791100 -80.320733 NaN FL\n", "3 Cleveland 41.473508 -81.739791 NaN OH\n", "4 Salt Lake City 40.755851 -111.896657 NaN UT\n", "3 San Francisco NaN NaN 808976.0 California\n", "4 New York NaN NaN 8363710.0 New-York\n", "5 Miami NaN NaN 413201.0 Florida\n", "6 Houston NaN NaN 2242193.0 Texas" ] }, "execution_count": 141, "metadata": {}, "output_type": "execute_result" } ], "source": [ "result_concat = pd.concat([city_loc, city_pop])\n", "result_concat" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Lưu ý rằng thao tác này đã căn chỉnh dữ liệu theo chiều ngang (theo cột) nhưng không theo chiều dọc (theo hàng). Trong ví dụ này, chúng ta kết thúc bằng nhiều hàng có cùng chỉ mục (ví dụ: 3). Pandas xử lý việc này khá duyên dáng:" ] }, { "cell_type": "code", "execution_count": 142, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
citylatlngpopulationstate
3Cleveland41.473508-81.739791NaNOH
3San FranciscoNaNNaN808976.0California
\n", "
" ], "text/plain": [ " city lat lng population state\n", "3 Cleveland 41.473508 -81.739791 NaN OH\n", "3 San Francisco NaN NaN 808976.0 California" ] }, "execution_count": 142, "metadata": {}, "output_type": "execute_result" } ], "source": [ "result_concat.loc[3]" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Hoặc bạn có thể yêu cầu pandas bỏ qua chỉ mục:" ] }, { "cell_type": "code", "execution_count": 143, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
citylatlngpopulationstate
0San Francisco37.781334-122.416728NaNCA
1New York40.705649-74.008344NaNNY
2Miami25.791100-80.320733NaNFL
3Cleveland41.473508-81.739791NaNOH
4Salt Lake City40.755851-111.896657NaNUT
5San FranciscoNaNNaN808976.0California
6New YorkNaNNaN8363710.0New-York
7MiamiNaNNaN413201.0Florida
8HoustonNaNNaN2242193.0Texas
\n", "
" ], "text/plain": [ " city lat lng population state\n", "0 San Francisco 37.781334 -122.416728 NaN CA\n", "1 New York 40.705649 -74.008344 NaN NY\n", "2 Miami 25.791100 -80.320733 NaN FL\n", "3 Cleveland 41.473508 -81.739791 NaN OH\n", "4 Salt Lake City 40.755851 -111.896657 NaN UT\n", "5 San Francisco NaN NaN 808976.0 California\n", "6 New York NaN NaN 8363710.0 New-York\n", "7 Miami NaN NaN 413201.0 Florida\n", "8 Houston NaN NaN 2242193.0 Texas" ] }, "execution_count": 143, "metadata": {}, "output_type": "execute_result" } ], "source": [ "pd.concat([city_loc, city_pop], ignore_index=True)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Lưu ý rằng khi một cột không tồn tại trong `DataFrame`, nó sẽ hoạt động như thể nó chứa đầy các giá trị `NaN`. Nếu chúng ta đặt `join=\"inner\"`, thì chỉ các cột tồn tại trong *cả hai* `DataFrame` được trả về:" ] }, { "cell_type": "code", "execution_count": 144, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
statecity
0CASan Francisco
1NYNew York
2FLMiami
3OHCleveland
4UTSalt Lake City
3CaliforniaSan Francisco
4New-YorkNew York
5FloridaMiami
6TexasHouston
\n", "
" ], "text/plain": [ " state city\n", "0 CA San Francisco\n", "1 NY New York\n", "2 FL Miami\n", "3 OH Cleveland\n", "4 UT Salt Lake City\n", "3 California San Francisco\n", "4 New-York New York\n", "5 Florida Miami\n", "6 Texas Houston" ] }, "execution_count": 144, "metadata": {}, "output_type": "execute_result" } ], "source": [ "pd.concat([city_loc, city_pop], join=\"inner\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Bạn có thể nối `DataFrame` theo chiều ngang thay vì theo chiều dọc bằng cách đặt `axis=1`:" ] }, { "cell_type": "code", "execution_count": 145, "metadata": { "scrolled": true }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
statecitylatlngpopulationcitystate
0CASan Francisco37.781334-122.416728NaNNaNNaN
1NYNew York40.705649-74.008344NaNNaNNaN
2FLMiami25.791100-80.320733NaNNaNNaN
3OHCleveland41.473508-81.739791808976.0San FranciscoCalifornia
4UTSalt Lake City40.755851-111.8966578363710.0New YorkNew-York
5NaNNaNNaNNaN413201.0MiamiFlorida
6NaNNaNNaNNaN2242193.0HoustonTexas
\n", "
" ], "text/plain": [ " state city lat lng population city \\\n", "0 CA San Francisco 37.781334 -122.416728 NaN NaN \n", "1 NY New York 40.705649 -74.008344 NaN NaN \n", "2 FL Miami 25.791100 -80.320733 NaN NaN \n", "3 OH Cleveland 41.473508 -81.739791 808976.0 San Francisco \n", "4 UT Salt Lake City 40.755851 -111.896657 8363710.0 New York \n", "5 NaN NaN NaN NaN 413201.0 Miami \n", "6 NaN NaN NaN NaN 2242193.0 Houston \n", "\n", " state \n", "0 NaN \n", "1 NaN \n", "2 NaN \n", "3 California \n", "4 New-York \n", "5 Florida \n", "6 Texas " ] }, "execution_count": 145, "metadata": {}, "output_type": "execute_result" } ], "source": [ "pd.concat([city_loc, city_pop], axis=1)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Trong trường hợp này, nó thực sự không có nhiều ý nghĩa bởi vì các chỉ số không thẳng hàng (ví dụ: Cleveland và San Francisco nằm trên cùng một hàng, vì chúng có chung nhãn chỉ mục `3`). Vì vậy, hãy lập chỉ mục lại `DataFrame` theo tên thành phố trước khi nối:" ] }, { "cell_type": "code", "execution_count": 146, "metadata": { "scrolled": true }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
statelatlngpopulationstate
ClevelandOH41.473508-81.739791NaNNaN
HoustonNaNNaNNaN2242193.0Texas
MiamiFL25.791100-80.320733413201.0Florida
New YorkNY40.705649-74.0083448363710.0New-York
Salt Lake CityUT40.755851-111.896657NaNNaN
San FranciscoCA37.781334-122.416728808976.0California
\n", "
" ], "text/plain": [ " state lat lng population state\n", "Cleveland OH 41.473508 -81.739791 NaN NaN\n", "Houston NaN NaN NaN 2242193.0 Texas\n", "Miami FL 25.791100 -80.320733 413201.0 Florida\n", "New York NY 40.705649 -74.008344 8363710.0 New-York\n", "Salt Lake City UT 40.755851 -111.896657 NaN NaN\n", "San Francisco CA 37.781334 -122.416728 808976.0 California" ] }, "execution_count": 146, "metadata": {}, "output_type": "execute_result" } ], "source": [ "pd.concat([city_loc.set_index(\"city\"), city_pop.set_index(\"city\")], axis=1)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Cái này trông rất giống `FULL OUTER JOIN`, ngoại trừ việc các cột `state` không được đổi tên thành `state_x` và `state_y`, và cột `city` hiện là chỉ mục." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Phương thức `append()` là một cách viết tắt hữu ích để nối các `DataFrame` theo chiều dọc:" ] }, { "cell_type": "code", "execution_count": 147, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
citylatlngpopulationstate
0San Francisco37.781334-122.416728NaNCA
1New York40.705649-74.008344NaNNY
2Miami25.791100-80.320733NaNFL
3Cleveland41.473508-81.739791NaNOH
4Salt Lake City40.755851-111.896657NaNUT
3San FranciscoNaNNaN808976.0California
4New YorkNaNNaN8363710.0New-York
5MiamiNaNNaN413201.0Florida
6HoustonNaNNaN2242193.0Texas
\n", "
" ], "text/plain": [ " city lat lng population state\n", "0 San Francisco 37.781334 -122.416728 NaN CA\n", "1 New York 40.705649 -74.008344 NaN NY\n", "2 Miami 25.791100 -80.320733 NaN FL\n", "3 Cleveland 41.473508 -81.739791 NaN OH\n", "4 Salt Lake City 40.755851 -111.896657 NaN UT\n", "3 San Francisco NaN NaN 808976.0 California\n", "4 New York NaN NaN 8363710.0 New-York\n", "5 Miami NaN NaN 413201.0 Florida\n", "6 Houston NaN NaN 2242193.0 Texas" ] }, "execution_count": 147, "metadata": {}, "output_type": "execute_result" } ], "source": [ "city_loc.append(city_pop)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Như mọi khi trong pandas, phương thức `append()` *không* thực sự sửa đổi `city_loc`: nó hoạt động trên một bản sao và trả về bản sao đã sửa đổi." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "# Danh mục\n", "Sẽ khá thường xuyên ta có các giá trị đại diện cho các danh mục, ví dụ: `1` cho nữ và `2` cho nam hoặc `\"A\"` cho Tốt, `\"B\"` cho Trung bình, `\"C\"` cho Kém. Các giá trị phân loại này có thể khó đọc và khó xử lý, nhưng may mắn thay, pandas làm cho nó trở nên dễ dàng. Để minh họa điều này, hãy lấy `DataFrame` `city_pop` mà chúng ta đã tạo trước đó và thêm một cột đại diện cho một danh mục:" ] }, { "cell_type": "code", "execution_count": 148, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
populationcitystateeco_code
3808976San FranciscoCalifornia17
48363710New YorkNew-York17
5413201MiamiFlorida34
62242193HoustonTexas20
\n", "
" ], "text/plain": [ " population city state eco_code\n", "3 808976 San Francisco California 17\n", "4 8363710 New York New-York 17\n", "5 413201 Miami Florida 34\n", "6 2242193 Houston Texas 20" ] }, "execution_count": 148, "metadata": {}, "output_type": "execute_result" } ], "source": [ "city_eco = city_pop.copy()\n", "city_eco[\"eco_code\"] = [17, 17, 34, 20]\n", "city_eco" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Hiện tại, cột `eco_code` chứa đầy các mã rõ ràng là vô nghĩa. Hãy khắc phục điều đó. Đầu tiên, chúng ta sẽ tạo một cột phân loại mới dựa trên `eco_code`:" ] }, { "cell_type": "code", "execution_count": 149, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "Int64Index([17, 20, 34], dtype='int64')" ] }, "execution_count": 149, "metadata": {}, "output_type": "execute_result" } ], "source": [ "city_eco[\"economy\"] = city_eco[\"eco_code\"].astype('category')\n", "city_eco[\"economy\"].cat.categories" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Bây giờ chúng ta có thể đặt cho mỗi danh mục một cái tên có ý nghĩa:" ] }, { "cell_type": "code", "execution_count": 150, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
populationcitystateeco_codeeconomy
3808976San FranciscoCalifornia17Finance
48363710New YorkNew-York17Finance
5413201MiamiFlorida34Tourism
62242193HoustonTexas20Energy
\n", "
" ], "text/plain": [ " population city state eco_code economy\n", "3 808976 San Francisco California 17 Finance\n", "4 8363710 New York New-York 17 Finance\n", "5 413201 Miami Florida 34 Tourism\n", "6 2242193 Houston Texas 20 Energy" ] }, "execution_count": 150, "metadata": {}, "output_type": "execute_result" } ], "source": [ "city_eco[\"economy\"].cat.categories = [\"Finance\", \"Energy\", \"Tourism\"]\n", "city_eco" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Lưu ý rằng các giá trị phân loại được sắp xếp theo thứ tự phân loại của chúng, *không phải* thứ tự bảng chữ cái:" ] }, { "cell_type": "code", "execution_count": 151, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
populationcitystateeco_codeeconomy
5413201MiamiFlorida34Tourism
62242193HoustonTexas20Energy
48363710New YorkNew-York17Finance
3808976San FranciscoCalifornia17Finance
\n", "
" ], "text/plain": [ " population city state eco_code economy\n", "5 413201 Miami Florida 34 Tourism\n", "6 2242193 Houston Texas 20 Energy\n", "4 8363710 New York New-York 17 Finance\n", "3 808976 San Francisco California 17 Finance" ] }, "execution_count": 151, "metadata": {}, "output_type": "execute_result" } ], "source": [ "city_eco.sort_values(by=\"economy\", ascending=False)" ] }, { "attachments": {}, "cell_type": "markdown", "metadata": {}, "source": [ "# Tiếp theo là gì?\n", "Như bạn có thể nhận thấy, pandas là một thư viện lớn với *nhiều* tính năng. Mặc dù chúng ta đã xem qua các tính năng quan trọng nhất nhưng vẫn còn rất nhiều điều cần khám phá. Có lẽ cách tốt nhất để tìm hiểu thêm là thực hành với một số dữ liệu thực tế. Bạn cũng nên tham khảo [tài liệu](http://pandas.pydata.org/pandas-docs/stable/index.html) tuyệt vời này của pandas, đặc biệt là [cuốn sách này](http://pandas.pydata.org/pandas-docs/stable/cookbook.htm)." ] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [] } ], "metadata": { "kernelspec": { "display_name": "Python 3 (ipykernel)", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.9.12" }, "toc": { "toc_cell": false, "toc_number_sections": true, "toc_section_display": "none", "toc_threshold": 6, "toc_window_display": true } }, "nbformat": 4, "nbformat_minor": 4 }