{ "cells": [ { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "

pandasのread_◯◯を調べる。

\n", "\n", "\n", "

吉田 貴輝 
" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "
\n", "

吉田 貴輝

\n", "
\n", " 愛称:ヨビー\n", "
\n", " 強情にYOBEと描き続けたらヨベと呼ばれる\n", "
\n", "京都在住\n", "
\n", "大阪でシステムエンジニア(php)\n", "
\n", "python歴1年のペーペー\n", "
\n", " 機械学習をしては何度も挫折しながらpythonは使っている。\n", " pythonでスクレーピングとエクセルがわり。\n", "
\n", "facebook:yoshiteru.yoshida\n", "
" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "
\n", "

pandasとは

\n", "行列データを扱いやすくしたり、集計を行うライブラリ。 \n", "C言語で書かれてる行列フレームワークnumpyがベースで作られているので非常に高速です。 \n", "excelで行っていることをpythonで行う場合に非常に便利。 \n", "もちろん、少量のデータ、簡単な加工であればexcelで十分ですが、大量のデータや複雑な加工が必要な場合はpandasで加工することが多いです。\n", "\n", "普段は込み入ったことにはエクセルを使わずに代わりに使っているpythonなんですが、ふとpandasはどれぐらい読み込めるのか気になり調べて見ました。\n", "
" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "
\n", "

\n", " 開発環境\n", "

\n", "
\n", "
    \n", "
  1. homebrew(macパッケージ管理ソフト?)
  2. \n", "
  3. pyenv 1.1.5
  4. \n", "
  5. Python 3.5.4 :: Anaconda custom (64-bit)
  6. \n", "
" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "
\n", "

\n", " read_◯◯を調べたら結構あった\n", "

\n", "
\n", "\n" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "
\n", "

お世話になっているもの

\n", "
\n", "\n", "

pd.read_csv

\n", "Also supports optionally iterating or breaking of the file into chunks.
\n", "CSV(コンマ区切り)ファイルをDataFrameに読み込むオプションで、ファイルの反復処理または中断をチャンクにサポートします。\n", "TSV(タブ区切り)もオプション設定で使う。\n", "\n", "

pd.read_excel

\n", "Read an Excel table into a pandas DataFrame
\n", "Excelテーブルを読み込んでpandas DataFrameにする\n", "\n", "

pd.read_html

\n", "Read HTML tables into a ``list`` of ``DataFrame`` objects.
\n", "htmlのテーブルやテーブルが配列に格納されます。\n", "\n", "

pd.read_json

\n", "#jsonファイルを読む\n" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "
\n", "

使ったことはないが使えそうなもの

\n", "
\n", "

pd.read_clipboard

\n", "Read text from clipboard and pass to read_table. See read_table for the full argument list\n", "クリップボードからテキストを読み取り、read_tableに渡します。 read_tableを参照してください完全な引数リスト\n", "\n", "

pd.read_sql

\n", "Read SQL query or database table into a DataFrame.\n", "SQLクエリまたはデータベーステーブルをDataFrameに読み込みます。\n", "SQL queryやDBAPI2 をライブラリを使って\n", "

pd.read_parquet

\n", "Load a parquet object from the file path, returning a DataFrame.\n", "Parquetオブジェクトをロードする。\n", "横方向行方向ではなく縦方向で格納する形式\n", "

pd.read_pickle

\n", "Load pickled pandas object (or any other pickled object) from the specified file path\n", "pandasでpickle化されたオブジェクト(または他のpickle化されたオブジェクト)を指定された場所からロードする\n", "パイナリ型で格納するpython固有形式のファイル、早いが直読みできない" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "
\n", "

若干使うのをためらっている

\n", "
\n", "\n", "

pd.read_gbq

\n", " Load data from Google BigQuery.\n", "The main method a user calls to execute a Query in Google BigQuery and read results into a pandas DataFrame.Google BigQuery API Client Library v2 for Python is used.Documentation is available here\n", "googleのbigquery\n", "ミスった時のお金のリスクが。。。(以前、「BigQueryで150万円溶かした人の顔」というQiita記事を見てビビってる。" ] }, { "cell_type": "markdown", "metadata": { "slideshow": { "slide_type": "slide" } }, "source": [ "
\n", "

使いどころがよくわからないが。。。。

\n", "
\n", "\n", "

pd.read_hdf

\n", " Retrieve pandas object stored in file, optionally based on where criteria \n", " ファイルに格納されているpandasオブジェクトを取得します。\n", "

pd.read_feather

\n", "Load a feather-format object from the file path\n", "ファイルパスからフェザーフォーマットオブジェクトをロードする\n", "

pd.read_fwf

\n", "Read a table of fixed-width formatted lines into DataFrame Also supports optionally iterating or breaking of the file into chunks.\n", "固定幅のフォーマットされた行のテーブルをDataFrameに読み込むオプションで、ファイルの繰り返しまたは分割をチャンクにサポートします\n", "

pd.read_msgpack

\n", "Load msgpack pandas object from the specified file path\n", "THIS IS AN EXPERIMENTAL LIBRARY and the storage format may not be stable until a future release.\n", "msgpack pandasオブジェクトを指定された場所からファイルパスでロードする\n", "これは実験的なライブラリであり、保存フォーマット将来のリリースまで安定していない可能性があります。\n", "

pd.read_sas

\n", "Read SAS files stored as either XPORT or SAS7BDAT format files.\n", "XPORTまたはSAS7BDAT形式のファイルとして保存されたSASファイルを読み込みます。\n", "

pd.read_stata

\n", "StataファイルをDataFrameに読み込む\n", "

pd.read_table

\n", "一般的な区切りファイルをDataFrameに読み込む\n", "オプションで、ファイルの反復処理または中断をサポートしますチャンクに。\n", "

pd.read_sql_query

\n", "SQLクエリをDataFrameに読み込みます。クエリの結果セットに対応するDataFrameを返します。\n", "文字列。オプションで、 `index_col`パラメータを指定して、 列をインデックスとして使用します。それ以外の場合は、デフォルトの整数インデックスが使用されます。\n", "\n", "

pd.read_sql_table

\n", "Read SQL database table into a DataFrame.\n", "同上\n" ] } ], "metadata": { "celltoolbar": "Slideshow", "kernelspec": { "display_name": "Python 3", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.6.2" } }, "nbformat": 4, "nbformat_minor": 2 }