{ "nbformat": 4, "nbformat_minor": 0, "metadata": { "colab": { "provenance": [], "toc_visible": true }, "kernelspec": { "name": "python3", "display_name": "Python 3" }, "language_info": { "name": "python" } }, "cells": [ { "cell_type": "markdown", "source": [ "# パッケージとモジュール・ファイル操作\n", "ここまでの講義を通して、Pythonの基本的な構文について学びました。\n", "\n", "今回は、データ構造化処理では決して欠かせないファイルの読み書きを学びます。\n", "\n", "また、Pythonプログラミングにおいて最も重要な、外部のモジュールやパッケージを利用したプログラムについても見ていきます。\n", "\n", "今回学ぶ内容は、次のとおりです。\n", "\n", "* モジュール・パッケージの利用\n", "* 基本的なファイルの読み書き\n", "* ファイルパス\n", "\n", "はじめに、本講義で使用するファイルを皆さんの環境にダウンロードするため、次のコードを実行してください。" ], "metadata": { "id": "Fn0oKgscebci" } }, { "cell_type": "code", "source": [ "!wget https://github.com/tendo-sms/python_beginner_2023/raw/main/files_3/files.zip .\n", "!unzip files.zip\n", "!mv files/* ." ], "metadata": { "id": "L4q4Uc_8RV1v" }, "execution_count": null, "outputs": [] }, { "cell_type": "markdown", "source": [ "# モジュール・パッケージの利用\n", "ここでは、外部のモジュールやパッケージを利用する方法についてご紹介します。" ], "metadata": { "id": "_5uzGBYmfjhO" } }, { "cell_type": "markdown", "source": [ "## モジュールとパッケージのおさらい\n", "「Pythonの基礎2」の講義にて、モジュールおよびパッケージという用語をご説明しました。ここでおさらいしておきましょう。\n", "\n", "| 用語 | 意味 |\n", "|---|---|\n", "| モジュール | ソースコードを記述した拡張子「.py」のファイル |\n", "| パッケージ| ある機能を提供するために必要な、複数のモジュールをまとめたもの |" ], "metadata": { "id": "PQK8xbImUFSt" } }, { "cell_type": "markdown", "source": [ "## モジュールやパッケージを利用する意味【超・重要!!】\n", "実は、**「外部のモジュールやパッケージの利用」こそPythonプログラミングの真髄**、と言っても過言ではありません。\n", "\n", "モジュールやパッケージを利用するということは、「誰かが作った外部のソースコードを使わせてもらう」というイメージです。\n", "\n", "Pythonは他のプログラミング言語と比べて、外部のモジュールやパッケージが非常に充実しています。\n", "\n", "皆さんが苦労することは、世界中の誰もが同じように苦労します。そして、苦労した誰かが必ず、便利なソースコードを作っているものなのです。それらのソースコードを簡単に取り込める方法こそが、これから紹介するimportなのです。\n", "\n", "苦労して作った数百行のプログラムが、誰かが公開しているソースコードを使ったらたった2~3行で実現できた、なんて例も珍しくありません。「車輪の再発明」に陥らないよう、しっかりと今回の話を理解してくださいね。\n", "\n", "次の例を見てみてください。Gatanのdm3ファイルに記録されたスペクトルデータをグラフ化するプログラムです。\n", "\n", "あらかじめHyperSpyというパッケージをインストールしてしまえば、ソースコード自体はたったの3行でかけてしまうのです。(外部のモジュールを取り込むimportの行を除けば、メインの処理は実質2行!)" ], "metadata": { "id": "YaaKUblPUHUx" } }, { "cell_type": "code", "source": [ "# 事前にHyperSpyパッケージのインストール\n", "!pip install hyperspy" ], "metadata": { "id": "mf52FyeH_1_s" }, "execution_count": null, "outputs": [] }, { "cell_type": "code", "source": [ "# Gatanのdm3ファイルに記録されたスペクトルデータをグラフ化\n", "import hyperspy.api as hs\n", "\n", "spectrum = hs.load(\"spectrum_sample.dm3\")\n", "spectrum.plot()" ], "metadata": { "id": "4ncLCOO6_48B" }, "execution_count": null, "outputs": [] }, { "cell_type": "markdown", "source": [ "ちなみに、スペクトルのグラフ化にはExcelを使う方が多いかもしれません。\n", "\n", "しかし、dm3フォーマットを読み解いて、加工して、Excelで読み込んで、マウスでポチポチとグラフを作成するのと比べてどうでしょうか。Pythonの底力を感じませんか!?\n", "\n", "プログラミングというと、複雑なアルゴリズムを設計して、たくさんのソースコードを書かなければいけない、というイメージが強いかもしれません。\n", "\n", "しかし、Pythonであれば、まるでブロックを組み立てるようにプログラムを作成できてしまいます。皆さんの中でパラダイムシフトを起こして、プログラミングに対するハードルをぐぐっと下げてくださいね。" ], "metadata": { "id": "5SZqgVk7JEs2" } }, { "cell_type": "markdown", "source": [ "## モジュールのインポート(import)\n", "ここでは、外部の「モジュール」を読み込んで使ってみます。\n", "\n", "モジュールの読み込みには、次のとおり「**import文**」を使います。\n", "\n", "~~~\n", "import モジュール名(拡張子.pyはつけない)\n", "~~~\n", "「モジュール名」には、モジュールのファイル名「モジュール名.py」から拡張子.pyを取り除いた名称を記述します。\n", "\n", "モジュールをimportすると、次のようにモジュール内の関数、変数などを呼び出せるようになります。\n", "\n", "~~~\n", "モジュール名.関数名(引数)\n", "モジュール名.変数名\n", "~~~" ], "metadata": { "id": "b1As6G7J_Cji" } }, { "cell_type": "markdown", "source": [ "### Pythonで用意されたモジュールをインポートする\n", "import文の簡単な例として、まずはPythonであらかじめ用意された標準モジュールである、「mathモジュール」をインポートして使ってみましょう。\n", "\n", "mathモジュールは、数学的な機能を提供するモジュールです。\n", "\n", "まずは、関数を呼び出してみます。\n", "\n", "次のソースコードは、平方根を求めるためにmathモジュールのsqrt関数を呼び出しています。「モジュール名.関数名(引数)」の形になっていますね。" ], "metadata": { "id": "fLRwV2O6RsKy" } }, { "cell_type": "code", "source": [ "import math\n", "\n", "print(math.sqrt(2))" ], "metadata": { "id": "4lUB-UJTMgyj" }, "execution_count": null, "outputs": [] }, { "cell_type": "markdown", "source": [ "次に、変数を呼び出してみましょう。\n", "\n", "次のソースコードは、円周率の値が格納された変数piを呼び出しています。「モジュール名.変数名」の形になっていますね。" ], "metadata": { "id": "viwuqQGGMjRQ" } }, { "cell_type": "code", "source": [ "print(math.pi)" ], "metadata": { "id": "r0cBB_gJQL63" }, "execution_count": null, "outputs": [] }, { "cell_type": "markdown", "source": [ "### 別名を付けてインポートする\n", "次のようなインポートの仕方もあります。\n", "\n", "~~~\n", "import モジュール名 as 別名\n", "~~~\n", "\n", "このようにインポートすると、モジュール名ではなく、別名で関数や変数などを使用できるようになります。\n", "\n", "(逆に、モジュール名は使用できなくなります。)\n", "\n", "~~~\n", "別名.関数名(引数)\n", "別名.変数名\n", "~~~\n", "\n", "ここまで見てきたmathの例で、別名を使ってインポートしてみましょう。「mt」という別名を付けています。" ], "metadata": { "id": "Ma28AXNpz1Jn" } }, { "cell_type": "code", "source": [ "import math as mt\n", "\n", "print(mt.sqrt(2))\n", "print(mt.pi)" ], "metadata": { "id": "yc-Nc8pa0fKC" }, "execution_count": null, "outputs": [] }, { "cell_type": "markdown", "source": [ "mathはモジュール名が短いのであえてasを使う必要はありませんが、モジュール名が長い場合などはasを使って、記述しやすい別名を付けるのもよいでしょう。" ], "metadata": { "id": "ffO2zZsJ0qKj" } }, { "cell_type": "markdown", "source": [ "### 自作のモジュールをインポートする\n", "Pythonであらかじめ用意されたモジュールや、他の誰かが公開している外部モジュールだけではなく、自分でモジュールを作ってインポートすることもできます。\n", "\n", "最初に今回の講義で必要なファイルをダウンロードしたので、カレントディレクトリにsample_module.pyというファイルがダウンロードされています。ファイルの中身は、次のような内容です。\n", "\n", "~~~\n", "def print_function():\n", "    print(\"関数print_functionが呼び出されました。\")\n", "\n", "var1 = \"変数1\"\n", "var2 = \"変数2\"\n", "~~~\n", "\n", "モジュールをインポートする方法は、自作のモジュールであっても同じです。次のソースコードでは、モジュールsample_module.pyをインポートして、print_function関数の呼び出し、およびvar1変数とvar2変数の値の参照を行っています。" ], "metadata": { "id": "NgSiYvuRRncM" } }, { "cell_type": "code", "source": [ "import sample_module\n", "\n", "sample_module.print_function()\n", "\n", "print(sample_module.var1)\n", "print(sample_module.var2)" ], "metadata": { "id": "15nfVGIGSLq1" }, "execution_count": null, "outputs": [] }, { "cell_type": "markdown", "source": [ "【ワンポイント】\n", "\n", "モジュールを自作するというのは、どのようなケースでしょうか。\n", "\n", "例えば構造化プログラムは、そのほとんどが「データの入力」「データの構造化」「データの出力」という3つの大きな機能からなります。\n", "\n", "これらの機能をソースコードの上から下へ、ダラダラと書いていくのはやめましょう。\n", "\n", "この3つの機能それぞれを関数にするというやり方も悪くありませんが、これらは一つ一つが大きな機能なので、各機能ごとに自作のモジュールを作る方がよいでしょう\n", "\n", "例:\n", "* データの入力:input_data.py\n", "* データの構造化:structure_data.py\n", "* データの出力:output_data.py\n", "\n", "そして各機能をさらに細かい機能に分割し、分割した機能ごとに関数を作ると、大きなプログラムでも非常に理解しやすい構造になります。例えば、次のようなイメージです。\n", "\n", "* input_data.pyの中に、次のような関数を定義\n", " * jdxファイルの読み込み関数、CSVファイルの読み込み関数 etc.\n", "* structure_data.pyの中に、次のような関数を定義\n", " * データのフォーマットを変換する関数、データを整形する関数 etc.\n", "* output_data.pyの中に、次のような関数を定義\n", " * メタデータをファイルに出力する関数、グラフを出力する関数 etc.\n" ], "metadata": { "id": "AJLvPwsdW3Iu" } }, { "cell_type": "markdown", "source": [ "### 特定の関数や変数だけをインポートする\n", "モジュール全部ではなく、モジュールの中の特定の関数や変数だけをインポートすることもできます。\n", "\n", "from ~ import文を使って、次のように定義します。\n", "\n", "~~~\n", "from モジュール名 import 関数名or変数名 [, 関数名or変数名, ・・・]\n", "~~~\n", "importする関数や変数が複数あるときは、カンマ区切りで複数指定することができます。\n", "\n", "また、この方法でimportした関数や変数は、前に「モジュール名.」を付けずに呼び出します。\n", "\n", "~~~\n", "関数名(引数)\n", "変数名\n", "~~~\n", "\n", "先ほどのsample_module.pyから、関数print_functionと、変数var2だけをインポートして使ってみましょう。" ], "metadata": { "id": "4iixOG7TSY3k" } }, { "cell_type": "code", "source": [ "from sample_module import print_function, var2\n", "\n", "print_function()\n", "\n", "print(var2)\n", "print(var1)" ], "metadata": { "id": "1o2WIKUoSh4j" }, "execution_count": null, "outputs": [] }, { "cell_type": "markdown", "source": [ "関数名や変数名の前に「sample_module.」を付けないことに注意してください。\n", "\n", "var1はインポートしていないので、参照しようとするとエラーになっています。\n", "\n", "【注意事項】\n", "\n", "Google Colaboratoryでは、同一ページ内の全てのソースコードはつながっています。前の例題で「import sample_module」を行っているため、「sample_module.var1」と指定すると参照できてしまいます。動作が紛らわしいですが、ご注意ください。" ], "metadata": { "id": "kAxG8YkDVwZL" } }, { "cell_type": "markdown", "source": [ "## パッケージのインストール" ], "metadata": { "id": "5aHaiLku_IJG" } }, { "cell_type": "markdown", "source": [ "### pipコマンドとcondaコマンド\n", "今度は、ある機能を実現するためのモジュールをまとめた、外部の「パッケージ」を使ってみましょう。\n", "\n", "パッケージを利用するには、Pythonプログラムを実行する前に、あらかじめ端末(Windowsのコマンドプロンプト、Linuxのログインシェルなど)で次のコマンドを実行してパッケージをインストールしておく必要があります。\n", "\n", "- 公式版Pythonでは、「**pipコマンド**」でインストールします。\n", "- Anacondaでは、「**condaコマンド**」でインストールします。\n", "\n", "Python実行環境をOSにインストールすると、Windowsのコマンドプロンプトや、Linuxのログインシェルなどから、pipコマンドおよびcondaコマンドを使用できるようになります。\n", "\n", "パッケージをインストールするには、次のように実行します。なお「パッケージ名」は大文字小文字を区別しません。\n", "\n", "~~~\n", "pip install パッケージ名\n", "~~~\n", "または\n", "~~~\n", "conda install パッケージ名\n", "~~~\n", "\n", "今回の講座では、以降はpipコマンドを例にご説明します。\n", "\n", "【注意事項】\n", "\n", "pipコマンドでしかインストールできないパッケージや、condaコマンドでしかインストールできないパッケージも存在します。\n", "\n", "ご自身の環境で使いたいパッケージがない場合、上記のコマンドを使わずに自力でインストールできることもありますが、非常にハードルが高いです。代替可能な別のパッケージを探すか、Python実行環境の変更も検討しましょう。\n", "\n", "なおAnacondaはcondaコマンドだけでなく、pipコマンドも使用できます。そのためAnacondaを使っておけば安心と思いがちです。しかしpipコマンドとcondaコマンドを混在して使用するとやっかいなトラブルが発生することもあるので、あまりお勧めできません。" ], "metadata": { "id": "XfX-BuQdUPco" } }, { "cell_type": "markdown", "source": [ "### pipコマンドの使用例\n", "例として、PythonでGUIのプログラムを作成するときによく使用される、PyQt5のパッケージをインストールしてみます。\n", "\n", "(本当は、本講座で詳しくご紹介する「pandas」や「Matplotlib」といったパッケージをインストールする例としたかったのですが・・・Google Colaboratoryでは、最初からこれらのパッケージがインストールされていました!)" ], "metadata": { "id": "XGPcVd4-URTD" } }, { "cell_type": "code", "source": [ "!pip install pyqt5" ], "metadata": { "id": "K47xuaKBayS9" }, "execution_count": null, "outputs": [] }, { "cell_type": "markdown", "source": [ "なお先頭の「!」は、Google Colaboratory独自の構文です。Pythonプログラムを実行するのではなく、Linuxのログインシェルのイメージで、bashのコマンドや、catコマンドやdiffコマンドといったLinuxコマンドを実行できます。\n", "\n", "pipコマンドの便利なところは、パッケージ間の依存関係を自動で管理してくれるところです。\n", "\n", "パッケージには、「このパッケージを動かすには、前提として別のパッケージが必要」といった依存関係があります。\n", "\n", "pipコマンドでパッケージをインストールすると、前提となるパッケージが入っていない場合は自動で一緒にインストールしてくれます。" ], "metadata": { "id": "vtVirmVegI5M" } }, { "cell_type": "markdown", "source": [ "# 基本的なファイルの読み書き\n", "「Pythonの基礎1」の講義で、どんなデータ構造化プログラムでも次のような流れが基本となることをご説明しました。\n", "\n", "1. データの入力:  ファイルの読み取り方\n", "1. データの構造化: データ成形・加工の方法\n", "1. データの出力:  可視化の方法や保存\n", "\n", "ここでは、データの入力や出力に関わる重要な機能として、ファイルの読み書きの方法をご紹介します。" ], "metadata": { "id": "b8RpY1idcBk-" } }, { "cell_type": "markdown", "source": [ "## 標準的なファイルの読み書き\n", "まずは外部のモジュールやパッケージを使わずに、Python標準の関数を使ってデータを読み込んでみます。\n", "\n", "次のプログラムを例にして説明します。読み込むファイルopen_sample.jdxは、JCAMP-DXのjdxファイルから、説明のために先頭のヘッダ部分のみを抜粋したものです。" ], "metadata": { "id": "QAS9Bl1Oeg-N" } }, { "cell_type": "code", "source": [ "# ファイルのオープン\n", "fobj = open(\"open_sample.jdx\")\n", "\n", "# ファイルの読み込み\n", "txtdata = fobj.read()\n", "print(txtdata)\n", "\n", "# ファイルのクローズ\n", "fobj.close()" ], "metadata": { "id": "7UisyAcUsESv" }, "execution_count": null, "outputs": [] }, { "cell_type": "markdown", "source": [ "このソースコードを構成するそれぞれの機能について、ひとつひとつ解説します。\n" ], "metadata": { "id": "jQqFgDT3zf0H" } }, { "cell_type": "markdown", "source": [ "### ファイルのオープン(open関数)\n", "Pythonでファイルの読み書きを行うには、まずファイルのオープンを行う必要があります。\n", "\n", "例えば、WindowsでテキストファイルやExcelファイルの読み書きをするとき、まずはエクスプローラでファイルをダブルクリックするなどして、ファイルを開きますよね。そんなイメージです。\n", "\n", "標準的なファイルのオープンでは、「**open関数**」を使用します。\n", "\n", "~~~\n", "open(ファイルパス)\n", "~~~\n", "\n", "open関数の戻り値として、「**ファイルオブジェクト**」というものが返ってきます(変数fobjに格納)。ファイルオブジェクトは、ファイルをPythonプログラム上で読み書きできる形にしたデータです。\n", "\n", "このファイルオブジェクトを使って、データの読み書きを行います。" ], "metadata": { "id": "OhcI_hwXkpuC" } }, { "cell_type": "markdown", "source": [ "### ファイルの読み込み(readメソッド)\n", "ファイルからデータを読み込む方法はいくつかありますが、今回の例では最もシンプルな「**readメソッド**」を使用しています。\n", "\n", "~~~\n", "ファイルオブジェクト.read()\n", "~~~\n", "\n", "readメソッドの戻り値として、ファイルの中身が文字列として返ってきます(変数txtdataに格納)。\n", "\n", "print関数でtxtdataの中身を画面に出力すると、ファイルの中身が格納されていることが分かります。" ], "metadata": { "id": "KLtFMUhZFO40" } }, { "cell_type": "markdown", "source": [ "### ファイルのクローズ(closeメソッド)\n", "最後に、「**closeメソッド**」でファイルを閉じます。\n", "\n", "~~~\n", "ファイルオブジェクト.close()\n", "~~~\n", "\n", "WindowsでテキストファイルやExcelファイルの読み書きを終えたあと、閉じるボタンをクリックするなどしてファイルを閉じますよね。そんなイメージです。\n", "\n", "closeメソッドでファイルを閉じた後は、もうreadメソッドで読み込んだりすることはできません。\n", "\n", "ちなみにクローズを忘れてしまうと、例えば、長期間動き続けるようなプログラムにおいてファイルをオープンできる数の上限に達してしまい、プログラムがエラーになるなどの問題が発生します。\n", "\n", "逆に言うと、上記のようなケース以外では、クローズを忘れても実際のところあまり実害はありません。\n", "\n", "とはいえ、ファイルを使い終わったらクローズするのは、Pythonを含めた多くのプログラミング言語において、お作法のようなものです。必ずクローズする癖を付けましょう・・・\n", "\n", "・・・と、言いたいところですが、いくら気を付けていても、ファイルのクローズは結構忘れてしまいがちです(ほぼ実害がないだけに)。クローズを入れていても、if制御文やfor制御文のbreakなどでスキップされてしまったなどのミスも起こりえます。\n", "\n", "そこでPythonでは、ファイルのクローズを自動的に行うための便利な仕組みを提供しています。それが次でご紹介する「with文」です。" ], "metadata": { "id": "ZbO6BqKfHBhw" } }, { "cell_type": "markdown", "source": [ "### with文\n", "「**with文**」を用いて次のように記述することで、インデントで示されたwith構文の影響範囲を抜けるときに、Pythonが自動でファイルをクローズしてくれます。\n", "\n", "~~~\n", "with open(ファイルパス) as ファイルオブジェクト:\n", " ファイルオブジェクトを使ってファイルを読み書きする処理\n", " ファイルオブジェクトを使ってファイルを読み書きする処理\n", " :\n", "\n", "後続の処理 (ここではもうファイルオブジェクトを使えない)\n", "~~~\n", "\n", "前述のプログラムをwith文を使って書き換えると、次のようになります。" ], "metadata": { "id": "sJgipiMsHEWN" } }, { "cell_type": "code", "source": [ "with open(\"open_sample.jdx\") as fobj:\n", " txtdata = fobj.read()\n", " print(txtdata)" ], "metadata": { "id": "vZIgXR2BHlP7" }, "execution_count": null, "outputs": [] }, { "cell_type": "markdown", "source": [ "これで、最後にcloseメソッドを呼ぶ必要がなくなりました。\n", "\n", "with文は非常に便利ですが、稀に、with文を使わずにcloseメソッドを使った方が書きやすいケースもあります。\n", "\n", "ですが現在のところは、「**open関数を使うときは必ずwith文を使う**」と覚えておいていただければ問題ありません。" ], "metadata": { "id": "fPEfWAOZH73J" } }, { "cell_type": "markdown", "source": [ "### 1行ずつファイルを読み込む\n", "前述のreadメソッドでは、ファイルの中身すべてを1つの文字列として読み込みました。\n", "\n", "ですが構造化プログラムでは、機器が出力したファイルを1行ずつ読み込みながら処理する、といったことの方が多いです。\n", "\n", "次のプログラムを見てください。" ], "metadata": { "id": "8_ulXD4KLKCy" } }, { "cell_type": "code", "source": [ "with open(\"open_sample.jdx\") as fobj:\n", " for txtdata in fobj:\n", " print(\"読み込んだ行:\" + txtdata)" ], "metadata": { "id": "BYZ-TB6dNjYF" }, "execution_count": null, "outputs": [] }, { "cell_type": "markdown", "source": [ "read関数を使わず、ファイルオブジェクト(fobj)をfor文の「繰り返し要素」に指定しています。\n", "\n", "これで、ファイルの中身を1行ずつ読み込めた!・・・ようにも見えますが、ちょっと違和感がありますね。各行の間に、不自然な空行が入っています。\n", "\n", "実はテキストファイルには、実際には以下のような形でデータが書き込まれています。テキストエディタ等では目に見えないだけで、【改行】というデータが入っているのです。\n", "\n", "~~~\n", "##TITLE= deg【改行】\n", "##JCAMP-DX= 5.01【改行】\n", " :\n", "##TIME= 10:29:30【改行】\n", "##SPECTROMETER/DATA SYSTEM= DELTA2_NMR【改行】\n", "\n", "~~~\n", "注:##の後ろに半角空白が入って見えますが、実際のデータには入っていません。Google Colaboratoryの仕様で、どうしても半角空白が勝手に入って見えてしまうのです・・・\n", "\n", "\n", "for文にファイルオブジェクトを指定して1行ずつ読み込むと、【改行】も含めた文字列が1行のデータとして読み込まれます(【改行】も含めて変数txtdataに格納される)。\n", "\n", "加えて、print関数が画面に出力する際に最後に【改行】を挿入しています。そのため、print関数は次のように画面に文字列を出力しています。\n", "\n", "~~~\n", "##TITLE= deg【元からファイルに入っていた改行】【print関数が挿入する改行】\n", "##JCAMP-DX= 5.01【元からファイルに入っていた改行】【print関数が挿入する改行】\n", "         :\n", "##TIME= 10:29:30【元からファイルに入っていた改行】【print関数が挿入する改行】\n", "##SPECTROMETER/DATA SYSTEM= DELTA2_NMR【元からファイルに入っていた改行】【print関数が挿入する改行】\n", "~~~\n", "\n", "改行がそれぞれ2つずつあるため、不自然な空行が入ってしまうのです。\n", "\n", "これを防ぐには、読み込んだ1行の文字列にrstripメソッドを使いましょう。\n", "\n", "【おさらい】\n", "\n", "* 文字列.rstrip(削除文字列) と記述すると、文字列の末尾からだけ、連続した削除文字列をすべて削除します。削除文字列を指定しないと、連続した半角空白・タブ・改行を削除します。" ], "metadata": { "id": "tysYQ1R0QGvM" } }, { "cell_type": "code", "source": [ "with open(\"open_sample.jdx\") as fobj:\n", " for txtdata in fobj:\n", " print(\"読み込んだ行:\" + txtdata.rstrip())" ], "metadata": { "id": "Vkd4SF9pRiPF" }, "execution_count": null, "outputs": [] }, { "cell_type": "markdown", "source": [ "rstripメソッドにより、txtdataに格納された文字列の右端にあった【元からファイルに入っていた改行】が削除されました。\n", "\n", "それにより、print関数は次のように画面に文字列を出力しました。\n", "\n", "~~~\n", "##TITLE= deg【print関数が入れた改行】\n", "##JCAMP-DX= 5.01【print関数が入れた改行】\n", "         :\n", "##TIME= 10:29:30【print関数が入れた改行】\n", "##SPECTROMETER/DATA SYSTEM= DELTA2_NMR【print関数が入れた改行】\n", "~~~\n", "\n", "これで、期待どおりの出力になりましたね。\n", "\n", "【ワンポイント】\n", "\n", "ちなみに、この【改行】として記録されているデータは、OSによって異なるデータが採用されています。Windowsは「CRLF」、LinuxやmacOSなどでは「LF」というデータになっています。(ちなみに、古いmacOSではまた別の「CR」というデータでした。)\n", "\n", "ただしPythonでファイルを読み込むとき、特別に指定をしなければ、これらの違いを意識する必要はありません。どちらの改行コードも正しく読み取ることができます。" ], "metadata": { "id": "FHI_ry8-R0Yu" } }, { "cell_type": "markdown", "source": [ "### ファイルをオープンするときのモード\n", "open関数には、モードを2番目の引数として渡すことができます。\n", "\n", "~~~\n", "open(ファイルパス, モード)\n", "~~~\n", "\n", "モードには次の種類があり、\"r\"などといった形で文字列として指定します。\n", "\n", "|モード|意味|\n", "|---|---|\n", "|\"r\"|読み込み用で開く(デフォルト値)|\n", "|\"w\"|書き込み用で開く ファイルが存在する場合は上書き|\n", "|\"x\"|書き込み用で開く ファイルが存在する場合はエラー|\n", "|\"a\"|追加書き込み用で開く|\n", "|\"r+\"|読み込みと書き込みの両方ができる 書き込みは追加書きとなる ファイルが存在しない場合はエラー|\n", "|\"w+\"|読み込みと書き込みの両方ができる ファイルが存在する場合は上書き|\n", "|\"b\"|\"rb\"や\"wb\"という形で指定してバイナリモードで読み書き|\n", "\n", "これまでのソースコードの例ではオプションを指定していなかったため、デフォルトの\"r\"となっていました。" ], "metadata": { "id": "ZZ3Bsvm-Hlcu" } }, { "cell_type": "markdown", "source": [ "### ファイルの書き込み(writeメソッド)\n", "今度は、ファイルを書き込み用(w)で開いて書き込みを行ってみましょう。\n", "\n", "ここでは、「**writeメソッド**」を使って書き込みを行います。次のソースコードを見てみましょう。" ], "metadata": { "id": "kA8LBs_sSo9R" } }, { "cell_type": "code", "source": [ "with open(\"output.txt\", \"w\") as fobj:\n", " write_str =\"データを書き込みます\"\n", " fobj.write(write_str)" ], "metadata": { "id": "zASl77JXgCL4" }, "execution_count": null, "outputs": [] }, { "cell_type": "markdown", "source": [ "output.txtは、プログラム実行開始前には存在していないファイルです。\"w\"モードでファイルをオープンすることは、書き込み用という意味だけでなく、ファイルの新規作成を行うことも兼ねています。\n", "\n", "writeメソッドの引数に文字列を指定すると、オープンしたファイルにその文字列が書き込まれます。Google Colaboratory画面左端のフォルダマークから、ファイルの中身を確認してみましょう。\n", "\n", "![出力ファイル確認](https://github.com/tendo-sms/python_beginner_2023/raw/main/files_3/figure/checkfile.png)\n", "\n", "データが書き込まれていることが確認できました。\n", "\n", "なお、複数行書き込みたい場合の例を次に示します。" ], "metadata": { "id": "jegMbLuVgdTt" } }, { "cell_type": "code", "source": [ "with open(\"output.txt\", \"w\") as fobj:\n", " write_str = \"データを書き込みます1\"\n", " fobj.write(write_str + \"\\n\")\n", " write_str = \"データを書き込みます2\"\n", " fobj.write(write_str + \"\\n\")" ], "metadata": { "id": "Ls8CS-gCk8JB" }, "execution_count": null, "outputs": [] }, { "cell_type": "markdown", "source": [ "注意していただきたいのは、改行を自分で指定する必要がある点です。改行は、文字列中に「**\\n**」と記述することで挿入できます。\n", "\n", "(Google Colaboratoryですと、通常の説明文では「バックスラッシュ」、コード例では「円記号」として表示されますが、実態は同じ文字です。)" ], "metadata": { "id": "vKyjE7VqltYG" } }, { "cell_type": "markdown", "source": [ "### 文字エンコーディングの指定\n", "カレントディレクトリに、テキストファイル「encoding_sample.jdx」というファイルを置いてあります。このファイルの中身は、次のような内容です。\n", "\n", "これまで使用した入力ファイル「open_sample.jdx」の内容に加え、最後の行にユーザー定義ラベルでオペレーターの名前が記録されています。\n", "\n", "~~~\n", "##TITLE= deg\n", "##JCAMP-DX= 5.01\n", "##DATA TYPE= NMR SPECTRUM\n", "##DATA CLASS= NTUPLES\n", "##NUM DIM= 1\n", "##ORIGIN= DELTA2_NMR\n", "##OWNER= delta\n", "##DATE= 2021/10/02\n", "##TIME= 10:29:30\n", "##SPECTROMETER/DATA SYSTEM= DELTA2_NMR\n", "##$OPERATOR= 髙橋太郎\n", "~~~\n", "\n", "この「encoding_sample.jdx」ファイルを読み込んでみます。" ], "metadata": { "id": "zKwrOqFll-mO" } }, { "cell_type": "code", "source": [ "with open(\"encoding_sample.jdx\") as fobj:\n", " txtdata = fobj.read()\n", " print(txtdata)" ], "metadata": { "id": "NGUixL9Bm4Zo" }, "execution_count": null, "outputs": [] }, { "cell_type": "markdown", "source": [ "プログラムがエラーになってしまいました。\n", "\n", "実はencoding_sample.txtの内容は、文字エンコーディング(文字コード、文字エンコードなどと呼ぶこともあります。)が「CP932」です。\n", "\n", "Google Colaboratoryは、Linux上でPythonプログラムが動いています。LinuxのPythonでは、デフォルトでは文字エンコーディングが「UTF-8」だとみなしてファイルを読み込もうとします。その結果、UTF-8でない文字が出てきたためにエラーとなりました。\n", "\n", "LinuxでUTF-8以外の文字エンコーディングで記述されたテキストファイルを読み込む場合、open関数の引数に「**encodingオプション**」を指定します。次のソースコードを見てみましょう。" ], "metadata": { "id": "69z56ieMm_Hm" } }, { "cell_type": "code", "source": [ "with open(\"encoding_sample.jdx\", encoding=\"cp932\") as fobj:\n", " txtdata = fobj.read()\n", " print(txtdata)" ], "metadata": { "id": "KtZEgqj8nW5R" }, "execution_count": null, "outputs": [] }, { "cell_type": "markdown", "source": [ "今度は、正しくファイルを読み込むことができました。\n", "\n", "文字エンコーディングは、初級者がつまづきやすい代表的なポイントです。次のようなことでハマりがちです。\n", "\n", "* Pythonでファイルを読み込もうとしたらエンコーディングエラーになった\n", "* Pythonで出力したCSVファイルをExcelで読み込んだら文字化けした\n", "\n", "1点目は「エンコーディングエラー」を示すメッセージが出てエラーとなることから、比較的、原因が分かりやすいです。\n", "\n", "しかし2点目は、とても分かりにくいです。Excelは、基本的に文字エンコーディングがCP932であるとみなしてファイルを読み込みます。\n", "\n", "UTF-8のファイルも「BOM付きUTF-8」という形式なら正しく読み込めるのですが、Pythonのopen関数のデフォルト値であるUTF-8とは別の形式であるため、明示的に「BOM付きUTF-8」でオープンする必要があります。\n", "\n", "文字エンコーディングの詳細については膨大な説明となってしまいますので割愛しますが、「**ファイルを読み書きするときは文字エンコーディングが何であるかを確認し、open関数のencodingオプションを適切に指定する**」という点だけは、必ず覚えておいてください。\n", "\n", "【ワンポイント】\n", "\n", "ちなみに「CP932」というのは、Microsoft社がShift-JISをベースに独自拡張した文字エンコーディングです。今回の例では、「髙 (はしご高)」がCP932の独自文字であり、標準のShift-JISには含まれない文字です。他にもよく出てくる独自文字には、「﨑 (立ち崎)」などもあります。\n", "\n", "Windowsの世界で「Shift-JIS」という言葉を使っていても、実は「CP932」を指していることがほとんどです。\n", "\n", "encodingオプションには\"shift_jis\"という指定もありますが、これは標準のShift-JISを示します。「髙 (はしご高)」を扱えない文字エンコーディングなので、前述のプログラムはエラーとなります。\n", "\n", "「Windowsで作られたShift-JISのファイル」は、encoding=\"cp932\"とすべきケースがほとんどでしょう。" ], "metadata": { "id": "a6N4h8hjns6X" } }, { "cell_type": "markdown", "source": [ "# パッケージによるCSVファイルの読み書き\n", "ここでは、外部パッケージによるCSVファイルの読み書きについてご紹介します。\n", "\n", "取り上げるのは、「**NumPy**」「**pandas**」という2つのパッケージです。それぞれの特徴を、次にまとめます。\n", "\n", "* NumPy\n", " * 「行列計算(行列和・行列積など)」を得意とするパッケージです。\n", "* pandas\n", " * 「配列データの整形・加工」を得意とするパッケージです。\n", "\n", "データ構造化プログラムでは、機器が出力したデータなど、CSVファイルの入出力を行うことがとても多いです。\n", "\n", "これらのパッケージを使って読み書きをすると、CSVファイルの内容を自動的に多次元のリスト(リストのリスト、入れ子のリスト)として扱うことができるなど、ここまでにご紹介したPython標準関数と比べて非常に便利です。\n", "\n", "ちなみに、NumPyとpandasどちらも配列データを扱うパッケージということから、どのように使い分ければよいのか、初級者は悩みがちです。\n", "\n", "前述の説明のとおり「行列計算をしたいのか」「データの整形・加工を行いたいのか」という観点で、適切なパッケージを選択しましょう。\n", "\n", "特にデータ構造化プログラムでは、機器が出力したCSVデータを整形・加工してメタデータとして登録するなどの目的で、pandasをよく利用します。" ], "metadata": { "id": "a7pn8FcedNOX" } }, { "cell_type": "markdown", "source": [ "## NumPyでのCSVファイル読み書き\n", "NumPyでCSVファイルの読み書きをやってみましょう。" ], "metadata": { "id": "MLB9gjaEdk-O" } }, { "cell_type": "markdown", "source": [ "### モジュールのインポート\n", "NumPyを利用するには、今回の講義でご紹介したimport文を使って、NumPyのモジュールをインポートします。モジュール名は小文字の「numpy」なので、間違えないようにしてください。\n", "\n", "なおNumPyをインポートするときは、asを使って「np」という別名を付けるのが慣例になっています。Pythonプログラマの共通認識のようなものですので、慣例に倣うようにしてください。\n", "\n", "~~~\n", "import numpy as np\n", "~~~" ], "metadata": { "id": "nz7-WQQreWxf" } }, { "cell_type": "markdown", "source": [ "【注意事項】\n", "\n", "Google ColaboratoryやAnacondaでは、NumPyが最初からインストールされているのでimport文だけで利用できます。公式版Pythonでは最初はNumPyがインストールされていませんので、プログラムを作成する前に、あらかじめpipコマンドを使ってインストールしてください。\n", "\n", "~~~\n", "pip install numpy\n", "~~~" ], "metadata": { "id": "KazzlWmFxCAM" } }, { "cell_type": "markdown", "source": [ "### CSVファイルの読み込み\n", "NumPyでCSVファイルを読み込むには、loadtxt関数を使います。\n", "\n", "今回は、次のような内容のCSVファイルを読み込みます。\n", "\n", "\n", "\n", "\n", "\n", "
1 2 3
4 5 6
7 8 9
\n", "\n", "ちなみに、Python標準関数でファイルを読み込むときは、先にopen関数でファイルオープンした後にread関数で読み込みを行いました。\n", "\n", "しかしloadtxt関数でCSVファイルを読み込むときには、ファイルオープンも一緒に行ってくれますので、事前にopen関数やwith文を使う必要はありません。同様にファイルのクローズも内部で自動的に行われますので、意識する必要はありません。" ], "metadata": { "id": "xIqNQ7B3eafP" } }, { "cell_type": "code", "source": [ "import numpy as np\n", "\n", "csvObj1 = np.loadtxt(\"numpy_sample.csv\", delimiter=\",\", dtype=int)\n", "print(type(csvObj1))\n", "print(\"---------------------------------------------\")\n", "print(csvObj1)" ], "metadata": { "id": "bRau1xJZtxYM" }, "execution_count": null, "outputs": [] }, { "cell_type": "markdown", "source": [ "* delimiterオプションは、入力ファイルがCSVファイルであることから、要素を,(カンマ)で区切ることを示しています。\n", "* dtypeオプションは、読み込んだ内容を整数型として扱うことを示しています。\n", "\n", "loadtxtでは、CSVファイルから読み込んだ結果をndarrayというデータ型の配列に格納します。このndarrayはNumPy独自のデータ型で、行列計算を高速に行うためのデータ型です。" ], "metadata": { "id": "DzA7khQm52IF" } }, { "cell_type": "markdown", "source": [ "### 行列計算の実行\n", "ここでは配列の各要素を10倍した新たな配列を作成します。ndarray型のデータに対して四則演算の記述をするだけで、配列の全ての要素に対して演算を行うことができます。" ], "metadata": { "id": "gX52SK7Eex7Y" } }, { "cell_type": "code", "source": [ "csvObj2 = csvObj1 * 10\n", "print(csvObj2)" ], "metadata": { "id": "DkvepczQ4Ioq" }, "execution_count": null, "outputs": [] }, { "cell_type": "markdown", "source": [ "### CSVファイルの書き出し\n", "新たな配列csvObj2を、CSVファイルに書き出してみます。NumPyでのファイルへの書き込みには、savetxt関数を使います。" ], "metadata": { "id": "h4WqAro34ARD" } }, { "cell_type": "code", "source": [ "np.savetxt(\"numpy_output.csv\", csvObj2, fmt=\"%d\")" ], "metadata": { "id": "KNSjw9M86WcH" }, "execution_count": null, "outputs": [] }, { "cell_type": "markdown", "source": [ "* fmtオプションは、整数型として値を書き込むことを示しています。例えば、ここを\"%f\"とすると浮動小数点型となります。\n", "\n", "Google Colaboratory画面左端のフォルダマークから、書き出された「numpy_output.csv」の中身を確認してみましょう。\n", "\n", "データ構造化プログラムでは、NumPyを使うことは少ないかもしれません。\n", "\n", "とはいえ例えば、メタデータとして出力したい値を、機器が出力した配列データから計算する必要があるケースなどがあれば、NumPyを使うことを検討してみてください。" ], "metadata": { "id": "QTqXemgtwNNk" } }, { "cell_type": "markdown", "source": [ "## pandasでのCSVファイル読み書き\n", "pandasでCSVファイルの読み書きをやってみましょう。" ], "metadata": { "id": "NQdXj6d97jiO" } }, { "cell_type": "markdown", "source": [ "### モジュールのインポート\n", "pandasを利用するには、今回の講義でご紹介したimport文を使って、pandasのモジュールをインポートします。\n", "\n", "pandasをimportするときは、asを使って「pd」という別名を付けるのが慣例になっています。これもNumPyの「np」と同様、慣例に倣うようにしましょう。\n", "\n", "~~~\n", "import pandas as pd\n", "~~~" ], "metadata": { "id": "0vKO-Ocfee_K" } }, { "cell_type": "markdown", "source": [ "【注意事項】\n", "\n", "NumPyと同様に、Google ColaboratoryやAnacondaでは、pandasが最初からインストールされているのでimport文だけで利用できます。公式版Pythonでは最初はpandasがインストールされていませんので、プログラムを作成する前に、あらかじめpipコマンドを使ってインストールしてください。\n", "\n", "~~~\n", "pip install pandas\n", "~~~" ], "metadata": { "id": "9O9rM3SqejLy" } }, { "cell_type": "markdown", "source": [ "### CSVファイルの読み込み\n", "pandasでCSVファイルを読み込むには、「**read_csv関数**」を使います。\n", "\n", "NumPyのloadtxt関数と同様に、pandasのread_csv関数でもファイルオープンのオープン・クローズを内部で自動的に行いますので、意識する必要はありません。\n", "\n", "今回の例で読み込むのは、次のような内容のCSVファイルです。\n", "\n", "|measureID|date|operator|temperature|measureValue|measureUnit|\n", "|---|---|---|---|---|---|\n", "|MEA001|2022/11/1|鈴木|25|1000|sec|\n", "||2022/11/2|山田|20|999|sec|\n", "|MEA002|2022/11/4|髙橋|R.T|98|min|\n", "|MEA004|3-Nov-22|Adam|18|9|hour|\n", "|MEA005|||15|8|hour|\n", "|MEA003|11-05-2022|山田||(欠測)||" ], "metadata": { "id": "w6wSHkf7xTOB" } }, { "cell_type": "code", "source": [ "import pandas as pd\n", "\n", "df = pd.read_csv(\"pandas_sample.csv\", encoding=\"cp932\")\n", "print(type(df))\n", "print(\"---------------------------------------------\")\n", "print(df)" ], "metadata": { "id": "4Ijo9yV0xnDm" }, "execution_count": null, "outputs": [] }, { "cell_type": "markdown", "source": [ "read_csv関数にも、open関数のようにencodingオプションがあります。pandas_sample.csvはCP932のファイルなので、encoding=\"cp932\"としています。\n", "\n", "pandasでは、CSVファイルから読み込んだ結果をデータフレームという特別な配列に格納します。\n", "\n", "元のCSVファイルとの違いの一つとして、データフレームの左端に通し番号0~5がついていますね。これは、pandasが自動的に付与したデータであり、「インデックス」と呼ばれます。\n", "\n", "また、データフレームではデフォルトの動作として、1行目を自動的にヘッダとみなします。これにより、「measureValue列の値をすべて取り出す」といった指定での操作も可能になります。" ], "metadata": { "id": "I7kC8BEvyADY" } }, { "cell_type": "markdown", "source": [ "### データの加工\n", "データ加工の簡単な例として、温度(temperature)が「R.T」となっているところを、25に置き換えましょう。\n", "\n", "要素を置き換える方法は様々ありますが、ここでは「**loc**」を使用します。\n", "\n", "次のように指定すると、データフレームの「\"カラム名\"列、\"インデックス\"行」の要素をポイントできますので、置き換えたい値を代入しています。\n", "\n", "~~~\n", "データフレーム.loc[インデックス, カラム名]\n", "~~~" ], "metadata": { "id": "c4USILAxe5Zi" } }, { "cell_type": "code", "source": [ "df.loc[2, \"temperature\"] = 25\n", "print(df)" ], "metadata": { "id": "UA09KrRWyH1j" }, "execution_count": null, "outputs": [] }, { "cell_type": "markdown", "source": [ "\"temperature\"列の2行目はR.Tでしたが、25に置き換わりました。" ], "metadata": { "id": "Kl4gyZDLyew_" } }, { "cell_type": "markdown", "source": [ "### CSVファイルの書き出し\n", "それでは、書き換えた結果をファイルに書き込んでみます。\n", "\n", "pandasによるCSVファイルへの書き込みには、to_csvメソッドを使います。" ], "metadata": { "id": "AnclLb0pe-p3" } }, { "cell_type": "code", "source": [ "df.to_csv(\"pandas_output.csv\", index=False)" ], "metadata": { "id": "y6e6DG9lyuOs" }, "execution_count": null, "outputs": [] }, { "cell_type": "markdown", "source": [ "Google Colaboratory画面左端のフォルダマークから、書き出された「numpy_output.csv」の中身を確認してみましょう。\n", "\n", "index=Falseを付けないと、データ左端にある0~6の番号もCSVファイルに出力されます。\n", "\n", "これは元の入力ファイルにはなかったデータなので、今回はindex=Falseとして出力しませんでした。\n", "\n", "【ワンポイント】\n", "\n", "データ構造化プログラムにおいては、機器が出力したデータに欠測値があったり、「R.T」の例のように数値列の中に文字列が混じっていたりするなど、そのままでは構造化しづらいデータが頻繁に登場します。\n", "\n", "そのようなデータをきれいに構造化するために、pandasは大活躍します。\n", "\n", "pandasについては、「データ構造化の代表的なデータ操作方法」の講義でもさらに詳しくご説明します。" ], "metadata": { "id": "Mz3zIC9HzAuW" } }, { "cell_type": "markdown", "source": [ "# ファイルパス\n", "ここでは、ファイルパスについての基礎知識をご紹介します。" ], "metadata": { "id": "8_svr6_Y2Cl4" } }, { "cell_type": "markdown", "source": [ "## Windowsにおけるファイルパスの注意点\n", "LinuxやmacOSとは異なり、Windowsではファイルパスの区切り文字が「\\」になっています。\n", "\n", "(Google Colaboratoryですと、通常の説明文では「バックスラッシュ」、コード例では「円記号」として表示されますが、実態は同じ文字です。)\n", "\n", "|OS|ファイルパスの例|\n", "|---|---|\n", "|Linux, macOS等|/data/tempfile.txt|\n", "|Windows|C:\\data\\tempfile.txt|\n", "\n", "Windowsにおいて、例えばopen関数で次のようにファイルを開こうとすると、エラーとなります。\n", "\n", "(Google ColaboratoryはLinux上でPythonが動作しているので、講義の場で実際に動かせないのが残念ですが・・・)\n", "\n", "~~~\n", "oepn(\"C:\\data\\tempfile.txt\")\n", "~~~\n", "\n", "これは、Pythonにおいて、**ダブルクォートやシングルクォートで囲まれた文字列中の「\\」記号が特別な意味を持つ**ためです。\n", "\n", "上記では、2つ目の「\\」記号の次に「t」が来ています(C:\\data**\\t**empfile.txt)。Pythonでは文字列中の「\\t」は「タブ」の意味となります。\n", "\n", "また、「ファイルの書き込み(writeメソッド)」でご紹介したように、ダブルクォートやシングルクォートで囲まれた文字列中に「\\n」と記述すると、改行の意味になります。\n", "\n", "それ以外にも、「\\」記号が様々な意味を持つパターンがたくさんあります。\n", "\n", "なお、これはあくまで**ダブルクォートやシングルクォートで囲まれた**文字列中の「\\」記号の話です。次のように変数でファイルパスを指定していたとき、変数に格納された文字列に「\\」記号があっても特別な意味にはなりません。\n", "\n", "~~~\n", "oepn(filepath)\n", " → filepathの中身が文字列「C:\\data\\tempfile.txt」であってもエラーにはならない\n", "~~~\n", "\n", "以上のことから、PythonでWindowsのファイルパスを文字列として表すには、工夫が必要です。いくつかの方法をご紹介します。" ], "metadata": { "id": "f-YJ-6H4FPzA" } }, { "cell_type": "markdown", "source": [ "\n", "### 「\\」記号をエスケープする\n", "文字列中に「\\\\\\\\」と記述すると、特別な意味を持たない単なる「\\」という文字になります。\n", "\n", "このように、特別な意味を持つ記号の前に「\\」を付け足して、特別な意味を持たなくすることを、プログラミングの世界では「エスケープする」と言います。\n", "\n", "したがって、次のとおり記述することで、前述のプログラムはエラーとはならなくなります。\n", "\n", "~~~\n", "oepn(\"C:\\\\data\\\\tempfile.txt\")\n", "~~~\n", "\n", "ちなみに「\\d」は特別な意味を持たないパターンなので、最初の「\\」はエスケープしなくても問題ありません。とはいえ、どれが特別な意味を持つのかな?とあれこれ考えるよりも、すべての区切り文字をエスケープした方が安全でしょう。\n", "\n", "少し手間はかかりますが、確実な方法です。" ], "metadata": { "id": "ckqAo2OGjNrp" } }, { "cell_type": "markdown", "source": [ "### raw文字列を使う\n", "文字列の開始となる\"(ダブルクォート)や'(シングルクォート)の前に「r」と記述すると、raw文字列というものになり、文字列中の「\\」が**ほぼ**特別な意味を持たなくなります。次のとおり記述することで、前述のプログラムはエラーとはならなくなります。\n", "\n", "~~~\n", "oepn(r\"C:\\data\\tempfile.txt\")\n", "~~~\n", "\n", "前述の「\\」記号をエスケープする方法よりも手間がかかりませんが、次の点に注意が必要です。\n", "\n", "* 特別な意味を持つ「\\」も同時に使いたい場合は、この方法が使えません。\n", "* 文字列の最後が「\\」で終わる場合、その「\\」だけは「\\\\\\\\」と記述してエスケープしなければいけません。raw文字列であっても「\\\\\"」「\\\\'」だけは「\\」が特別な意味を持ってしまうからです。(文字列の終わりを示す「\"」「'」ではなく、単なる「\"」「'」という文字になってしまう。)\n", "\n", "~~~\n", "open(r\"C:\\data\\tempfile\\\") # 文字列終了を示す「\"」がないとみなされてエラー\n", "open(r\"C:\\data\\tempfile\\\\\") # このようにする必要がある\n", "~~~\n" ], "metadata": { "id": "TEuZf_TCRgsZ" } }, { "cell_type": "markdown", "source": [ "### 「\\」の代わりに「/」を使う\n", "実は、open関数を含むPythonの標準関数や、広く使われるほとんどの外部モジュール・パッケージでは、OSがWindowsであっても、LinuxやmacOSと同じようにファイルパスの区切り文字を「/」にしても正しく動作します。\n", "\n", "~~~\n", "oepn(\"C:/data/tempfile.txt\")\n", "~~~\n", "\n", "お手軽でよい方法ですが、やはり注意すべきポイントがあります。\n", "\n", "例えば次のソースコードでは、exmoduleモジュールのfunc関数に、引数としてファイルパスを渡すとします。\n", "\n", "このとき、func関数の中で区切り文字が「\\」であることを前提とした処理があると、正しく動きません。\n", "\n", "~~~\n", "import exmodule\n", "exmodule.func(\"C:/data/tempfile.txt\")\n", "~~~" ], "metadata": { "id": "gXVmoe0oSNoD" } }, { "cell_type": "markdown", "source": [ "### pathlibモジュールと組み合わせる\n", "少し高度なやり方として、「**pathlibモジュール**」と組み合わせる方法があります。\n", "\n", "pathlibモジュールは、ファイルパスに関わる様々な機能を提供する、Pythonの標準モジュールです。\n", "\n", "pathlibモジュールを厳密に理解するには「クラス」の知識が必要となりますが、ここではイメージをつかんでいただく程度で簡単にご紹介します。\n", "\n", "~~~\n", "from pathlib import Path\n", "\n", "filepath = Path(\"C:/data/tempfile.txt\")\n", "~~~\n", "\n", "pathlibモジュールが提供するPathクラスというものを使って、ファイルパスオブジェクトを作成します。上記の例では、変数filepathにファイルパスオブジェクトが格納されます。\n", "\n", "ファイルパスオブジェクトは文字列型ではありませんが、str関数を使うと、ファイルパスの文字列になります。\n", "\n", "~~~\n", "print(str(filepath))\n", "~~~\n", "\n", "ファイルパスオブジェクトは、作成時に区切り文字として「/」を使っていても、OSがWindowsであれば区切り文字を自動的に「\\」に変換して保持してくれます。\n", "\n", "そのため、上記のprint関数の出力結果は、区切り文字を「\\」として「C:\\data\\tempfile.txt」となります。\n", "\n", "前述のexmodule.func関数の例は、次の通り記述すれば、関数に「C:\\data\\tempfile.txt」が渡されるため、問題が起こりません。\n", "\n", "~~~\n", "from pathlib import Path\n", "import exmodule\n", "\n", "filepath = Path(\"C:/data/tempfile.txt\")\n", "exmodule.func(str(filepath)) # 区切り文字「\\」で関数に渡される\n", "~~~\n", "\n", "結論として、もっとも確実な方法は「\\」記号をエスケープするか、区切り文字を「/」としてpathlibと組み合わせることです。\n", "\n", "ただし、注意点として挙げた内容が問題なければ、他の方法を使ってもよいでしょう。" ], "metadata": { "id": "Igv1PCNJbBMe" } }, { "cell_type": "markdown", "source": [ "## ファイルパスの操作\n", "データ構造化プログラムでは、例えば入力ファイル名を加工して、新たな拡張子を付けて出力ファイル名にするなど、ファイルパス文字列に対して様々な操作を行います。\n", "\n", "ここでは、ファイルパスを加工するいくつかの機能をご紹介します。" ], "metadata": { "id": "7k6DDhBa2Jbk" } }, { "cell_type": "markdown", "source": [ "### ファイルパスからファイル名を取り出す\n", "Pythonが提供するos.pathモジュールの「**basename関数**」を使用すると、ファイルパスからファイル名を取り出すことができます。\n", "\n", "os.pathモジュールを利用する際は、osモジュールをインポートして、ソースコード中で「os.path.関数名」「os.path.変数名」といった形で参照します。" ], "metadata": { "id": "mKqxiQdW7Q55" } }, { "cell_type": "code", "source": [ "import os\n", "\n", "print(os.path.basename(\"/root/data/file.txt\"))" ], "metadata": { "id": "j-LyogY7BdZj" }, "execution_count": null, "outputs": [] }, { "cell_type": "markdown", "source": [ "### ファイルパスからディレクトリ部分を取り出す\n", "os.pathモジュールの「**dirname関数**」を使用すると、ファイルパスからディレクトリ部分を取り出すことができます。" ], "metadata": { "id": "XxRreiNIB0Hl" } }, { "cell_type": "code", "source": [ "import os\n", "\n", "print(os.path.dirname(\"/root/data/file.txt\"))" ], "metadata": { "id": "ST4AKMjGCB4C" }, "execution_count": null, "outputs": [] }, { "cell_type": "markdown", "source": [ "### ディレクトリ名やファイル名を連結してファイルパスを生成する\n", "os.pathモジュールの「**join関数**」を使用すると、ディレクトリ名やファイル名を連結してファイルパスを生成することができます。\n", "\n", "このとき、連結部分の区切り文字は、OSがWindowsであれば「\\」に、LinuxやmacOSであれば「/」に、自動で設定してくれます。" ], "metadata": { "id": "18F2aa8bCFPQ" } }, { "cell_type": "code", "source": [ "import os\n", "\n", "print(os.path.join(\"root\", \"data\", \"file.txt\"))" ], "metadata": { "id": "k7OvhHCgCvaf" }, "execution_count": null, "outputs": [] }, { "cell_type": "markdown", "source": [ "上記をWindows上で実行したときは、結果は「root\\data\\file.txt」となります。" ], "metadata": { "id": "V8elEH9KC8y7" } }, { "cell_type": "markdown", "source": [ "## pathlibの利用\n", "「Windowsにおけるファイルパスの注意点」でご紹介したpathlibモジュールを使って、ここまでご紹介したようなファイルパス操作のいくつかを行うこともできます。\n", "\n", "また、ファイルやディレクトリの作成、移動、削除などといった操作を行うこともできます。(標準的なやり方では、これらの操作にはshutilモジュールなどを使用します。)\n", "\n", "ご参考として、pathlibモジュールが提供するファイルパス操作のための関数を、いくつかピックアップして一覧でご紹介します。\n", "\n", "|関数|機能|\n", "|----|----|\n", "|name|ファイルパスからファイル名を取り出す|\n", "|stem|nameに加えて拡張子を取り除く(pathlib固有の機能)|\n", "|parent|ファイルパスからディレクトリ部分を取り出す|\n", "|parents|ファイルパスから、ディレクトリ部分を分解した結果を取り出す(pathlib固有の機能)|\n", "|/演算子、joinpath|ディレクトリ名やファイル名を連結してファイルパスを生成する|\n", "|mkdir|ディレクトリを作成する(再帰的な作成も可能)|\n", "|rename|移動する、名前を変更する|\n", "|unlink|削除する|\n", "\n", "用途ごとにosモジュール、shutilモジュールと別々のモジュールを使い分けるよりも、すべてpathlibにまとめたほうがプログラムを作成しやすいですし、pathlibを使うことをチーム内でルール化すれば、他の人が作ったソースコードを読みやすくなるという利点もあります。\n", "\n", "pathlibは非常に多機能であること、「クラス」についての知識が必要であることから、今回は詳しくはご説明しませんが、Pythonの知識がついてきたらぜひ調べて使ってみてください。\n", "\n", "ARIM事業のデータ構造化プログラムでも、pathlibを使ってファイルパス操作を行っています。" ], "metadata": { "id": "a6PXFr985_nB" } }, { "cell_type": "markdown", "source": [ "今回の講義は、ここまでとなります。\n", "\n", "次回は、今回ご紹介したpandasについてのさらなる詳細など、データ構造化プログラムにおける代表的なデータ操作方法についてご紹介します。" ], "metadata": { "id": "jkWzOJkrxmkc" } } ] }