{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "# 函数定义再探" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "我们已经见过不少函数,也自己写过一些函数。我们已经理解函数的概念来自代数:从**输入参数**出发,**计算**出函数的**返回值**;我们也知道可以用 `def foo():` 来定义函数。其实函数的定义非常复杂,我们不太能够在第一次介绍时就讲清楚,所以之前我们就采取“先引入用起来”的方法,这也是一种知识上的“提前引用”。\n", "\n", "这一章我们就围绕函数定义深入看看。" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 为函数命名" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "哪怕一个函数内部什么都不干,它也得有个名字,然后名字后面要加上圆括号 `()`,以明示它是个函数,而不是某个变量。" ] }, { "cell_type": "code", "execution_count": 1, "metadata": {}, "outputs": [], "source": [ "def do_nothing():\n", " pass\n", "\n", "do_nothing()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "这就是个“什么也不干”的函数,关键字 `pass` 就是什么也不干的意思。" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "给函数命名(给变量命名也一样)需要遵循的一些规则如下:\n", "* 首先,名称不能以数字开头,能用在名称开头的只有大小写字母和下划线 `_`;\n", "* 其次,名称中不能有空格,如果一个名字里有好几个词汇,可以用下划线来分割(`do_nothing`),也可以用所谓 *Camel Case* 风格(*doNothing*),习惯上更推荐使用下划线;\n", "* 最后,绝对不能与 Python 语言的**关键字**(*keyword*)重复。\n", "\n", "最后这一条,关键字也叫**保留字**(*reserved*),是编程语言保护起来内部使用的,如果程序用这些词儿做变量或者函数或者类型名字,编译器或者解释器就无法正确工作了。Python 提供了一个模块叫 `keyword` 来帮助我们了解语言有哪些关键字:" ] }, { "cell_type": "code", "execution_count": 2, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "['False',\n", " 'None',\n", " 'True',\n", " 'and',\n", " 'as',\n", " 'assert',\n", " 'async',\n", " 'await',\n", " 'break',\n", " 'class',\n", " 'continue',\n", " 'def',\n", " 'del',\n", " 'elif',\n", " 'else',\n", " 'except',\n", " 'finally',\n", " 'for',\n", " 'from',\n", " 'global',\n", " 'if',\n", " 'import',\n", " 'in',\n", " 'is',\n", " 'lambda',\n", " 'nonlocal',\n", " 'not',\n", " 'or',\n", " 'pass',\n", " 'raise',\n", " 'return',\n", " 'try',\n", " 'while',\n", " 'with',\n", " 'yield']" ] }, "execution_count": 2, "metadata": {}, "output_type": "execute_result" } ], "source": [ "import keyword\n", "keyword.kwlist" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "`keyword.kwlist` 就是当前你使用的 Python 解释器中不可使用的关键字列表,如果我们不记得这个列表,可以随时用 `keyword.iskeyword('xxx')` 来查询某个词是不是关键字。" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "在程序里给变量、函数命名是个挺重要的事情,影响到程序的可读性,就像小说的语言,最好能有一种流畅清晰、又始终一致的**风格**(*style*)。为了让全世界的 Python 程序员都有相对一致的风格,Python 社区有专门的一套建议规范,放在专门维护 Python 语言特性的社区 [PEP](https://www.python.org/dev/peps/) 上:\n", "\n", "* [PEP 8 -- Style Guide for Python Code: Naming Conventions](https://www.python.org/dev/peps/pep-0008/#naming-conventions)\n", "\n", "> PEP,是 *Python enhancement proposal* 的缩写,每当有重要的语言特性新需求新想法,就放在这里,经过广大 Python 用户和开发者的讨论完善,在某个版本放进 Python 中。很多 PEP 早已从 *proposal* 毕业变成官方特性,但也还在这里保留着。PEP 8 就是一个古老的 *proposal*,现在已为大多数 Python 用户采纳。" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 没有、一个和多个参数" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "函数可以没有参数,也可以有一个或者多个参数。\n", "\n", "没有参数就意味着,这个函数执行不依赖于输入,比如我们定义一个函数来在程序结束时打印一句退出提示:" ] }, { "cell_type": "code", "execution_count": 3, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Program exits. Bye.\n" ] } ], "source": [ "def exit_info():\n", " print('Program exits. Bye.')\n", " \n", "exit_info()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "注意即使没有参数,无论定义还是调用时,函数名后面的括号都是不可省略的,这是函数身份的标志。" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "函数也可以有多个参数,调用时输入参数的值是严格按照参数的顺序去匹配的。比如我们写一个函数输出某年到某年之间的所有闰年:" ] }, { "cell_type": "code", "execution_count": 4, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "2000\n", "2004\n", "2008\n", "2012\n", "2016\n" ] } ], "source": [ "def leap_years(begin, end):\n", " year = begin\n", " while year < end:\n", " if (year % 4 == 0 and year % 100 != 0) or year % 400 == 0:\n", " print(year)\n", " year += 1\n", " \n", "leap_years(2000, 2020)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "当我们调用 `leap_years(2000, 2020)` 时,输入两个参数值 2000 和 2020,按照顺序匹配函数定义 `leap_years(begin, end)`,于是 `begin = 2000` `end = 2020`。所以参数的顺序是不能搞错的,有些函数参数很多,要是开发过程中还调整过顺序的话,那简直就是灾难,所以一般情况下还是保持函数参数不要乱动为好。\n", "\n", "顺便说一句,判断闰年的算法虽然不难,但要写的简洁也不容易。建议你可以先自己思考和实现一遍,然后尝试搞清楚为啥上面代码里的那行 `if` 是对的。实际上闰年的判断有很多正确的写法,你应该尝试写出自己的版本并确认它的正确性。" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 没有、一个和多个返回值" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "和参数一样,Python 的函数可以没有返回值,也可以有一个或者多个返回值。\n", "\n", "上面的 `exit_info` 和 `leap_year` 也是没有返回值的例子,它们的效果都通过 `print` 函数来体现。实际上没有返回语句的函数,等价于在其最后有一句 `return None`,表示函数返回了一个空值 `None`,`None` 在 Python 中是一个合法的值,表示什么都没有,它在逻辑上等价于 `False`:" ] }, { "cell_type": "code", "execution_count": 5, "metadata": {}, "outputs": [ { "data": { "text/plain": [ "False" ] }, "execution_count": 5, "metadata": {}, "output_type": "execute_result" } ], "source": [ "bool(None)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "所以即使没有返回值的函数,也可以用在 `if` 后面做逻辑表达式,不过我们并不推荐这么做,因为可读性很差。" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "大部分情况下函数是有返回值的,因为绝大部分情况下函数的作用都是做“数据处理”,从输入出发得到输出。\n", "\n", "一般情况下函数都只有一个返回值,我们已经见过不少例子;但 Python 也允许多返回值,比如我们想用一个函数来计算两个整数相除的商和余数,可以这么写:" ] }, { "cell_type": "code", "execution_count": 6, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "8 2\n" ] } ], "source": [ "def idiv(a, b):\n", " quotient = a // b\n", " remainder = a % b\n", " return quotient, remainder\n", "\n", "q, r = idiv(50, 6)\n", "print(q, r)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "和多参数的情况类似,多返回值的情况下,赋值也是按照顺序匹配的,上面的代码中赋值语句左边的 `q` 匹配到第一个返回值,`r` 匹配第二个。" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 函数内与函数外:变量的作用域" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "下面的代码经常会把人搞晕:" ] }, { "cell_type": "code", "execution_count": 7, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "2\n", "1\n" ] } ], "source": [ "def increase_one(n):\n", " n += 1\n", " return n\n", "\n", "n = 1\n", "print(increase_one(n))\n", "print(n)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "请你思考一下,为什么这段代码里的两个 `print` 函数输出分别是 2 和 1。\n", "\n", "这个问题就涉及到变量的**作用域**(*scope*)问题,也就是说在不同地方出现的同名变量和函数,可能是完全不同的两个东西:\n", "* 函数定义体中的变量的作用域是该函数内,程序的其他部分不知道其存在,这种变量叫**局部变量**(*local variable*);函数的输入参数也是局部变量,也只在函数定义体中有效;\n", "* 不在任何函数、类定义体中的变量的作用域是全局的,在任何地方都可以访问,这种变量称为**全局变量**(*global variable*);\n", "* 如果局部变量和全局变量同名,函数定义体内会优先局部变量,不会把它当做全局变量。\n", "\n", "这样我们就能理解上面代码输出的 2 和 1 了:\n", "* 第一个 `print()` 打印的是函数调用 `increase_one(n)` 的返回值,这个语句不在任何函数定义体中,所以它里面用到的变量都是全局变量:\n", " * 在调用 `increase_one()` 时参数 `n`,按照作用域原理,是全局变量 `n` 当时的值,也就是 1;\n", " * 在 `increase_one()` 函数定义内,参数 `n` 是输入参数即局部变量,带着传进来的值 1,经过加一之后返回,返回值是 2;\n", " * `print` 打印这个返回值,输出 2;\n", " * 这个过程中处理的都是局部变量,完全不影响全局变量 `n` 的值;\n", "* 第二个 `print()` 打印的是全局变量 `n` 的值,输出出 1。" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "以上的文字,可能需要反复阅读若干遍;几遍下来,消除了疑惑,以后就彻底没问题了;若是这个疑惑并未消除,或者关键点并未消化,以后则会反复被这个疑惑所坑害,浪费无数时间。\n", "\n", "顺便说一句,上面这个例子用来说明作用域的概念很有用,但是平时写程序最好别这么写,减少重名的变量可以提升代码的清晰度和可读性。" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "与此相关的,我们在介绍列表等数据容器时,会为上面的规则作出重要的补充,这里先留一个伏笔。" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 带缺省值的参数" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "我们其实已经见过带缺省值的参数(*argument with default value*),这里我们更细致的看看这个特性。\n", "\n", "在函数定义中可以在某个参数后面用等号 `=` 给它一个缺省值,调用时可以省略传入这个参数的值,直接采用缺省值;当然也可以在调用时传入这个参数的值来覆盖掉缺省值。这种特性相当于给了这个函数两个版本,一个带某个参数,一个不带,不带的版本就当该参数是某个缺省值。看看下面的例子:" ] }, { "cell_type": "code", "execution_count": 8, "metadata": {}, "outputs": [], "source": [ "def greeting(name, msg='Hi'):\n", " print(f'{msg}, {name}!')" ] }, { "cell_type": "code", "execution_count": 9, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Hi, Neo!\n" ] } ], "source": [ "greeting('Neo')" ] }, { "cell_type": "code", "execution_count": 10, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Good morning, Neo!\n" ] } ], "source": [ "greeting('Neo', 'Good morning')" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "一个函数可以有多个带缺省值的参数,但有一个限制:所有这些带缺省值的参数只能堆在参数表的最后,也就是说你定义的参数表里,出现一个带缺省值的参数,则它后面的都必须带缺省值。如果把上面的 `greeting()` 函数的两个参数调换一下,会扔出一个 `SyntaxError: non-default argument follows default argument` 的异常。" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 指定参数名来调用函数" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "我们前面说过,调用函数时传入的参数值会严格按照顺序去匹配参数变量,第一个输入值赋给第一个参数变量,第二个值赋给第二个参数变量,依此类推。因为有了上面说的带缺省值参数,这个规则出现了变通的可能。\n", "\n", "如果一个函数有多个带缺省值的参数,我们想忽略掉某几个参数(就用其缺省值),但指定后面某一个参数的值(覆盖缺省值),例如下面这个函数:" ] }, { "cell_type": "code", "execution_count": 11, "metadata": {}, "outputs": [], "source": [ "def greeting(name, msg='Hi', punc='!'):\n", " print(f'{msg}, {name}{punc}')" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "在这个版本的 `greeting()` 函数中,包含一个普通参数 `name` 和两个带缺省值的参数 `msg` `punc`,如果我们想跳过 `msg` 只传入 `name`(这个是必须的,因为没有缺省值)和 `punc` 的值,那么就可用下面的语法:" ] }, { "cell_type": "code", "execution_count": 12, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Hi, Neo.\n" ] } ], "source": [ "greeting('Neo', punc='.')" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "这里第一个值按照顺序位置匹配到参数变量 `name`,这叫 *positional argument*(即“按照位置顺序匹配的参数”),而按照位置下一个是 `msg`,是我们想跳过的,所以要注明参数变量名,说明下一个传入的值 `'.'` 是给 `punc` 参数变量的,这叫 *keyword argument*(即“按照参数名匹配的参数”)。\n", "\n", "由于所有带缺省值的参数都在普通参数的后面,所以我们只要记住:\n", "* 调用函数时先传入所有不带缺省值的参数的值,严格按照函数定义的位置顺序(*positional*);\n", "* 然后想指定哪些带缺省值参数的值,就用 `变量名=值` 这样的格式在后面列出(*keyword*),未列出的就还用缺省值了。\n", "\n", "在后半部分,顺序就无所谓了,可以和定义时不一样,反正是用名字指定的(*keyword*),比如我们完全可以这么干:" ] }, { "cell_type": "code", "execution_count": 13, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Good nite, Neo.\n" ] } ], "source": [ "greeting('Neo', punc='.', msg='Good nite')" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 变长参数" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "到目前为止,Python 的函数定义还是很简单清晰的,无论参数还是返回值,都没什么难懂的。下面开始就要进入比较混沌的领域了。\n", "\n", "所谓变长参数就是函数定义时名字前面带个星号 `*` 的参数变量,这表示这个变量其实是一组值,多少个都可以。我们先来看个简单的例子:" ] }, { "cell_type": "code", "execution_count": 14, "metadata": {}, "outputs": [], "source": [ "def say_hi(*names):\n", " for name in names:\n", " print('Hi,', name)" ] }, { "cell_type": "code", "execution_count": 15, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Hi, Neo\n" ] } ], "source": [ "say_hi('Neo')" ] }, { "cell_type": "code", "execution_count": 16, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Hi, Neo\n", "Hi, Trinity\n" ] } ], "source": [ "say_hi('Neo', 'Trinity')" ] }, { "cell_type": "code", "execution_count": 17, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Hi, Neo\n", "Hi, Trinity\n", "Hi, Morpheus\n" ] } ], "source": [ "say_hi('Neo', 'Trinity', 'Morpheus')" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "在这个例子里,`*names` 是一个变长参数(*arbitrary argument*),调用时可以传入一个或者多个值,函数会把这些值看做一个列表,赋给局部变量 `names`——后面我们会知道,其实不是**列表**(*list*),而是一个**元组**(*tuple*)——然后我们在函数体中可以用 `for...in` 来对这个 `names` 做循环。\n", "\n", "> 有些中文书籍把 *arbitrary arguments* 翻译成“可变参数”或者“任意参数”。事实上,在这样的地方,无论怎样的中文翻译都是很难准确表达原意的。这还算好的,甚至还见过翻译成“武断的参数”的——这样的翻译肯定会使读者产生说不明道不白的疑惑。\n", ">\n", "> 所以,**入门之后就尽量只用英文**是个好策略。虽然刚开始有点吃力,但后面会很省心,很长寿——是呀,少浪费时间、少浪费生命,其实就相当于更长寿了呀!" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "在使用 *arbitrary argument* 的场合,有几点需要注意:\n", "* 参数变量名最好用复数单词,一看就知道是一组数据;这个变量在函数里通常都会被 `for...in` 循环处理,用复数名词在写类似 `for name in names` 的循环语句时会很舒服、很地道(*idiomatic*),是的,写程序和学外语一样,不写则已,写就要尽量写得“地道”;\n", "* 这种参数变量只能有一个,因为从它开始后面的输入值都会被当做它的一部分,多了就不知道怎么分了,显然,如果有这种参数,必须放在参数表的最后。\n", "\n", "上面的第二点,有一个不太常见的例外,那就是一个函数既有 *arbitrary arguments* 又有 *arguments with default values* 的情况,那么可以有两个 *arbitrary arguments*,其中第二个必须带缺省值,然后参数表排列成这样:\n", "\n", "`def monstrosity(*normal arguments*, *normal arbitrary argument*, *arguments with defaults*, *arbitrary argument with default*)`\n", "\n", "这样是完全符合语法要求的,调用时传入参数值还是按照前面讲的规则,先按照位置顺序匹配前两部分,多出来的都归 *normal arbitrary argument*;然后按照参数变量名指定对应值,没指定的都用缺省值。不过这实在是太麻烦了,不知道什么情况下才必须用这么可怕的函数,还是祈祷我们不会碰到这样的场景吧!\n", "\n", "当然,只有上面列出的前三个部分的情况还是有的,比如下面的例子:" ] }, { "cell_type": "code", "execution_count": 18, "metadata": {}, "outputs": [], "source": [ "def say_hi(*names, msg='Hi', punc='!'):\n", " for name in names:\n", " print(f'{msg}, {name}{punc}')" ] }, { "cell_type": "code", "execution_count": 19, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Hi, Neo.\n", "Hi, Trinity.\n" ] } ], "source": [ "say_hi('Neo', 'Trinity', punc='.')" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 小结" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "* 函数定义四要素:函数名、参数表、函数体和返回值,本章对每一个部分都进行了更深入的说明,尤其是一些特殊的用法;\n", "* 函数定义内外是两个不同的“**作用域**(*scope*)”,区分出全局变量和局部变量,需要充分理解其运作原理;\n", "* 参数表可以分为四段(正常情况下最多只会用到前三段),需要充分理解每一段的特点,如何定义和使用,以及为什么。" ] } ], "metadata": { "kernelspec": { "display_name": "Python 3", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.7.4" } }, "nbformat": 4, "nbformat_minor": 4 }