@[toc]
热带半环 1️⃣基本概念:集合
集合上的运算 单位元,即
集合:所有实数加一个特殊元素(负无穷
),即 运算:对
,热带加法 ,热带乘法 单位元:
是热带加的单位元 , 是热带乘的单位元 2️⃣基本性质:环❌
半环✅ 半域✅
为何是半环:满足以下运算定律
运算律 对热带加法 对热带乘法 交换律 结合律
分配律:
关于逆元:对热带半环,加法逆元❌
乘法逆元✅
逆元类型 定义 对热带半环 加法逆元 若 则 为 加法逆元,记 不存在 故不为环 乘法逆元 若 则 为 乘法逆元,记 存在 故为半域,故可进行除法
所谓环:在半环的基础上,所有元素都必须有其对应的加法逆元
所谓半域:在半环的基础上,除了加法单位元以外的所有元素,都必须有其对应的乘法逆元
3️⃣热带函数:有理函数(热带多项式的热带商)
多项式 扩展运算
运算扩展:热带幂和热带商
运算 半环中 热带半环中 特殊的 热带幂 及 热带商 热带多项式
有理函数:令
热带多项式:相当于多个线性函数(更精确地说,仿射函数)取最大值
算式 结构 转换回常规运算 性质 热带单项式 线性函数 热带多项式 凸函数 热带有理函数:热带多项式的热带商,且定义
符号 定义 转换回常规运算 性质 两凸函数差( 函数) 补充:对
及 ,多项式 可简写为 一些推广:函数集代数结构与向量值函数
函数集的代数结构:注意,热带多项式可看作热带有理函数分母为
时
集合 半环结构 半域 构成的所有热带多项式集 ❌ 构成的所有热带有理函数集 ✅ 向量值函数:将不同的函数
多项式一次拼接
向量函数类型 函数 的定义 补充 热带多项式 为所有 函数集 热带有理函数 为所有 函数集
热带超曲面与牛顿对偶 1️⃣热带超曲面
定义:考虑热带多项式
![]()
形式定义:
,当 时从热带超曲面退化为热带曲线 直观理解:多项式由最高平面
拼接成,热带超曲面即两最高平面连接处 基本含义:在某点
至少两单项式同时取得最大值,即 本质:将
划分为多个凸胞腔
直观理解:每个凸胞腔都是一个单项式“称霸”的区域,即每个凸胞腔内
可用一单项式精确描述 形式定义:单项式
取得最大值的胞腔是 2️⃣牛顿多边形及牛顿对偶
第一步:以
为例,提取因子
单项式 次方 次方 常数项 指数点 之后步:(注意所谓上表面,即表面法向量与
维中从最后一维 高度维夹角为锐角) ![]()
操作 描述 牛顿多边形 取所有指数点 的凸包(相当于用橡皮筋围住最外围点) 多面体 基于牛顿多边形,在 基础上增加一个值为 的维度,成为 对偶细分 将多面体 上表面的边和顶点,垂直投影回到底部牛顿多边形 最后步:对牛顿多边形
上的对偶细分 ,建立对偶细分 和热带超曲面 的联系
偶细分 对应超曲面 含义 示例 对应 示例 维面 维面 个 打平 边 折痕 两 打平 线 折痕( ) 顶点 线性区 一 主导 点 线性区( 主导)
对偶定理:
线性区域数 上表面顶点数 总顶点数 3️⃣线性区域:
含义:
定义域中保持其线性的最大的连通子集,即同一线性区域内不同的两点都线性可达 性质:当
为热带多项式(凸函数)时其线性区域为凸,当 为热带有理函数( 函数)时其线性区域非凸 意义:
线性区域数量记为 ,一个神经网络能划分出更多线性区域,去拟合能力更强
热带多项式的几何学描述 0️⃣闵可夫斯基和:形式定义与一些延申
形式定义:对两集合
而言,其 和为 直观理解:将形状
的原点,在形状 每个点上移动,移动过程中 扫描的区域即 和 对多面体:多面体
合 的 和,即顶点集 和 的 和,再求凸包 一些扩展:两个(或多个)线段的
和(一线段每个点与另一线段每个点相加),为带状多面体 ![]()
1️⃣构建与变换:热带多项式的几何学
单项式与顶点:
结构上:
一单项式 一生成顶点 运算上:
单项式的热带运算 对 顶点的几何变换,具体如下
单项式的热带运算 转为常规运算 相当于对多面体中.... 将 求和变成求 放缩 成 单项式到多项式
结构上:多个单项式热带相加
多个顶点求凸包以生成成多面体 运算上:
可转化为 ,即求 凸包 多项式与多面体:
热带幂
:相当于缩放,即
领域 操作 解释 热带运算 热带幂 相当于 ,即每个单项式系数 和指数 乘上 几何变换 缩放 每个顶点 变为 ,即每个顶点都相对原点拉伸 倍 热带积
:相当于闵可夫斯基和,即
领域 操作 解释 热带运算 热带积 每个单项式与 每个单项式热带乘(相加)再热带加(求 ) 几何变换 多面体 和 每个顶点与 每个顶点坐标依次相加,再求凸包 热带和
:相当于顶点联合的凸包,即
领域 操作 解释 热带运算 热带积 和 各自的多项式合在一起,再求合一起后的最大值 几何变换 顶点联合的凸包 与 中所有顶点合在一起,对合一起后的点集求凸包 2️⃣理论保证:如何界定新生成多面体的顶点数
定理:生成多面体最多多少个顶点
参数说明:
表示多面体 所处空间的维度, 为收集所有 棱后非平行棱的总数 定理内容:令多面体
进行 和后新多面体顶点数为 ,则 取等条件:每个多面体
都为带状多面体,且构成每个 的线段都处于一般位置 定理的关键推论:新生成多面体上表面有多少顶点,即多项式有多少线性区域数
条件改变:
从任意形状的多面体限定为了带状多面体, 结论改变:
进行 和后新多面体上表面顶点数为 ,则 取等条件:
所有 条线段都处于一般位置,新多面体( 维)顶点投影回 维后都处于一般位置 (补充)关于一般位置:即任意
个点不会被维度 的空间容纳,例如四点不共面,三点不共线
神经网络及其假设 1️⃣神经网络的数学模型:定义一个共
层全连接的前馈网络
对于每一层
:
结构:输入
维的 后输出 维的 ,每层可学习参数有权重矩阵 及偏置向量 运算:先将
输入仿射变换 再激活 补充:本文
采用广义 (详见下),因为其为最典型的激活函数,也方便用热带代数描述 对于所有
层:
结构:
即 ,但不会 一下 运算:
2️⃣三条较温和的假设:使神经网络行为能严格对应热带运算
对权重矩阵:
每个权重都是整数,这种假设是温和的(见下例),对应了热带单项式的指数 对偏置向量:
的每个值都是实数,对应热带单项式的系数 广义
:即 (逐个应用在 每维),非线性激活可用热带运算表述
可退化为其它的激活函数:当
时退化为普通 函数,当 时 不可退化为平滑激活函数:如
等
神经网络的热带代数 1️⃣从神经网络到热带有理函数:写在前面
灵感所在:热带多项式为凸
热带有理函数非凸;神经网络也非凸,是否等于热带有理函数 计算要素:
过程中,神经网络中的参数最终会到热带多项式的哪里
过程 热带代数中 备注 中的 权重参数 热带多项式中的幂,幂必为整数故权重只能为整数 中的 偏置参数 热带多项式的系数 2️⃣从神经网络到热带有理函数:递归证明(全文最核心部分)
基础步骤:原始输入
,经过第 层 的输出 是怎么样的
每层输出:得到
权重分解:提取
绝对值以分解为 和 ,且 恒等变换:得到
热带表示:设置
,(如下表) 每一维都是热带有理函数
项(共 维) 热带算式 热带多项式 第 维 ✅ 第 维 ✅ 最终结论:输出
每一维严格满足热带有理函数定义,即 每一维都是热带有理函数 归纳步骤:第
层 的输出 ,经过第 层 的输出 是怎么样的
符号 值 每维依然是热带多项式 ✅ ✅ ✅
仿射:
激活:
,为一个热带有理函数 结论:每一层的输出
的每一维都是一个热带有理函数 最终结论:函数
满足三条假设的神经网络 可以被看作一个热带有理函数 3️⃣从神经网络到热带有理函数:结论扩展
引入上界:视热带函数
为 层神经网络,则 ( 为单项式数量) 新的等价:现引入并考虑连续分段线性函数,则以下三者任意二者互相等价
整数系数连续分段线性函数
热带有理函数
满足三条假设的神经网络
更强等价:去除权重为整数的限制的神经网络
热带有理符号映射
热带符号函数:即
, 为实数(多项式中只能是整数) 热带有理符号映射:类似于热带有理函数,被定义为连哥哥热带符号函数的热带商
一些讨论:本文非要使用热带符号函数的“退化”热带多项式,因为只有后者才属于热带几何范畴
神经网络的热带几何
决策边界的热带几何性质 1️⃣决策边界的概念
评分函数:变换神经网络输出
以得到评分 ,如 决策规则:用于分类,比如二元分类中
大于阈值 就归为一类,小于阈值 就归为另一类 决策边界:使评分等于决策阈值的神经网络输入集
2️⃣决策边界的热带几何性
前提条件:所有研究是神经网络
是怎么样的
满足前面所提到的三个假设,即权重为整数 偏置量为实数 激活函数为广义
最后一层 只进行仿射变换不激活,即令 使
可写为两热带多项式 和 的热带商,即 结论一:决策边界划分出来的正区域的数量,存在一个天然的上界
正区:即评分大于阈值
,即 的区域,含义如下
结构 如何理解 好比一个"地表"(多项式),由 个平坦"斜面"(某个单项式)拼接而成 好比一个"水面"(多项式),由 个平坦"斜面"(某个单项式)拼接而成 正区 "地表"没有被"水面"淹没的地方,即好比"孤岛" 结论:对
每块"斜面",或被淹没 与其他"斜面"一起构成"孤岛",故"孤岛"定少于"斜面" 结论二:神经网络的决策边界
,被一个更完整的热带超曲面包含
上表面:即
,好比“可见地貌”("水面" "孤岛") 超曲面:即
,表示“可见地貌”上的所有"斜面"的"棱线",这些"棱线"分为三类
类型 如何理解 “海岸线” 即决策边界 ,也就是 "地表"和"水面"等高的地方 “陆地线” 的被“海岸线”(决策边界)截去的上半部分 “海洋线” 的被“海岸线”(决策边界)截去的下半部分 结论:神经网络的决策边界
被热带超曲面 容纳,即
神经网络的热带几何演化 1️⃣知识回顾:递推公式与几何变换
逐层递推:设神经网络
层输出为两热带多项式的热带商 ,则 几何变换:多项式
的运算 多项式的多面体 的几何变换
多项式中 多项式的多面体中 解释 热带幂 相当于缩放 热带积 相当于闵可夫斯基和 热带和 相当于顶点联合的凸包 2️⃣逐层递归:一个几何结构变换的视角,从点
线段 带状多面体 复杂多面体
第
层:拆解
结构 视角 解读 第 维 代数 第 维 代数 几何 点 几何 点 第
层:代入递归,注 为 第 维, 为 第 行 列
结构 视角 解读 第 维 代数 第 维 代数 几何 线段 几何 单点 第
层:再代入递归,向量 矩阵的元素符号与上类似
结构 视角 解读 第 维 代数 形式上为两个复杂多项式的 第 维 代数 形式上为两个复杂多项式的 几何 多项式的 多个线段 多面体的端点合并后求凸包 复杂多面体 几何 多项式的 多个线段求闵可夫斯基和 带状多面体(简单多面体) 第
层:不断递归,已经是多面体了再递归 只会生成更复杂多面体
神经网络的几何复杂度 1️⃣基本思路
度量:神经网络可等价为热带多项式,而热带多项式的线性区域数目越多,神经网络就越强
目标:利用前面建立的热带几何框架,推导出这个线性区域数量的上限
2️⃣主定理
内容:对深度为
宽度为 的神经网络,输入维度为 时线性区域数量为 证明:思路是转化为证明热带几何中多面体顶点数的上界,具体过程在笔记中略
洞见:增加深度(指数级增加),是比增加宽度(多项式级增长)更有效提升网络表达能力的手段