@[toc]

原论文

1. 热带几何&热带代数

1.1. 热带半环

1️⃣基本概念:集合+集合上的运算+单位元,即(K,,,0,1)=(R{},max,+,,0)

  1. 集合:所有实数加一个特殊元素(负无穷),即R{}

  2. 运算:对x,yR{},热带加法xy=max{x,y},热带乘法xy=x+y

  3. 单位元:是热带加的单位元max{x,}=x0是热带乘的单位元x+0=x

2️⃣基本性质:环❌/半环✅/半域✅

  1. 为何是半环:满足以下运算定律

    运算律对热带加法对热带乘法
    交换律max{a,b}=max{b,a}a+b=b+a
    结合律max{max{a,b},c}=max{a,max{b,c}}a+(b+c)=(b+a)+c
    • 分配律:a+max{b,c}=max{a+b,a+c}

  2. 关于逆元:对热带半环,加法逆元❌/乘法逆元✅

    逆元类型定义对热带半环
    加法逆元xy=0yx加法逆元,记y=x不存在max{x,y}=故不为环
    乘法逆元xy=1yx乘法逆元,记y=x1存在x+(x)=0故为半域,故可进行除法
    • 所谓环:在半环的基础上,所有元素都必须有其对应的加法逆元

    • 所谓半域:在半环的基础上,除了加法单位元以外的所有元素,都必须有其对应的乘法逆元

3️⃣热带函数:有理函数(热带多项式的热带商)多项式扩展运算

  1. 运算扩展:热带幂和热带商

    运算半环中热带半环中特殊的
    热带幂xa=xxxa=ax()a=()0=0
    热带商ab=ab(1)ab=abN/A
  2. 热带多项式&有理函数:令x=x1,...,xd

    • 热带多项式:相当于多个线性函数(更精确地说,仿射函数)取最大值

      算式结构转换回常规运算性质
      热带单项式Li(x)=cix1a1xdadci+ai1x1++aidxd线性函数
      热带多项式f(x)=L1L2Lrmax{L1(x),...,Lr(x)}凸函数
    • 热带有理函数:热带多项式的热带商,且定义f(x)g(x)=f(x)g(x)

      符号定义转换回常规运算性质
      h(x)f(x)g(x)max{L1,...,Lr}max{L1,...,Ls}两凸函数差(DC函数)
    • 补充:对x=x1,...,xdαi=ai1,...,aid,多项式cix1ai1xdaid可简写为cixαi

  3. 一些推广:函数集代数结构与向量值函数

    • 函数集的代数结构:注意,热带多项式可看作热带有理函数分母为1=0

      集合半环结构半域
      x1,...,xd构成的所有热带多项式集(T[x1,...,xd],max,+,,0)
      x1,...,xd构成的所有热带有理函数集(T(x1,...,xd),max,+,,0)
    • 向量值函数:将不同的函数/多项式一次拼接

      向量函数类型函数RdRp的定义补充
      热带多项式Ff:F(x)=(f1(x),...,fp(x))Pol(d,p)为所有Ff:RdRp函数集
      热带有理函数Fh:F(x)=(h1(x),...,hp(x))Rat(d,p)为所有Fh:RdRp函数集

1.2. 热带超曲面与牛顿对偶

1️⃣热带超曲面

  1. 定义:考虑热带多项式f(x)=max{L1(x),...,Lr(x)} image-20250706010940441

    • 形式定义:T(f)={xRdcixαi=cjxαj=f(x),ij},当d=2时从热带超曲面退化为热带曲线

    • 直观理解:多项式由最高平面max{L1(x),...,Lr(x)}拼接成,热带超曲面即两最高平面连接处

    • 基本含义:在某点x至少两单项式同时取得最大值,即Li(x)=Lj(x)=max{L1(x),...,Lr(x)}

  2. 本质:将f(x)=max{L1(x),...,Lr(x)}划分为多个凸胞腔

    • 直观理解:每个凸胞腔都是一个单项式“称霸”的区域,即每个凸胞腔内f(x)可用一单项式精确描述

    • 形式定义:单项式cjxαj取得最大值的胞腔是{xRdcj+αjTxci+αiTx,ij}

2️⃣牛顿多边形及牛顿对偶

  1. 第一步:以f(x1,x2)=(1x12)(1x22)(2x1x2)(2x1)(2x2)(2)为例,提取因子

    单项式x1次方x2次方常数项指数点αc
    1x12201α1=(2,0)c1=1
    1x22021α2=(0,2)c2=1
    2x1x2112α3=(1,1)c3=2
    2x1102α4=(1,0)c4=2
    2x2012α5=(0,1)c5=2
    2002α6=(0,0)c6=2
  2. 之后步:(注意所谓上表面,即表面法向量与d维中从最后一维/高度维夹角为锐角) image-20250706020701704

    操作描述
    牛顿多边形Δ(f)取所有指数点α的凸包(相当于用橡皮筋围住最外围点)
    多面体P(f)基于牛顿多边形,在α基础上增加一个值为c的维度,成为(αi,ci)
    对偶细分δ(f)将多面体P(f)上表面的边和顶点,垂直投影回到底部牛顿多边形Δ(f)
  3. 最后步:对牛顿多边形Δ(f)上的对偶细分δ(f),建立对偶细分δ(f)和热带超曲面T(f)的联系

    偶细分δ(f)对应超曲面T(f)含义δ(f)示例对应T(f)示例
    k维面(dk)维面k+1Li打平N/AN/A
    (k=1)折痕(k=1/d=2)Li打平线(1,0)(0,0)折痕(2x1=2)
    顶点(k=0)线性区(k=0/d=2)Li主导(1,0)线性区(2x1主导)
    • 对偶定理:T(f)线性区域数=P(f)上表面顶点数P(f)总顶点数

3️⃣线性区域:

  1. 含义:F定义域中保持其线性的最大的连通子集,即同一线性区域内不同的两点都线性可达

  2. 性质:当F为热带多项式(凸函数)时其线性区域为凸,当F为热带有理函数(DC函数)时其线性区域非凸

  3. 意义:F线性区域数量记为N(F),一个神经网络能划分出更多线性区域,去拟合能力更强

1.3. 热带多项式的几何学描述

0️⃣闵可夫斯基和:形式定义与一些延申

  1. 形式定义:对两集合P1/P2而言,其Minkowski和为P1+P2:={x1+x2x1P1,x2P2}

  2. 直观理解:将形状P2的原点,在形状P1每个点上移动,移动过程中P2扫描的区域即Minkowski

  3. 对多面体:多面体P(f)P(g)Minko.和,即顶点集V(P(f))V(P(g))Minko.和,再求凸包

  4. 一些扩展:两个(或多个)线段的Minkowski和(一线段每个点与另一线段每个点相加),为带状多面体 image-20250707023657057

1️⃣构建与变换:热带多项式的几何学

  1. 单项式与顶点:

    • 结构上:f一单项式Li=ci+ai1x1++aidxdP(f)一生成顶点(αi,ci)=(ai1,...,aid,ci)

    • 运算上:f单项式的热带运算P(f)顶点的几何变换,具体如下

      单项式的热带运算转为常规运算相当于对多面体中....
      L1LnL1++Ln(αi,ci)求和变成求(α1++αn,c1++cn)
      LiaaLi放缩(αi,ci)(aαi,aci)
  2. 单项式到多项式

    • 结构上:多个单项式热带相加多个顶点求凸包以生成成多面体

    • 运算上:f=L1Ln可转化为f=max{L1,...,Ln},即求{(α1,c1),...,(αn,cn)}凸包

  3. 多项式与多面体:

    • 热带幂fa:相当于缩放,即P(fa)=aP(f)

      领域操作解释
      热带运算热带幂fa相当于a×f,即每个单项式系数ci和指数αi={ai1,..,aid}乘上a
      几何变换缩放每个顶点(αi,ci)变为(aαi,aci),即每个顶点都相对原点拉伸a
    • 热带积fg:相当于闵可夫斯基和,即P(fg)=P(f)+P(g)

      领域操作解释
      热带运算热带积fgf每个单项式与g每个单项式热带乘(相加)再热带加(求max)
      几何变换多面体Minko.P(f)每个顶点与P(g)每个顶点坐标依次相加,再求凸包
    • 热带和fg:相当于顶点联合的凸包,即P(fg)=Conv(V(P(f))V(P(g)))

      领域操作解释
      热带运算热带积fgfg各自的多项式合在一起,再求合一起后的最大值
      几何变换顶点联合的凸包P(f)P(g)中所有顶点合在一起,对合一起后的点集求凸包

2️⃣理论保证:如何界定新生成多面体的顶点数

  1. Gritzmann-Sturmfels定理:生成多面体最多多少个顶点

    • 参数说明:d+1表示多面体P1,...,Pk所处空间的维度,m为收集所有Pi棱后非平行棱的总数

    • 定理内容:令多面体P1,...,Pk进行Minkowski和后新多面体顶点数为N,则N2j=0dCm1j

    • 取等条件:每个多面体Pi都为带状多面体,且构成每个Pi的线段都处于一般位置

  2. 定理的关键推论:新生成多面体上表面有多少顶点,即多项式有多少线性区域数

    • 条件改变:P1,...,Pk任意形状的多面体限定为了带状多面体

    • 结论改变:P1,...,Pk进行Minkowski和后新多面体上表面顶点数为N,则Nj=0dCmj

    • 取等条件:Pi所有m条线段都处于一般位置,新多面体(d+1维)顶点投影回d维后都处于一般位置

  3. (补充)关于一般位置:即任意k个点不会被维度k2的空间容纳,例如四点不共面,三点不共线

2. 神经网络的热带几何&代数

2.1. 神经网络及其假设

1️⃣神经网络的数学模型:定义一个共L(n)层全连接的前馈网络

  1. 对于每一层L(i)

    • 结构:输入di1维的x(i1)后输出di维的x(i),每层可学习参数有权重矩阵Adi×di1及偏置向量bdi

    • 运算:先将x(i1)输入仿射变换ρi(x(i1))=Adi×di1x(i1)+bdi再激活xi=σi(ρi(x(i1)))

    • 补充:本文σi采用广义ReLU(详见下),因为其为最典型的激活函数,也方便用热带代数描述

  2. 对于所有L(n)层:

    • 结构:ν=(σnρn)(σn1ρn1)(σ1ρ1)ν(x(0))=x(n),但不会Softmax(x(n))一下

    • 运算:x(0)σ1(ρ1(x(0)))x(1)σ2(ρ2(x(1)))x(2)x(n1)σn(ρn(x(n1)))x(n)

2️⃣三条较温和的假设:使神经网络行为能严格对应热带运算

  1. 对权重矩阵:Adi×di1每个权重都是整数,这种假设是温和的(见下例),对应了热带单项式的指数 [0.51.22.52]()[0.51.22.51.4]()[5122514]()

  2. 对偏置向量:bdi的每个值都是实数,对应热带单项式的系数c

  3. 广义ReLU:即σ(xj)=max{xj,tj}=xjtj(逐个应用在x每维),非线性激活可用热带运算表述

    • 可退化为其它的激活函数:当t=0时退化为普通ReLU函数,当t=σ(x)=x

    • 不可退化为平滑激活函数:如sigmoid/tanh

2.2. 神经网络的热带代数

1️⃣从神经网络到热带有理函数:写在前面

  1. 灵感所在:热带多项式为凸热带有理函数非凸;神经网络也非凸,是否等于热带有理函数

  2. 计算要素:Ax+b过程中,神经网络中的参数最终会到热带多项式的哪里

    Ax+b过程热带代数中备注
    Ax中的akjxj(xj)akj权重参数热带多项式中的幂,幂必为整数故权重只能为整数
    +b中的+bkbk偏置参数热带多项式的系数

2️⃣从神经网络到热带有理函数:递归证明(全文最核心部分)

  1. 基础步骤:原始输入x(0),经过第1L(1)的输出x(1)是怎么样的

    • 每层输出:得到x(1)=max{(Ad1×d0x(0)+bd1),td1}

    • 权重分解:提取Ad1×d0绝对值以分解为Ad1×d0(+)Ad1×d0(),且Ad1×d0=Ad1×d0(+)Ad1×d0()

    • 恒等变换:得到x(1)=max{(Ad1×d0(+)x(0)+bd1),(Ad1×d0()x(0)+td1)}Ad1×d0()x(0)

    • 热带表示:设置x(1)=F(1)(x(0))G(1)(x(0)),(如下表)x(1)每一维都是热带有理函数

      项(共di维)热带算式热带多项式
      F(1)k[bk(j(xj(0))akj(+))][tk(j(xj(0))akj())]
      G(1)k(j(xj(0))akj())
    • 最终结论:输出x(1)每一维严格满足热带有理函数定义,即x(1)每一维都是热带有理函数

  2. 归纳步骤:第iL(i)的输出x(i),经过第i+1L(i+1)的输出x(i+1)是怎么样的

    符号每维依然是热带多项式
    H(i+1)(Adi+1×di(+)F(i)+Adi+1×di()G(i)+bdi+1)
    G(i+1)(Adi+1×di()F(i)+Adi+1×di(+)G(i))
    F(i+1)max{H(i+1),(G(i+1)+tdi+1)}
    • 仿射:ρ(i+1)=Adi+1×dix(i)+bdi+1=H(i+1)G(i+1)

    • 激活:x(i+1)=max{H(i+1),(G(i+1)+tdi+1)}G(i+1)=F(i+1)G(i+1),为一个热带有理函数

    • 结论:每一层的输出x(i)的每一维都是一个热带有理函数

  3. 最终结论:函数ν满足三条假设的神经网络ν可以被看作一个热带有理函数

3️⃣从神经网络到热带有理函数:结论扩展

  1. 引入上界:视热带函数fgn层神经网络,则nmax{log2rf,log2rg}+2(r为单项式数量)

  2. 新的等价:现引入并考虑连续分段线性函数,则以下三者任意二者互相等价

    • 整数系数连续分段线性函数fg

    • 热带有理函数fg

    • 满足三条假设的神经网络

  3. 更强等价:去除权重为整数的限制的神经网络热带有理符号映射

    • 热带符号函数:即φ(x)=k=1m(bk(j=1nxjakj))akj为实数(多项式中只能是整数)

    • 热带有理符号映射:类似于热带有理函数,被定义为连哥哥热带符号函数的热带商φ1φ2

    • 一些讨论:本文非要使用热带符号函数的“退化”热带多项式,因为只有后者才属于热带几何范畴

2.3. 神经网络的热带几何

2.3.1. 决策边界的热带几何性质

1️⃣决策边界的概念

  1. 评分函数:变换神经网络输出x(n)以得到评分s(x(n)),如Softmax(x(n))/Sigmiod(x(n))

  2. 决策规则:用于分类,比如二元分类中s(x(n))大于阈值c就归为一类,小于阈值c就归为另一类

  3. 决策边界:使评分等于决策阈值的神经网络输入B:={x(0)Rd0|s(ν(x(0)))=s(x(n))=c}

2️⃣决策边界的热带几何性

  1. 前提条件:所有研究是神经网络ν是怎么样的

    • ν满足前面所提到的三个假设,即权重为整数/偏置量为实数/激活函数为广义ReLU

    • ν最后一层L(n)只进行仿射变换不激活,即令tdn=使σ(x(n))=max{x(n),}=x(n)

    • ν可写为两热带多项式f(x(0))g(x(0))的热带商,即ν(x(0))=f(x(0))g(x(0))

  2. 结论一:决策边界划分出来的正区域的数量,存在一个天然的上界N(f)

    • 正区:即评分大于阈值s(ν(x(0)))c,即f(x(0))g(x(0))+s1(c)的区域,含义如下

      结构如何理解
      f(x(0))好比一个"地表"(多项式),由N(f)个平坦"斜面"(某个单项式)拼接而成
      g(x(0))+s1(c)好比一个"水面"(多项式),由N(g)个平坦"斜面"(某个单项式)拼接而成
      正区"地表"没有被"水面"淹没的地方,即好比"孤岛"
    • 结论:对f(x(0))每块"斜面",或被淹没/与其他"斜面"一起构成"孤岛",故"孤岛"定少于"斜面"

  3. 结论二:神经网络的决策边界B,被一个更完整的热带超曲面包含

    • 上表面:即h(x(0))=max{f(x(0)),(g(x(0))+s1(c))},好比“可见地貌”("水面"+"孤岛")

    • 超曲面:即T(h(x(0))),表示“可见地貌”上的所有"斜面"的"棱线",这些"棱线"分为三类

      类型如何理解
      “海岸线”决策边界B,也就是f(x(0))=g(x(0))+s1(c)"地表"和"水面"等高的地方
      “陆地线”T(f(x(0)))的被“海岸线”(决策边界)截去的上半部分
      “海洋线”T(g(x(0))+s1(c))的被“海岸线”(决策边界)截去的下半部分
    • 结论:神经网络的决策边界B被热带超曲面T(h)容纳,即BT(h)

2.3.2. 神经网络的热带几何演化

1️⃣知识回顾:递推公式与几何变换

  1. 逐层递推:设神经网络L(i)层输出为两热带多项式的热带商x(i)=F(i)(x(i1))G(i)(x(i1)),则 {G(i+1)=(Adi+1×di()F(i)+Adi+1×di(+)G(i))F(i+1)=max{(Adi+1×di(+)F(i)+Adi+1×di()G(i)+bdi+1),(Adi+1×di()F(i)+Adi+1×di(+)G(i)+tdi+1)}

  2. 几何变换:多项式f的运算多项式的多面体P(f)的几何变换

    多项式中多项式的多面体中解释
    热带幂faP(fa)=aP(f)相当于缩放
    热带积fgP(fg)=P(f)+P(g)相当于闵可夫斯基和
    热带和fgP(fg)=Conv(V(P(f))V(P(g)))相当于顶点联合的凸包

2️⃣逐层递归:一个几何结构变换的视角,从点线段带状多面体复杂多面体

  1. 0层:拆解x(0)=x(0)0

    结构视角解读
    F(0)k代数xk(0)
    G(0)k代数0
    P(F(0)k)几何(0,,1,,01在第k,0)
    P(G(0)k)几何(0,,0,,0d00,0)
  2. 1层:代入递归,注bk(1)/tk(1)bd1/td1k维,akj(1)(+)/akj(1)()Adi+1×di(+)/Adi+1×di()kj

    结构视角解读
    F(1)k代数[(j=1d0(xj(0))akj(1)(+))bk(1)][(j=1d0(xj(0))akj(1)())tk(1)]
    G(1)k代数(j=1d0(xj(0))akj(1)())
    P(F(1)k)几何线段(ak1(1)(+),,ak,d0(1)(+),bk(1))线(ak1(1)(),,ak,d0(1)(),tk(1))
    P(G(1)k)几何单点(ak1(1)(),,ak,d0(1)(),0)
  3. 2层:再代入递归,向量/矩阵的元素符号与上类似

    结构视角解读
    F(2)k代数形式上为两个复杂多项式的
    G(2)k代数形式上为两个复杂多项式的
    P(F(2)k)几何多项式的多个线段/多面体的端点合并后求凸包复杂多面体
    P(G(2)k)几何多项式的多个线段求闵可夫斯基和带状多面体(简单多面体)
  4. n层:不断递归,已经是多面体了再递归P(F(n)k)/P(F(n)k)只会生成更复杂多面体

2.3.3. 神经网络的几何复杂度

1️⃣基本思路

  1. 度量:神经网络可等价为热带多项式,而热带多项式的线性区域数目越多,神经网络就越强

  2. 目标:利用前面建立的热带几何框架,推导出这个线性区域数量的上限

2️⃣主定理

  1. 内容:对深度为n宽度为di,max的神经网络,输入维度为d0时线性区域数量为O((di,max)d0(n1))

  2. 证明:思路是转化为证明热带几何中多面体顶点数的上界,具体过程在笔记中略

  3. 洞见:增加深度(指数级增加),是比增加宽度(多项式级增长)更有效提升网络表达能力的手段