一言以蔽之,满足齐次性和叠加性的映射就是线性的。
什么齐次?用数学的语言表达就是对数乘满足:
这里 是个标量, 是变量,是一个映射。如果觉得「齐次」这个名字不够直观,你可以把它理解为「等比例缩放」。
什么是叠加?就是对加法保持:
有时候会把这两个性质写成一个公式:
也就是说,如果我们能把一个系统的行为用线性映射来描述,那么系统的输入叠加后的输出就等于各自输出的叠加;输入乘以某个系数,输出就乘以同样的系数。
你可以想象一台特殊的复印机:如果你把一张图片放大一倍,然后复印,那么复印出来的图片也会放大一倍。无论你先放大再复印,还是先复印再放大,结果都一样;如果你把两张图片拼在一起复印,那么复印出来的图片就是这两张图片分别复印后的拼接。无论你先把两张图拼起来再复印,还是先分别复印再拼起来,结果都一样。
在现实中,这样的系统非常常见,而且它们在数学上也容易被分析、被分解和被求解,也因此被研究的最普遍。
其实线性已经解释完了。为了论述更系统,我们多说一点。
要理解矩阵和矩阵乘法,首先得理解向量空间(Vector Space)的概念。一个向量空间,通俗讲,就是可以「加」并可对其进行数乘(标量乘法)的一个集合。教科书上为了严谨会介绍八个公理,我们这里就省略了,先抓住这两个主要特征即可。最常见的例子是普通的二维空间()或三维空间()。再广义一点,函数空间、图像空间等也都可以视为向量空间。
当我们给定一个线性映射 ,如果 和 都是有限维向量空间,那么通过选择各自的基(basis),就能把这个「抽象的」映射用一个矩阵来表达:
具体地说,令 是 的一组基, 是 的一组基。如果一个向量 用坐标表示为
则
由于 是线性的,所以
再将 用 的坐标来表示,我们就能写出「变换后向量的坐标」与「原向量坐标」之间的线性关系。这样,最终得到一个 矩阵 A 使得
这就是从线性映射到矩阵的过程。
如果手头有两个线性映射 和 ,比如 ,,那将其复合在一起 得到的就是 ,一个从 到 的新线性映射。
现若我们想用坐标来「记录」这些映射,就对应了三个矩阵——分别表示 以及它们的复合映射。如果 被矩阵 (大小 )表示, 被矩阵 (大小 )表示,那么它们的复合 就应该由一个 的矩阵 来表示。
要求满足:
所以
也就是说,矩阵乘法是函数复合在坐标表示下的结果。它保证「先做一个映射,再做另一个映射」在坐标层面是通过矩阵的乘积来表达。其元素计算方式(行乘列求和)虽然第一眼看起来很「怪异」,却恰恰完美地捕捉了「函数复合在坐标表达下的累加原理」。
线性代数经常被介绍为「矩阵方程的求解」,但它实际上贯穿了极其丰富的几何内容。一个 维向量就对应于一个 维空间中的点,线性变换就相当于「把空间做各种均匀的拉伸、旋转、剪切等等」。在三维空间中,我们能直观地看见矩阵对一个立方体的变换:可能扭曲成长方体、平行六面体乃至退化成平面或线。
再往深层看,分析一个线性变换最重要的思路之一是找它的「特征向量」(eigenvector)和「特征值」(eigenvalue)。也就是说,
此时向量 在变换下方向不变,只是「伸缩」了 倍。能找到这些特征向量并分解整个空间,就能极大地简化我们的研究。这也体现了线性变换在几何上对空间的分解:把真正复杂的变化拆成几个「最简单」的生长或衰减模式。
初等线性代数课程里有「对角化」的概念——如果一个矩阵有足够多的特征向量,那么就能在合适的基下把它对角化成最简单的形式。不过,在更抽象的层面,还存在 Jordan 标准形、极分解(Polar Decomposition)、SVD(奇异值分解)……这些工具都是在探究:给定一个线性映射(用矩阵 A 表示),其究竟是什么样的「几何形变」,有着哪些内在不变性或分解结构?
所有这些「抽象研究」都指向同一个事实:线性变换具备可分解、可分析的优良性质。
在线性代数中,我们大多只考虑有限维空间。然而,现实中的波动方程解空间、量子力学态空间、偏微分方程解空间等往往是无限维的。此时我们进入了一个更大的舞台:泛函分析(Functional Analysis)。
从这个角度来说,线性代数的思想远远超越了初等情境,进而渗透到更高层次的数学与物理结构中。
如果我们再登高一层,不仅仅把线性代数看作对向量和矩阵的处理,而是站在抽象代数或范畴论的高度,就能看到更丰富的结构:
虽然这些话题对初学者而言也许过于抽象,但它们都根植于最简单的「线性组合」与「复合」的概念。换言之,线性代数是更高数学世界里的一块基石。
任何一个系统,只要它的核心过程可以被描述为线性映射的连续施加或叠加,那么就会使用矩阵乘法来刻画实际过程或计算结果。当我们在工程、物理或计算机程序中一次次地「使用」矩阵乘法,往往就是在对某个模型做「线性变换的复合操作」。
现实生活中很多系统(如流体的湍流、经济系统、生态系统)似乎并不符合「线性」模型,但但在局部特征、微观近似或扰动分析时,大量的方法还是要借助「线性化」。
在多数情况下,任何复杂系统,若只研究「小范围」或「微扰」下的变化,就可以用泰勒展开等方法做线性近似。也就是说,非线性系统往往可以在一个小区间被「线性化」,而我们关心的第一阶逼近常常够用。
由此可见,就算在研究非线性现象的过程中,线性代数提供的工具仍然不可或缺。