近年来,随着深度学习的火热,一个老生常谈的问题再次被推至台前:搞深度学习,到底需不需要学那些“高深”的数学?这个问题困扰着无数初入该领域的研究者、开发者,甚至引发了“调包侠”与“理论派”之间的持久争论。为了厘清真相,本报记者采访了多位学术界与工业界的资深专家,试图给出一个客观答案。
一、“数学恐惧”从何而来?
深度学习本质上是一个以数学模型为核心的工程学科。从线性代数到概率统计,从微积分到优化理论,数学几乎贯穿了整个模型的设计、训练与调优过程。然而,随着PyTorch、TensorFlow等框架的成熟,许多初学者发现:只需几行代码调用API,就能完成一个图像分类或文本生成任务。于是,一种“数学无用论”悄然流行:反正框架替我把求导和矩阵运算都封装好了,我只要懂组装就行。
这种观点看似高效,实则暗藏隐患。某互联网大厂算法工程师李明(化名)对记者坦言:“很多面试者能熟练使用transformer,但当我问起注意力机制中Q、K、V的数学含义时,他们就答不上来了。这种‘黑盒使用’在简单任务中尚可应付,一旦遇到模型不收敛、梯度爆炸、过拟合等实际问题,就会束手无策。”
二、数学是“盐”,不是“菜”
清华大学计算机系副教授张伟用了一个生动的比喻:“数学对于深度学习,好比炒菜用的盐。你当然可以只放菜不放盐——也能吃,但味道差得远。同样,你不用数学也能跑通模型,但很难做出真正有深度、可复现、可迁移的研究。”
张伟进一步指出,深度学习中的数学并非全部需要“高深”。例如,梯度下降背后的链式求导法则、卷积操作中的矩阵乘法、激活函数的性质等,都属于本科数学范畴。真正“高深”的部分,如流形学习、拓扑数据分析、信息几何等,往往只有在解决特定前沿问题时才会用到。
“大多数研究工作,掌握线性代数、概率统计和凸优化基础就足够了。”张伟强调,“关键不是数学难不难,而是你是否能用数学语言理解模型的‘为什么’。”
三、工业界 vs 学术界:需求分层明显
在不同场景下,对数学深度的要求存在显著差异。在工业界,尤其是以应用落地为主的团队,核心能力在于快速迭代、适配业务、优化工程效率。此时,理解常见模型背后的数学原理(如梯度消失原因、正则化作用)即可,不需要推导复杂的定理证明。
但在学术界或顶尖实验室,数学几乎是“必需品”。北京大学前沿计算研究中心博士后王悦表示:“如果你要做Neural ODE、图神经网络的理论研究,或者要推导新的损失函数、证明模型收敛性,没有扎实的数学基础寸步难行。很多顶会论文的核心贡献,恰恰是数学上的一个小突破。”
四、理性看待:学好“够用”的数学
那么,对于想进入深度学习领域的初学者,到底该如何取舍?几位受访专家的共识是:不必被“高深”二字吓退,但也不能全盘否定数学的价值。
专家建议分三步走:
第一步,打基础。 系统学习线性代数(矩阵分解、特征值)、概率统计(贝叶斯、最大似然)和微积分(多元函数、梯度)。这些是理解主流模型(CNN、RNN、Transformer)的门槛。
第二步,实践中学。 在写代码、调参的过程中,遇到瓶颈时主动回归数学原理。例如,当模型在验证集上表现不佳时,用偏差-方差分解来分析原因,比盲目改学习率更有效。
第三步,按需深入。 如果未来想攻克GAN训练不稳定、强化学习探索-利用困境等难题,那么信息论、最优控制、泛函分析等“高深”数学将成为有力武器。
“数学不是学习的终点,而是工具。”阿里巴巴达摩院研究员刘波总结道,“深度学习研究者不必成为数学家,但应该成为‘会使用数学工具的人’。就像木匠需要学会磨斧头,但不用自己去铸造钢铁。”
五、结语
回到最初的问题:做深度学习,要不要学“高深的”数学?答案是:取决于你目标有多高。 如果只想做应用层的调参侠,中等程度的数学足矣;如果想做出真正有影响力的原创性工作,数学就是绕不开的修行。
在人工智能日新月异的今天,保持对底层原理的好奇与敬畏,或许比记住更多公式更重要。因为当你真正理解了数学语言,深度学习便不再是一堆黑盒,而是一个可以自由拆解、重组和创新的宇宙。
(本文涉及专家均为化名)