今天的AI教育应该怎么搞.pdfVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

今天的AI教育应该怎么搞

欢迎回到《科技参考》,我是卓克。

今天最热门的行业是AI。今天培养AI人才的机构,主要是高校里的计算机

系,但实际培养体系和人才需求是严重不匹配的。

尤其是这种不匹配还在动态扩大。高校计算机系的教材的更新,是以10年

为单位变化的。而AI界的主流模型、评测口径、硬件部署方式,那都是以6个

月为一个单位变化的。两者相差了几十倍。

于是,今天AI界的主力军,可以说全都不是系统化培养出来的,大都是边

干边学出来的。那有没有什么方法可以优化这个问题呢?今天的《科技参考》我

们就来讨论一下。

AI界培养体系的断层

今天AI界培养体系的断层,其实和100年前物理学领域的断层,是高度类

似的。

现代物理学的黄金年代是1905年-1928年。经过这20多年,突然出现了成

熟体系的量子力学和相对论,而在1905年之前只有经典力学、经典热学、经典

电磁学。

从那段历史看,最早把大学物理标准教科书里的内容,更新到相对论和量子

力学的,是索末菲(Sommerfeld),是在1919年做的。这时相对论已经100%发

育完毕,量子力学的基本体系发育了1/3。虽然索末菲在教学工作上反应速度是

极快的,但总体而言,那时候物理系毕业的同学,在学校学的内容和他们之后要

研究的东西,几乎没有什么关联。

今天的AI行业对高校计算机系有哪些不满呢?

当然很多是因为流程化的问题,高校简化了很多。比如,训练数据的版本号

标记不清,以为上线就是把模型扔到云端,或者不在乎模型响应时间等等。但这

些不需要高校做什么,只需要跟着公司流程走就可以马上改进了。

但高校中的知识体系对目前AI的发展是有缺陷的。

比如,概率论方面的知识。

今天高校只讲最基本的工程概率论,而几乎没有更深的内容了。训练模型需

要了解高阶概率论知识,比如测度、集中不等式,这些知识对于评估训练数据的

好坏至关重要。

比如,最初一上来给参数随机赋予权重的时候,怎么评估这些数值是否合适

呢?怎么让这些随机向量彼此在高维空间里都相互垂直呢?

还有,信息论方面的知识。

很多学校现在只把这门课归在通信专业下,对计算机系是选修,很多同学干

脆就没学过。而模型训练里的蒸馏、检索增强生成(RAG)都会用到这门课。

这些课程教会了学生描述真实数据需要的平均比特是多少。于是当你从大模

型里蒸馏出一个小模型,这个小模型是用10%的体积换来了80%的知识呢,还是

用10%的体积换来了65%的知识呢?或者当我们为了节省存储空间和硬件需求,

把数据格式从FP16改成FP4后,数据格式比特上的下降会引入多少失真呢?这

些评估强烈依赖于信息论方面的基础知识。

比如,最近DeepSeek刚刚提出的,把文字视觉化后增强上下文长度的突破,

就是这方面加深理解后的成果。

第三就是线性代数方面的知识。

我们知道自注意力机制对应的运算就是海量的矩阵乘法,所以当然要懂一些

线性代数知识,而且学生们也确实在学习。但学校教的线性代数只讲各种原理,

转置矩阵、逆矩阵、特征值、特征向量、对角化、二次型,然后就结课了。

但实际AI训练中的工程难题是巨大的矩阵怎么算得又快又稳的问题。你要

搞清楚最烧钱的部分在哪里,然后优化那部分就是最有价值的突破了。

比如,阿里最近提出的线性自注意力机制,就是这方面加深理解之后的成果。

还有,硬件方面的知识。

硬件方面知识的差距尤其大,很多在AI行业内是痛点的部分,在计算机系

的课程里甚至没有对应。

比如,针对大语言模型KV缓存的工程原理、NVLink和计算卡的结构原理、

检查点的重计算、跨厂商可移植栈、分布式存储和数据管理等等。

对中国来说,更多了一层代沟,那就是在没有NV计算卡的前提下,怎么从

技术上解决本身就是痛点的硬件短缺。

此外,还有随机过程、统计学方面也有类似的知识体系上的缺失。

这些缺失并不是用来追赶6-18个月一次大变样的AI行业变革的,因为这些

知识就是底层知识,利用数学思维看懂模型结构、算法漏洞用的,所以大概率说,

十年都不会过期。

尤其是今天的教育体系里本来就有这些课程,只不过是在传统分院系排课的

基础上,需要进行重新排列组合上的优化而已,所以完全可以尽早动手调整。

此外,计算机系的同学今天还在花大量

文档评论(0)

fancyhuang + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档