- 1、本文档共19页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
我们能获得推荐系统的⼤模型吗?
导读
本次分享的主题是我们能获得推荐系统的⼤模型吗?具备“伸缩法则(Scaling
Law)”是⼤语⾔模型(LLM)的典型特点,也就是说随着模型规模增⼤,模型效果持续增
⻓。⽬前的推荐模型并不具备ScalingLaw特性,模型的参数规模对效果影响有限。我们改
进模型试图使得推荐模型也能具备“ScalingLaw”这种⼤模型独具的特点。⽬前研究表明强⼤
的知识记忆能⼒是LLM性能优异的主要原因之⼀,这启发我们在推荐模型中引⼊独⽴的记忆
机制,⽤来存储、学习和记忆任意组合特征,本次分享将介绍这种记忆系统HCNet,以及由
此构造的MemoNet。我们发现引⼊独⽴记忆机制后,推荐模型初步表现出了ScalingLaw
特性。
本次分享会围绕四个⽅⾯展开:
1.
来⾃LLM的启示
.
HCNetMemoNet:特征组合记忆机制
3.
MemoNet的效果
4.
总结与展望
01
来⾃LLM的启示
⾸先介绍第⼀部分:来⾃LLM的启示。
1.
⼤语⾔模型:快速发展
近⼏年来,⼤模型⻜速发展,效果惊艳。OpenAI伸缩法则研究表明⼤语⾔模型(LLM)性能
的提升主要来⾃于三个⽅⾯:更多的数据、更多的模型参数、更充分的训练。当前研究表明:
在特征抽取器⽅⾯,Transformer性能⾜够强⼤,暂时不需要重⼤改进;⼤模型结构的改进对
模型效果的影响有限。因此,⼤模型性能的提升更多的来⾃于上⾯所提及的数据、参数以及充
分的训练。
我们可以看到,⾃GPT/BERT诞⽣以来,⼤语⾔模型百花⻬放,模型的参数规模越来越⼤,
效果⾮常好。
2.
⼤语⾔模型:⼤模型的典型特点
⼤语⾔模型有⼀个⾮常典型的特点:伸缩法则(ScalingLaw)。所谓伸缩法则就是给定充⾜
的训练数据,随着模型参数规模增⼤,模型效果持续增⻓。
以GoogleT5中的⼀个图为例,我们可以看到,随着模型参数的增⼤,对应模型的效果单调上
升,⽽且上升幅度⽐较⼤。
3.
⼤模型的记忆能⼒:记忆与泛化
⼤模型效果为什么好?这⾥就需要提到⼤模型的记忆能⼒。今年OpenAI提出“压缩即智能”理
论,即将GPT模型的训练过程看作对训练数据的⽆损压缩过程。之前很多研究也表明:⼤模
型具备极强的记忆能⼒;模型规模越⼤,记忆能⼒越强;模型规模越⼤,效果越好,极⼤程度
上来源于增强的记忆能⼒。
上图表明,相同的数据量,模型规模越⼤,对数据的记忆能⼒越强。
4.
⼤模型的记忆能⼒:记忆位置在哪⾥
现在有很多对⼤模型记忆位置等记忆能⼒的研究,这⾥给出其中⼀篇论⽂《Transformer
Feed-ForwardLayersAreKey-ValueMemories》所提供的解释。该论⽂认为
Transformer的知识记在FFN⾥,FFN本质上是⼀个Key-Value数据库。但现在有必威体育精装版研
究表明,在Transformer的Attention机制中实际上也存在知识的存储。
5.推荐模型的现状
我们现在来看⼀下推荐模型的现状。
推荐模型是过参数化的,所谓过参数化就是参数规模远远⼤于模型本身所需要的参数量。很多模
型引⼊了UID,MID等ID类特征,其模型的参数规模远远⼤于训练样本的规模,这其实是过参
数化的。在过参数化的情况下,进⼀步增⼤模型的参数规模对效果的影响是有限的。由此可以得
出结论,⽬前的推荐模型不具备ScalingLaw特性,即模型效果不会随着模型参数规模的增⼤
⽽持续上升。举⼀个例⼦来说明。
⾸先做参数量估算。假设我们构建⼀个基础的模型,其中有10亿个ID类特征,每个特征的embedding
size为20,后⾯接三层的MLP,对应的神经元个数分别为1024,512,256。那么在做参数量估算的
过程中,我们发现特征embedding参数量有200亿,模型MLP参数量有1.34亿。由此可以看出,
这个推荐模型的参数量主要集中在embedding层,占⽐为93.3%。在这种情况下,如果继续增加特
征的embedd
您可能关注的文档
最近下载
- 薛宝钗:温婉背后的深沉——对《咏白海棠》的文本细读.doc
- 2025年呼吸内科疾病临床路径.pdf VIP
- 2023年江苏高考化学试题及答案.pdf VIP
- 2025年春新课程学习与测评同步学习六年级英语下册人教版答案.pdf VIP
- 《博物馆建筑设计规范》(66-2015)【可编辑】.pptx
- 02S515排水检查井图集.pdf
- 【PPT课件】2024特种设备重大事故隐患判定准则培训资料.pptx
- T-CAMDI009.10-2020无菌医疗器械初包装洁净度第10部分:污染限量.pdf
- 2024年江苏省高考化学真题卷(含答案与解析)_1338.pdf VIP
- 招标代理公司服务方案(投标).pdf VIP
文档评论(0)