推荐系统大模型.pdf

下载文档

1
0
约9.03千字
约 19页
2025-04-19 发布于山东
举报
版权申诉
保障服务

推荐系统大模型.pdf

1、本文档共19页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

我们能获得推荐系统的⼤模型吗？

导读

本次分享的主题是我们能获得推荐系统的⼤模型吗？具备“伸缩法则（Scaling

Law）”是⼤语⾔模型（LLM）的典型特点，也就是说随着模型规模增⼤，模型效果持续增

⻓。⽬前的推荐模型并不具备ScalingLaw特性，模型的参数规模对效果影响有限。我们改

进模型试图使得推荐模型也能具备“ScalingLaw”这种⼤模型独具的特点。⽬前研究表明强⼤

的知识记忆能⼒是LLM性能优异的主要原因之⼀，这启发我们在推荐模型中引⼊独⽴的记忆

机制，⽤来存储、学习和记忆任意组合特征，本次分享将介绍这种记忆系统HCNet，以及由

此构造的MemoNet。我们发现引⼊独⽴记忆机制后，推荐模型初步表现出了ScalingLaw

特性。

本次分享会围绕四个⽅⾯展开：

来⾃LLM的启示

HCNetMemoNet：特征组合记忆机制

MemoNet的效果

总结与展望

来⾃LLM的启示

⾸先介绍第⼀部分：来⾃LLM的启示。

⼤语⾔模型：快速发展

近⼏年来，⼤模型⻜速发展，效果惊艳。OpenAI伸缩法则研究表明⼤语⾔模型（LLM）性能

的提升主要来⾃于三个⽅⾯：更多的数据、更多的模型参数、更充分的训练。当前研究表明：

在特征抽取器⽅⾯，Transformer性能⾜够强⼤，暂时不需要重⼤改进；⼤模型结构的改进对

模型效果的影响有限。因此，⼤模型性能的提升更多的来⾃于上⾯所提及的数据、参数以及充

分的训练。

我们可以看到，⾃GPT/BERT诞⽣以来，⼤语⾔模型百花⻬放，模型的参数规模越来越⼤，

效果⾮常好。

⼤语⾔模型：⼤模型的典型特点

⼤语⾔模型有⼀个⾮常典型的特点：伸缩法则（ScalingLaw）。所谓伸缩法则就是给定充⾜

的训练数据，随着模型参数规模增⼤，模型效果持续增⻓。

以GoogleT5中的⼀个图为例，我们可以看到，随着模型参数的增⼤，对应模型的效果单调上

升，⽽且上升幅度⽐较⼤。

⼤模型的记忆能⼒：记忆与泛化

⼤模型效果为什么好？这⾥就需要提到⼤模型的记忆能⼒。今年OpenAI提出“压缩即智能”理

论，即将GPT模型的训练过程看作对训练数据的⽆损压缩过程。之前很多研究也表明：⼤模

型具备极强的记忆能⼒；模型规模越⼤，记忆能⼒越强；模型规模越⼤，效果越好，极⼤程度

上来源于增强的记忆能⼒。

上图表明，相同的数据量，模型规模越⼤，对数据的记忆能⼒越强。

⼤模型的记忆能⼒：记忆位置在哪⾥

现在有很多对⼤模型记忆位置等记忆能⼒的研究，这⾥给出其中⼀篇论⽂《Transformer

Feed-ForwardLayersAreKey-ValueMemories》所提供的解释。该论⽂认为

Transformer的知识记在FFN⾥，FFN本质上是⼀个Key-Value数据库。但现在有必威体育精装版研

究表明，在Transformer的Attention机制中实际上也存在知识的存储。

5.推荐模型的现状

我们现在来看⼀下推荐模型的现状。

推荐模型是过参数化的，所谓过参数化就是参数规模远远⼤于模型本身所需要的参数量。很多模

型引⼊了UID,MID等ID类特征，其模型的参数规模远远⼤于训练样本的规模，这其实是过参

数化的。在过参数化的情况下，进⼀步增⼤模型的参数规模对效果的影响是有限的。由此可以得

出结论，⽬前的推荐模型不具备ScalingLaw特性，即模型效果不会随着模型参数规模的增⼤

⽽持续上升。举⼀个例⼦来说明。

⾸先做参数量估算。假设我们构建⼀个基础的模型，其中有10亿个ID类特征，每个特征的embedding

size为20，后⾯接三层的MLP，对应的神经元个数分别为1024，512，256。那么在做参数量估算的

过程中，我们发现特征embedding参数量有200亿，模型MLP参数量有1.34亿。由此可以看出，

这个推荐模型的参数量主要集中在embedding层，占⽐为93.3%。在这种情况下，如果继续增加特

征的embedd

您可能关注的文档

文档评论（0）

133****9720 + 关注: 实名认证

内容提供者

物业管理师证持证人

该用户很懒，什么也没介绍

咨询Ta 进入空间

领域认证该用户于2023年04月23日上传了物业管理师证

1亿VIP精品文档

更多 >

推荐系统大模型.pdf