网站大量收购独家精品文档,联系QQ:2885784924

推荐系统大模型.pdf

  1. 1、本文档共19页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

我们能获得推荐系统的⼤模型吗?

导读

本次分享的主题是我们能获得推荐系统的⼤模型吗?具备“伸缩法则(Scaling

Law)”是⼤语⾔模型(LLM)的典型特点,也就是说随着模型规模增⼤,模型效果持续增

⻓。⽬前的推荐模型并不具备ScalingLaw特性,模型的参数规模对效果影响有限。我们改

进模型试图使得推荐模型也能具备“ScalingLaw”这种⼤模型独具的特点。⽬前研究表明强⼤

的知识记忆能⼒是LLM性能优异的主要原因之⼀,这启发我们在推荐模型中引⼊独⽴的记忆

机制,⽤来存储、学习和记忆任意组合特征,本次分享将介绍这种记忆系统HCNet,以及由

此构造的MemoNet。我们发现引⼊独⽴记忆机制后,推荐模型初步表现出了ScalingLaw

特性。

本次分享会围绕四个⽅⾯展开:

1.

来⾃LLM的启示

.

HCNetMemoNet:特征组合记忆机制

3.

MemoNet的效果

4.

总结与展望

01

来⾃LLM的启示

⾸先介绍第⼀部分:来⾃LLM的启示。

1.

⼤语⾔模型:快速发展

近⼏年来,⼤模型⻜速发展,效果惊艳。OpenAI伸缩法则研究表明⼤语⾔模型(LLM)性能

的提升主要来⾃于三个⽅⾯:更多的数据、更多的模型参数、更充分的训练。当前研究表明:

在特征抽取器⽅⾯,Transformer性能⾜够强⼤,暂时不需要重⼤改进;⼤模型结构的改进对

模型效果的影响有限。因此,⼤模型性能的提升更多的来⾃于上⾯所提及的数据、参数以及充

分的训练。

我们可以看到,⾃GPT/BERT诞⽣以来,⼤语⾔模型百花⻬放,模型的参数规模越来越⼤,

效果⾮常好。

2.

⼤语⾔模型:⼤模型的典型特点

⼤语⾔模型有⼀个⾮常典型的特点:伸缩法则(ScalingLaw)。所谓伸缩法则就是给定充⾜

的训练数据,随着模型参数规模增⼤,模型效果持续增⻓。

以GoogleT5中的⼀个图为例,我们可以看到,随着模型参数的增⼤,对应模型的效果单调上

升,⽽且上升幅度⽐较⼤。

3.

⼤模型的记忆能⼒:记忆与泛化

⼤模型效果为什么好?这⾥就需要提到⼤模型的记忆能⼒。今年OpenAI提出“压缩即智能”理

论,即将GPT模型的训练过程看作对训练数据的⽆损压缩过程。之前很多研究也表明:⼤模

型具备极强的记忆能⼒;模型规模越⼤,记忆能⼒越强;模型规模越⼤,效果越好,极⼤程度

上来源于增强的记忆能⼒。

上图表明,相同的数据量,模型规模越⼤,对数据的记忆能⼒越强。

4.

⼤模型的记忆能⼒:记忆位置在哪⾥

现在有很多对⼤模型记忆位置等记忆能⼒的研究,这⾥给出其中⼀篇论⽂《Transformer

Feed-ForwardLayersAreKey-ValueMemories》所提供的解释。该论⽂认为

Transformer的知识记在FFN⾥,FFN本质上是⼀个Key-Value数据库。但现在有必威体育精装版研

究表明,在Transformer的Attention机制中实际上也存在知识的存储。

5.推荐模型的现状

我们现在来看⼀下推荐模型的现状。

推荐模型是过参数化的,所谓过参数化就是参数规模远远⼤于模型本身所需要的参数量。很多模

型引⼊了UID,MID等ID类特征,其模型的参数规模远远⼤于训练样本的规模,这其实是过参

数化的。在过参数化的情况下,进⼀步增⼤模型的参数规模对效果的影响是有限的。由此可以得

出结论,⽬前的推荐模型不具备ScalingLaw特性,即模型效果不会随着模型参数规模的增⼤

⽽持续上升。举⼀个例⼦来说明。

⾸先做参数量估算。假设我们构建⼀个基础的模型,其中有10亿个ID类特征,每个特征的embedding

size为20,后⾯接三层的MLP,对应的神经元个数分别为1024,512,256。那么在做参数量估算的

过程中,我们发现特征embedding参数量有200亿,模型MLP参数量有1.34亿。由此可以看出,

这个推荐模型的参数量主要集中在embedding层,占⽐为93.3%。在这种情况下,如果继续增加特

征的embedd

文档评论(0)

133****9720 + 关注
实名认证
内容提供者

物业管理师证持证人

该用户很懒,什么也没介绍

领域认证该用户于2023年04月23日上传了物业管理师证

1亿VIP精品文档

相关文档