- 1、本文档共19页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
我们能获得推荐系统的⼤模型吗?
导读
本次分享的主题是我们能获得推荐系统的⼤模型吗?具备“伸缩法则(Scaling
Law)”是⼤语⾔模型(LLM)的典型特点,也就是说随着模型规模增⼤,模型效果持续增
⻓。⽬前的推荐模型并不具备ScalingLaw特性,模型的参数规模对效果影响有限。我们改
进模型试图使得推荐模型也能具备“ScalingLaw”这种⼤模型独具的特点。⽬前研究表明强⼤
的知识记忆能⼒是LLM性能优异的主要原因之⼀,这启发我们在推荐模型中引⼊独⽴的记忆
机制,⽤来存储、学习和记忆任意组合特征,本次分享将介绍这种记忆系统HCNet,以及由
此构造的MemoNet。我们发现引⼊独⽴记忆机制后,推荐模型初步表现出了ScalingLaw
特性。
本次分享会围绕四个⽅⾯展开:
1.
来⾃LLM的启示
.
HCNetMemoNet:特征组合记忆机制
3.
MemoNet的效果
4.
总结与展望
01
来⾃LLM的启示
⾸先介绍第⼀部分:来⾃LLM的启示。
1.
⼤语⾔模型:快速发展
近⼏年来,⼤模型⻜速发展,效果惊艳。OpenAI伸缩法则研究表明⼤语⾔模型(LLM)性能
的提升主要来⾃于三个⽅⾯:更多的数据、更多的模型参数、更充分的训练。当前研究表明:
在特征抽取器⽅⾯,Transformer性能⾜够强⼤,暂时不需要重⼤改进;⼤模型结构的改进对
模型效果的影响有限。因此,⼤模型性能的提升更多的来⾃于上⾯所提及的数据、参数以及充
分的训练。
我们可以看到,⾃GPT/BERT诞⽣以来,⼤语⾔模型百花⻬放,模型的参数规模越来越⼤,
效果⾮常好。
2.
⼤语⾔模型:⼤模型的典型特点
⼤语⾔模型有⼀个⾮常典型的特点:伸缩法则(ScalingLaw)。所谓伸缩法则就是给定充⾜
的训练数据,随着模型参数规模增⼤,模型效果持续增⻓。
以GoogleT5中的⼀个图为例,我们可以看到,随着模型参数的增⼤,对应模型的效果单调上
升,⽽且上升幅度⽐较⼤。
3.
⼤模型的记忆能⼒:记忆与泛化
⼤模型效果为什么好?这⾥就需要提到⼤模型的记忆能⼒。今年OpenAI提出“压缩即智能”理
论,即将GPT模型的训练过程看作对训练数据的⽆损压缩过程。之前很多研究也表明:⼤模
型具备极强的记忆能⼒;模型规模越⼤,记忆能⼒越强;模型规模越⼤,效果越好,极⼤程度
上来源于增强的记忆能⼒。
上图表明,相同的数据量,模型规模越⼤,对数据的记忆能⼒越强。
4.
⼤模型的记忆能⼒:记忆位置在哪⾥
现在有很多对⼤模型记忆位置等记忆能⼒的研究,这⾥给出其中⼀篇论⽂《Transformer
Feed-ForwardLayersAreKey-ValueMemories》所提供的解释。该论⽂认为
Transformer的知识记在FFN⾥,FFN本质上是⼀个Key-Value数据库。但现在有必威体育精装版研
究表明,在Transformer的Attention机制中实际上也存在知识的存储。
5.推荐模型的现状
我们现在来看⼀下推荐模型的现状。
推荐模型是过参数化的,所谓过参数化就是参数规模远远⼤于模型本身所需要的参数量。很多模
型引⼊了UID,MID等ID类特征,其模型的参数规模远远⼤于训练样本的规模,这其实是过参
数化的。在过参数化的情况下,进⼀步增⼤模型的参数规模对效果的影响是有限的。由此可以得
出结论,⽬前的推荐模型不具备ScalingLaw特性,即模型效果不会随着模型参数规模的增⼤
⽽持续上升。举⼀个例⼦来说明。
⾸先做参数量估算。假设我们构建⼀个基础的模型,其中有10亿个ID类特征,每个特征的embedding
size为20,后⾯接三层的MLP,对应的神经元个数分别为1024,512,256。那么在做参数量估算的
过程中,我们发现特征embedding参数量有200亿,模型MLP参数量有1.34亿。由此可以看出,
这个推荐模型的参数量主要集中在embedding层,占⽐为93.3%。在这种情况下,如果继续增加特
征的embedd
您可能关注的文档
- 《知识图谱与大模型融合实践研究报告》.pdf
- 6G内生AI架构及AI大模型.pdf
- 2023中国大模型市场商业化进展研究报告.pdf
- AIGC人才趋势洞察报告-猎聘.pdf
- PyTorch模型训练调优&GPU并行加速宝典.pdf
- 大模型综述 97页 英文版.pdf
- 大语言模型在推荐系统的实践应用.pdf
- 多态大模型平台的应用研发与思考.pdf
- 26-YOUR VIT BUT FASTER大模型资料高清版.pdf
- 21-Aligning Language Models大模型资料高清版.pdf
- 医学研究统计方法综合运用与结果表达03医学论文中常见统计学错误.pptx
- 医学代谢组学技术与研究系列讲座02ROC曲线分析.pptx
- 冰雪舞蹈与数字媒体艺术的结合论文.docx
- 2025年摄影师(初级)职业技能鉴定试卷:摄影作品版权登记与保护.docx
- 2025年事业单位教师招聘政治学科专业知识试卷(政治思想).docx
- 2025年日语能力测试N2级阅读专项试卷:日语阅读与语法巩固.docx
- 2025年西班牙语DELEC9级口语实战试卷:2025年备考策略.docx
- 2025年无损检测员(中级)无损检测行业标准试卷.docx
- 2025年高考文学类文本阅读(小说)复习.pdf
- 2025年医保知识考试题库及答案(医保谈判药品价格谈判)试卷.docx
最近下载
- 陕西省西安市雁塔区高新一中达标名校2025年中考语文试题二轮优化提升专题训练含解析.doc VIP
- 2025年污水处理新技术研发——污泥资源化技术在废水处理中的应用案例.docx
- 2025版高考英语一轮总复习选择性必修第四册Unit5LaunchingYourCareer课件.pptx VIP
- 《民法典》合同编关键条款精讲.pptx VIP
- 2025版高考英语一轮总复习选择性必修第四册Unit4Sharing课件.pptx VIP
- 医院鼻饲法操作评分表.doc
- 巢湖市爱华环保科技有限公司年处理20万吨工业废弃物(一般固废)资源化循环利用项目报告书.pdf
- 人体解剖学题库+答案.doc
- 车辆采购、配送、验收、售后服务方案.docx
- 塑造卓越领导力与执行力讲座课件.ppt VIP
文档评论(0)