- 1、本文档共8页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
涌现语义超越标记嵌入:带有冻结视觉Unicode表示的
Transformer语言模型
A.Bochkov1
1MoscowInstituteofPhysicsandTechnology(MIPT),Moscow,Russia
Correspondingauthor:A.Bochkov(e-mail:andrey.bochkov@).
本摘要
译理解大型语言模型(LLMs)中语义表示的位置对于解释性和架构创新至关重要。主导范式认为可训
练的输入嵌入作为基础“意义向量”。本文挑战了这一观点。我们构建了Transformer模型,其中嵌入
中层完全冻结,向量不是从数据中导出的,而是来源于Unicode字符的视觉结构。这些非语义的、预计算
1的视觉嵌入在整个训练过程中是固定的。我们的方法兼容任何分词器,包括我们引入的一种以Unicode
v为中心的新分词器,以确保普遍的文字覆盖。尽管没有可训练的、具有语义初始化的嵌入,我们的模型
6
8仍然能够收敛,生成连贯的文本,并且,在MMLU推理基准上,关键的是,超过了架构相同的带有可
8训练嵌入的模型。我们将其归因于传统模型中的“表示干扰”,其中嵌入层肩负着学习结构和语义特征
4
0的任务。我们的结果表明,高层次的语义不是输入嵌入固有的,而是Transformer组合架构和数据规模
7.的涌现特性。这重新定义了嵌入的角色,从意义容器转变为结构基元。我们发布了所有代码和模型以促
0进进一步的研究。
5
2索引项新兴语义,冻结嵌入,可解释性,语言模型,多语言自然语言处理,变换器,视觉表示,Unicode
:
v
i
x
r
a
1
1介绍型不仅能够收敛,而且表现出稳健的收敛性,并且
令人惊讶地在诸如MMLU等推理基准测试中超越
理解变换器语言模型中语义抽象的产生位置和了架构相同但具有可训练嵌入的同类模型,这表明
方式,既是可扩展、稳健且可解释的人工智能系统传统的处理方法存在表示干扰。涌现抽象出现在变
开发中的理论问题,也是实践问题。传统上,输入压器块本身内部,而不是输入向量中。这有着深远
标记嵌入——从大型语料库中学到的表示——被视的影响:它意味着语义结构是一种架构现象,而非
为意义的主要来源:它们的代数属性被引用为可编初始化产物。我们的主要贡献是:
码语义关系(“king-man+woman=queen”)的
•表明在变换器中语义理解可以在没有可训练
证据,并且不断进步的架构通常将模型改进归因于
的输入嵌入的情况下出现
更智能或更大的嵌入矩阵。这种范式塑造了对实现
“智能”表征学习所需条件的假设。•引入一个与任何分词器兼容的通用视觉嵌入
现代大型语言模型(LLMs)对正字法变化的鲁方案
棒性,比如在’IcanwRiTe’中,突显了一个基本问
•将“表现干扰”识别为可训练嵌入式潜在限制
题。模型的理解并非源自“write”这样的单一语义丰
之一
富的标记。相反,它通常依赖于从一序列语义贫乏
的字符或子词级别标记(例如,’w’,’R’,’i’,’T’,’e’)•
您可能关注的文档
- 当模仿学习在手术动作规划中优于强化学习时-计算机科学-人工智能-强化学习-手术动作规划.pdf
- 多模态表示在细粒度多标签安全关键视图识别中的应用-计算机科学-人工智能-安全关键视图.pdf
- 鲁棒的不完全模态对齐通过标记最优传输进行眼科疾病分级和诊断-计算机科学-眼科成像-最优传输.pdf
- 支持抽象论辩的基于案例推理-计算机科学-机器学习-案例推理.pdf
- 猫皇家-对机器人信任的艺术探究-计算机科学-机器人-艺术-人机交互.pdf
- 面向实例优化的 LLM 在 OLAP 数据库中的案例-计算机科学-大语言模型-实例优化.pdf
- 音乐飞回标枪-重复使用扩散模型进行数据增强和音频操作-计算机科学-扩散模型-音频处理.pdf
- 语义一致的离散扩散用于三维生物图建模-计算机科学-计算机视觉-医学图像.pdf
- 空间与语义嵌入集成在常规视频中的立体声音事件定位与检测-计算机科学-音视频机器学习-音频理解.pdf
- Spec-TOD-一个专用于高效任务导向对话系统的指令微调 LLM 框架-计算机科学-面向任务的对话-大语言模型.pdf
文档评论(0)