- 1、本文档共9页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
大型语言模型的
符号音乐内部感知
11
AndrewShin,KunitakeKaneko
1KeioUniversity
shin@inl.ics.keio.ac.jp,kankeo@inl.ics.keio.ac.jp
Abstract性的特性带来了独特的挑战。尽管大型语言模型可以生
大型语言模型(LLMs)擅长建模自然语言中字符串之间成音乐的文字描述甚至歌词,但它们直接产生包含音
的关系,并且在扩展到编码或数学等其他符号领域方面高、时长和力度等信息的结构化音乐数据(如MIDI序
显示出潜力。然而,它们在隐式建模符号音乐方面的程列)的能力却鲜受关注。这一差距尤为重要,因为音乐
度仍处于探索阶段。本文研究了LLMs如何通过从描述为探究大型语言模型如何将模式识别推广到自然语言
本流派和风格组合的文本提示生成符号音乐数据来表示音之外的领域提供了丰富的试验平台,可能揭示它们在字
译乐概念,并通过识别和生成任务评估其效用。我们生成符串建模方面的优势是否也适用于定义音乐世界的时
了一个由LLM生成的MIDI文件的数据集,无需依赖序和和声关系。
中明确的音乐训练。然后我们在这个完全由LLM生成的
在这方面,(Sharmaetal.2024)提供了一个有趣的
1MIDI数据集上训练神经网络,并进行流派和风格分类
v以及旋律补全,将它们的表现与现有模型进行基准比较。基石,在此他们研究了建模字符串之间的关系如何使大
8我们的结果显示,LLMs可以从文本中推断出基本的音语言模型了解视觉世界。他们系统地评估了大语言模型
0
8乐结构和时间关系,既突显了其隐式编码音乐模式的能通过将图像表示为代码来生成和识别视觉概念的能力,
2力,也指出了由于缺乏明确的音乐背景而产生的局限性,从而绕过了这些模型无法直接处理像素的限制。他们的
1.为符号音乐的生成能力提供了见解。发现表明,精确的字符串建模能够使大语言模型编码视
7觉复杂性的各个方面,甚至支持自监督的视觉表示学
0
5介绍习,这表明大语言模型可以超越其文本起源,理解结构
2大型语言模型(LLMs),仅通过大量的文本字符串化、非语言领域。这一见解激发了我们对音乐领域的探
:
v语料库进行训练,已经展示了不仅捕捉语言结构而且索,这是一个同样抽象和结构化的领域,在这里我们假
i
x捕捉嵌入这些字符串中的其他符号领域的复杂方面的设通过类似的文本到符号映射,大语言模型可能会学会
r
a显著能力(Pavlick2023)。这种能力源于它们建模字符涉及流派、风格和旋律的音乐概念,从而提供对其表示
序列之间关系的能力,使它们能够推断和生成远超单能力的一个平行视角。
纯语法的表示形式。例如,LLMs可以生成编程语言中重要的是要承认,当将“理解”一词应用于大型语
的可执行代码,有效地模拟计算逻辑和算法过程,这言模型时,这在人工智能社区内是一个复杂且备受争议
些过程反映了现实世界的问题解决方法(
您可能关注的文档
- 自回归语音增强通过声学标记-计算机科学-语音增强-音频标记-语言模型.pdf
- 远网:具有增强语义对齐和自适应调和的多阶段融合网络用于组合图像检索-计算机科学-组合图像检索-视觉语言.pdf
- MCoT-RE: 多方面推理链和重排序用于无训练零样本合成图像检索-计算机科学-大语言模型-计算机视觉-组合图像检索.pdf
- 基础问题生成结合问题嵌入用于视频问答-计算机科学-大语言模型-时空信息-视频问答-多模态.pdf
- ATL-Diff: 声音驱动的说话头像生成早期地标引导噪声扩散-计算机科学-音频驱动的说话头像生成-虚拟助手.pdf
- 模仿错误以学习同伴在线协作中的 AI 代理-计算机科学-生成式AI-大语言模型-语法错误纠正.pdf
- 老年人与代理互动的自主性-计算机科学-人工智能-代理系统-老年人护理.pdf
- 参考疗法级纸liture paper 1 slsesotho litting 1.pdf
- 这给出期望期待案例.pdf
- 池塘动物级书由ned jensen撰写angela kamstra-level点读版pond animals.pdf
最近下载
- 消防工程质量监理质量评估报告.docx VIP
- JTT 1516-2024 公路工程脚手架与支架施工安全技术规程.docx VIP
- 咨询服务流程与方法.docx VIP
- 乳制品的生产企业应急预案终稿.pdf
- 北师大版七年级数学下学期期中易错精选50题(解析版)2022-2023学年七年级数学下册重难点专题提优训练(北师大版).docx VIP
- 2023-2024年暨南大学352口腔综合考研真题.pdf VIP
- 110千伏及以下配电网规划技术指导原则(2024年).doc VIP
- 药品常用知识(共18张PPT).pptx VIP
- 医疗质量管理课件.pptx VIP
- 管理学原理配套教材电子课件(完整版).pptx
文档评论(0)