- 1、本文档共9页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
文本规范化对于分类中世纪宪章是否相关
?
FlorianAtzenhofer-Baumgartner
andTamásKovács
CenterforInformationModelling,UniversityofGraz,Graz,Austria
atzenhofer@,tamas.kovacs@uni-graz.at
摘要本研究考察了历史文本规范化对中世纪特许状分类的影响,特别关
本注文档日期和地点的识别。我们使用了一个来自数字档案馆的中古高地德
译语特许状数据集,评估了各种分类器,包括传统的和基于变换器的模型,
中并且分别测试了有无规范化的效果。我们的结果显示给定的规范化对定位
任务仅略有改进,但降低了日期识别的准确性,表明原始文本包含了一些
2可能被规范化过程掩盖的关键特征。我们发现支持向量机和梯度提升的表
v
6现优于其他模型,这质疑变换器在此用例中的效率。结果建议采取选择性
4的历史文本规范化方法,强调保留一些对文档分析分类任务至关重要的文
4
6本特征的重要性。
1
.
8Keywords:文档分类·历史文本标准化·资源较少的语言·数字外交
0学·数字人文
4
2
:
v1介绍
i
x
r特许状是根据某些正式标准创建和认证的历史法律文件。它们在确认多
a
方之间的交易和合同方面至关重要,例如涉及土地、财产、特权等的交易。
这些文件对于历史研究极为宝贵,尤其是在研究中世纪和早期现代时期时。
它们的重要性与人类社区生活的核心密切相关,这种生活很大程度上依赖于
法律协议[11]。特许状通常以原稿、副本或(印刷)学术版的形式保存。
外交学领域致力于批判性地审查宪章,重点在于确认其真实性。这样做
需要比较许多文件。因此,外交学家面临着一个重大挑战:高效地筛选大量
这些来源以找到与研究最相关的内容。一个有前景的解决方案是机器辅助文
本分类。历史研究中两项基本任务包括确定文档的时间和地点[14]。在外交
学领域,这些任务对于推断宪章的出处至关重要,从而能够构建所谓的宪章
景观。这些景观有助于调查法律规范和传统的演变以及语言特征[2,30]。
2FlorianAtzenhofer-BaumgartnerandTamásKovács
虽然这些任务对于历史研究至关重要,但文本(保存)传统的不一致性
和大字符数字化形式中常见的噪声使它们变得复杂。通过自动文本识别转录
大字符可能会加剧这一趋势[26]。鉴于超出某个阈值后,不存在单一的最佳
解决方案用于历史文本规范化[3],并且考虑到其巨大的努力,我们必须问:
考虑到它对文本分类的影响,这样做是否合理?
鉴于这个问题,我们的工作引入了几项创新。我们利用了一组最近引入
并整理的中古高地德语后期(MHG)字符数据集,即现代德语的历史前身,
在面对多个自然语言处理任务时被认定为低资源[22]。我们也评估了一系列
分类器,
您可能关注的文档
- 基于变换器的辅助损失用于跨年龄变化的人脸识别-计算机科学-机器学习-人脸识别-神经网络.pdf
- 量子计算启发的绘画:重新诠释经典杰作-计算机科学-量子计算-算法.pdf
- LLM 作为代码生成器在敏捷模型驱动开发中的应用-计算机科学-机器学习-模型驱动开发-代码生成.pdf
- 渐近最优的 t 设计曲线在 S3 上-计算机科学-机器学习-算法.pdf
- 格林函数的一个显式分解,用于具有阻抗边界条件的声学半空间问题,将其分解为一个振荡指数项和一个缓慢变化的函数-计算机科学-机器学习-算法.pdf
- FDO 管理器:最小可行 FAIR 数字对象实现-计算机科学-机器学习-元数据模式-算法.pdf
- 1.1 疆域 第2课时(教学设计) 2025人教版地理八年级上册.pdf
- 2025年人生选择理智决策班会.pptx
- 晾晒衣服教学课件中班.ppt
- 二手交易电商平台信用体系建设与行业规范化发展.docx
文档评论(0)