文本规范化对于分类中世纪宪章是否相关 ?-计算机科学-机器学习-文档分类-数字人文.pdf

文本规范化对于分类中世纪宪章是否相关 ?-计算机科学-机器学习-文档分类-数字人文.pdf

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

文本规范化对于分类中世纪宪章是否相关

FlorianAtzenhofer-Baumgartner

andTamásKovács

CenterforInformationModelling,UniversityofGraz,Graz,Austria

atzenhofer@,tamas.kovacs@uni-graz.at

摘要本研究考察了历史文本规范化对中世纪特许状分类的影响,特别关

本注文档日期和地点的识别。我们使用了一个来自数字档案馆的中古高地德

译语特许状数据集,评估了各种分类器,包括传统的和基于变换器的模型,

中并且分别测试了有无规范化的效果。我们的结果显示给定的规范化对定位

任务仅略有改进,但降低了日期识别的准确性,表明原始文本包含了一些

2可能被规范化过程掩盖的关键特征。我们发现支持向量机和梯度提升的表

v

6现优于其他模型,这质疑变换器在此用例中的效率。结果建议采取选择性

4的历史文本规范化方法,强调保留一些对文档分析分类任务至关重要的文

4

6本特征的重要性。

1

.

8Keywords:文档分类·历史文本标准化·资源较少的语言·数字外交

0学·数字人文

4

2

:

v1介绍

i

x

r特许状是根据某些正式标准创建和认证的历史法律文件。它们在确认多

a

方之间的交易和合同方面至关重要,例如涉及土地、财产、特权等的交易。

这些文件对于历史研究极为宝贵,尤其是在研究中世纪和早期现代时期时。

它们的重要性与人类社区生活的核心密切相关,这种生活很大程度上依赖于

法律协议[11]。特许状通常以原稿、副本或(印刷)学术版的形式保存。

外交学领域致力于批判性地审查宪章,重点在于确认其真实性。这样做

需要比较许多文件。因此,外交学家面临着一个重大挑战:高效地筛选大量

这些来源以找到与研究最相关的内容。一个有前景的解决方案是机器辅助文

本分类。历史研究中两项基本任务包括确定文档的时间和地点[14]。在外交

学领域,这些任务对于推断宪章的出处至关重要,从而能够构建所谓的宪章

景观。这些景观有助于调查法律规范和传统的演变以及语言特征[2,30]。

2FlorianAtzenhofer-BaumgartnerandTamásKovács

虽然这些任务对于历史研究至关重要,但文本(保存)传统的不一致性

和大字符数字化形式中常见的噪声使它们变得复杂。通过自动文本识别转录

大字符可能会加剧这一趋势[26]。鉴于超出某个阈值后,不存在单一的最佳

解决方案用于历史文本规范化[3],并且考虑到其巨大的努力,我们必须问:

考虑到它对文本分类的影响,这样做是否合理?

鉴于这个问题,我们的工作引入了几项创新。我们利用了一组最近引入

并整理的中古高地德语后期(MHG)字符数据集,即现代德语的历史前身,

在面对多个自然语言处理任务时被认定为低资源[22]。我们也评估了一系列

分类器,

您可能关注的文档

文档评论(0)

zikele + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档