基于网络检索的语料库软件系统评述.docxVIP

基于网络检索的语料库软件系统评述.docx

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于网络检索的语料库软件系统评述

基于网络检索的语料库软件系统评述王雁苓1,吕学实2(1.吉林省教育学院,吉林长春130022;2.吉林省工商银行,吉林长春130021)摘要:基于网络检索的语料库研究均开始于语料库软件系统的开发,语料库软件系统是从事语料库语言学、机器翻译、语言教学、词典编纂等研究的基础,软件系统的质量决定了语料库建设规模的大小和研究成果的优劣。大规模语料库软件系统建设的关键环节包括:文档抽取;元数据建立;词性、句法和语误标注;索引、检索和统计分析。针对上述技术环节,我们收集并编程测试了大量国外语料库开发软件包,从软件实现的理论方法、执行效率、准确率、鲁棒性、实用性、支持中文等多个方面进行分析和评述,以期对国内大规模语料库软件系统的建设提供借鉴和帮助。关键词:语料库;网络检索;语料库软件系统;语料标注中图分类号:G254.9文献标识码:A文章编号:1007-7634(2014)11-147-05CommentaryofCorpusSoftwareSystemBasedonNetworkRetrievalWANGYan-ling1,LVXue-shi2(1.TeachingAffairsOfficeofJilinProvincialInstituteofEducation,Changchun130022,China;2.IndustrialandCommercialBankofJilinProvince,Changchun130021,China)Abstract:Thestudyofcorpussoftwaresystembasedonnetworkretrievalwasalllaunchedoutwiththedevelopmentofcorpussoftwaresystem.Thecorpussoftwaresystemplaysasthefoundationalstoneinthebuildingofthestudiesoncorpuslinguistics,machinetranslation,languageteachingandlexicography.Thesystem’squalityformulatesthescaleofcorpusconstructionandtheoutputsofthestudiesaswell.Theconstructionoflarge-scalecorpussoftwaresystem,whosekeylinksinclude:documentextraction;Metadatasetup;thepartofspeech,syntaxandmisslabeling;indexing,retrievalandstatisticalanalysis.Accordingtothetechnologiesabove,weanalyzedandcommentedthecorpusdevelopmentpackagefromvariousofaspects,likethetheorymethod,executionefficiency,accuracy,robustnessandpracticability,weathersupportChineseandsoon,bymeansofalargeamountofforeigncorpusdevelopmentpackagecollectionandprogrammingtests.Wedoitforthereasonthatwemayprovideareferenceoralittlehelpfortheconstructionofdomesticlarge-scalecorpussoftwaresystemlateron.Keywords:corpus;netsearch;corpussoftwaresystem;corpustagging然语言材料进行统计分析的大型资料库【1】。一般认为语料库的发展经历了三个阶段:①手工语料库阶段②电子语料库阶段③基于网络检索的大规模电子语料库阶段。其应用领域也由原来的语料库语1引言语料库(corpora)是应用计算机技术对海量自收稿日期:2014-04-20作者简介:王雁苓(1968-),女,吉林长春人,副教授,硕士,主要从事计算机专业课程教学和软件应用开发研究.-147-INFORMATIONSCIENCEVol.32,No.11November,2014·Summarization·言学研究、词典编纂扩展到现在的机器翻译、语言教学等诸多领域。基于语料库的研究与应用均开始于语料库软件系统的开发。典型的语料库软件系统应包括:文档的抽取及元数据创建;自动词性/语法标注;索引、检索和统计分析等功能模块。其中最为重要的是词

文档评论(0)

zhuwenmeijiale + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:7065136142000003

1亿VIP精品文档

相关文档