- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中学英语网络书面语料采集
中学英语网络书面语料采集语料库作为一种新的资源和技术走进课堂需要实践创新,过程凸现的是语料库的“教学加工”理念[1]的实施,能促使“语言教师从语料库产品的被动接受者和消费者转变为主动参与者、构建者和创新研究者”[2]。 对于教学而言,语料库具有能将大量有真实语境意义的实例以数据或语境共现的形式呈现在学习者面前的优势和特点,能够形成一种吸引学习者注意力,有利于强化记忆以及帮助学习者利用语境获取语义和总结规律的学习环境的潜在特质,一直以来都被认为是语料库语言学应用的重要部分。对于处于教学一线的中学英语教师而言,如何自己动手获得适合自己各个阶段教学活动的语料素材,是语料库语言学理念及技术能否走进课堂的首要先决条件,下面笔者将介绍四种从网络收集书面语料的技术和步骤。 按照语料库语言学常见的区分用词,获取语料主要有两种途径:Retrieving和Collecting。Retrieving是指直接从网络把他人已经做成可供使用形式(有的是原始语料,有的是标注语料)的语料库下载。这种途径获取的语料具有方便快捷的特点,但是由于取样和标注的模式主要是出于既定的目的,如用于中介语研究、语言变体研究等,与我国中学英语教学不具有衔接性;而且词次(token)过大,从百万到上亿词次的语料库都较为普遍,一般难以直接应用于教学。Collecting收集的并非语料库,而是语料。与大型语料库及基于语言研究目的的语料库不同,个人收集的语料具有针对性,是自己个人教学活动所驱动的,为了解决具体教学活动和问题而收集的,一般词次较小,但有的放矢,对英语教师后续应用来说更加具有意义。因此,本文所介绍的四种方法为后一种途径,即Collecting的方法。 一、浏览器文本输出法 这是最简单易用而又快捷的获取书面语料的方法。文本输出是一般浏览器都具有的功能。无论是我国大陆普遍使用的IE浏览器,还是Mozilla Foxfire等浏览器,都提供这个功能。执行步骤如下: 1. 打开所需要的网页页面,如某篇英语新闻报道。 2. 单击浏览器工具栏中的“页面”按钮,从其下拉菜单中点击“另存为”。 3. 在弹出对话框的文件名输入你需要的文件名字,尽量按一定的统一体例起文件名,以便日后统一管理或横向对比。另外,文件名中用下横线(如“news)而不用空格键,这样做是为了日后语料文档增多时电脑自动排序以方便搜寻和管理文档。 4. 在文件名下面的保存类型选择文本文件,这是最关键的一步,因为网页中图片、视频等都是无关信息,而且语料库文本一般都采用文本文件格式储存,也方便后续清理和编码等工作。 5. 在编码选项框选择Unicode(UTF-8)。Unicode(UTF-8)编码能有效地解决因文字编码不同而产生的乱码现象。 6. 点击“保存”,保存到需要的文件夹中。一个页面的文字瞬间保存下来了,由于以文本格式保存,网页中的所有非文字内容,如图片和动画等都自动剔除,该文档已经是可以马上被使用的语言材料。 二、浏览器超文本标记语言输出法 HTML(Hyper Text Mark-up Language)即超文本标记语言,是WWW的描述语言,由Tim Berners-lee提出。设计HTML语言的目的是为了能把存放在一台电脑中的文本或图形与另一台电脑中的文本或图形方便地联系在一起,形成有机的整体,人们不用考虑具体信息是在当前电脑上还是在网络的其他电脑上。这样,你只要使用鼠标在某一文档中点取一个图标,Internet就会马上转到与此图标相关的内容上去,而这些信息可能存放在网络的另一台电脑中。HTML文本是由HTML命令组成的描述性文本,HTML命令可以说明文字、图形、动画、声音、表格、链接等。HTML的结构包括头部(Head)、主体(Body)两大部分。头部描述浏览器所需的信息,主体包含所要说明的具体内容。 顾名思义,超文本标记语言与文本输出的最大区别就在于,它包含了一些描述浏览器所需的信息,在某些情况下,我们对这些信息是感兴趣的,不想在获取过程中丢失的话,可以在进行“浏览器文本输出法”操作时,在第四步选择“保存类型”时选择“网页,仅HTML”选项,其余的步骤不变。使用超文本标记语言输出的语料最大的特点在于能保留材料来源网页的“源格式”(source format),在特定的情况下,是有它无可比拟的优势的。 三、使用ICEweb 软件获取语料 ICEweb是由香港城市大学外语系Martin Weisser博士自行设计编写的一款免费小软件(在香港城市大学Martin Weisser个人网页可免费下载),目的是让使用者自己获取网络书面语料。该软件对设备的要求不高,操作简便,界面友好,不需要操作者有很高的技术,与其他一些语料库软件的技术性和
您可能关注的文档
- 两种子宫内膜异位症大鼠模型血液流变学及单胺类神经递质比较探究.doc
- 两种子宫肌瘤剔除术比较研究.doc
- 两种开髓方法对下颌切牙双根管治疗率比较.doc
- 两种文化背景下人性共同点.doc
- 丝绸之路申遗中国段旅游形象设计及推广策略.doc
- 两种方案治疗高血压成本-效果研究.doc
- 两种波长强脉冲光联合治疗面部寻常性痤疮疗效观察.doc
- 两种自控镇痛配方在剖宫产术后临床效应比较.doc
- 两种药物对急性细菌性鼻窦炎治疗随机对比研究.doc
- 两种静脉麻醉方法在三叉神经节射频热凝术中应用观察.doc
- 开源证券-中小盘策略专题:2025年定增:市场明显回暖,赚钱效应凸显.pdf
- 国金证券-A股策略周报:投资与消费,电力与算力.pdf
- 国金证券-固定收益策略报告:拥挤的错觉.pdf
- 申万宏源-食品饮料行业周报 20251110-20251114:板块关注度回升重申进入战略配置期.pdf
- 方正证券-基金研究-专题研究:摊余债基开放有哪些值得关注?.pdf
- 国信证券-新能源和电力设备行业专题-新质生产力六大主线巡礼.pdf
- 申万宏源-纺织服装行业2025年三季报总结:品牌复苏方向明确制造端关注订单修复.pdf
- 太平洋证券-非银行业行业深度研究报告:乘风之势,非银行业Q3业绩解构与策略展望.pdf
- 华安证券-计算机行业周报:全球科技-计算机.pdf
- 申万宏源-非银金融行业周报:居民存款搬家在途险资3Q25二级市场权益资产配置规模显著提升.pdf
有哪些信誉好的足球投注网站
文档评论(0)