- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
文本挖掘应用——Mooc时代在线课程知识点自动提取的算法
谢谢! MOOC(大规模开放在线课程)让每个人享有学习的权利,开始于2011年秋天,被誉为“印刷术发明以来教育最大的革新”,给“未来教育”带来了曙光 5Any(任何人、任何时间、任何地点、任何方式、任何课程) 学习免费,考试和申请证书需要交费 考试通过率只有5% 慕课发展非常迅速,国际上已有3大主流平台:Coursera、edX和Udacity(北大和清华已经加入edx,复旦和上海交大已经加入Coursera),以Coursera为例,2011年底成立,2014年1月注册人数就突破440万,学生来自196个国家,合作高校84所,426门课程 * 由于慕课追求“多而全”的课程和资源,而学习对象又是面向全球所有的人。在这样的一种情况下,让每个学习者自己选择课程(分类查找或者关键字查找),而且顺利完成学习的确比较困难,因为学习者在选择课程初期带有诸多不确定性和随机性,随着学习的深入,学习者的兴趣可能发生转移,或者发现根本学不懂,也就是课程要求与自己的学习能力不相符合。因此,从管理和技术的角度,需要为每位学习者主动提供适合他学习的课程和资源。 * Mooc时代在线课程知识点自动提取的算法设计 PPT模板下载:/moban/ 行业PPT模板:/hangye/ 节日PPT模板:/jieri/ PPT素材下载:/sucai/ PPT背景图片:/beijing/ PPT图表下载:/tubiao/ 优秀PPT下载:/xiazai/ PPT教程: /powerpoint/ Word教程: /word/ Excel教程:/excel/ 资料下载:/ziliao/ PPT课件下载:/kejian/ 范文下载:/fanwen/ 试卷下载:/shiti/ 教案下载:/jiaoan/ 引言 01 理论基础与方法 02 03 自动提取知识点的框架和算法 04 实证 引言 01 理论基础与方法 02 03 自动提取知识点的框架和算法 04 实证 MOOC,英文全称Massive Open Online Course,中文全称为大规模在线开放课程。 MOOC发展非常迅速,以Coursera为例,2011年底成立,2014年注册人数就突破440万,学生来自196个国家,合作高校84所,426门课程 MOOC学习能够按期毕业的学生不足5%,因此MOOC面临最大的问题-高辍学率 问题分析解决思路 主要原因:课程资源与学生能力不匹配 解决思路:根据学生的学习能力和兴趣爱好向学生推荐合适的课程资源(个性化推荐) 需要技术:本体推荐技术,首要任务是构建本体,考虑大规模课程资源,需要自动构建本体(本体学习,Ontology Learning) 课程本体学习 课程本体学习包括: 课程知识点自动提取 知识点之间关系自动提取 课程知识点自动提取是非常重要的任务,也是关系提取的基础 理论基础与方法 02 引言 01 03 自动提取知识点的框架和算法 04 实证 文本挖掘一般方法 文档 物征提取/文本表示 特征选择 挖掘方法获取知识模式 知识 用户评价 ? ? ? ? 2.1概念过滤(Concept filters) 领域相关度 领域一致度 概率过滤 2.2词频TF-IDF 词频(term frequency,TF)指的是某一个给定的词语在该文件中出现的频率 如果包含词条t的文档越少,也就是n越小,逆向文件频率(inverse document frequency,IDF)是一个词语普遍重要性的度量,基本思想:IDF越大,则说明词条t具有很好的类别区分能力 2.3相似度计算 余弦相似度 Jaccard相似性系数 皮尔逊相关系数 03 自动提取知识点的框架和算法 引言 01 理论基础与方法 02 04 实证 自动提取课程知识点的框架 3.1文档预处理 对文档进行分类,取MOOC中非常重要的3类文档: 教学文件、教学内容和习题库 将各种格式(word、pdf、html、XML、Excel等)统一转化为纯文本文件格式(*.txt) 3.2中文分词与词性标注 采用中科院计算所研究的ICTCLAS开源软件进行分词和词性标注 增加教育领域词典、计算机领域词典、以及课程领域词典 3.3选择候选课程知识点 采用VSM模型利用TF-IDF算法计算特征的TF-IDF值 考虑到以后对知识点间关系的提取,需要统计每个候选课程知识点的属性,包括:所在文档的位置、所在文档字节大小、所在段落位置、所在句子的位置、同一句子中的其它候选知识点等等 3.4 相似度计算 3.5 权重计算 3.6 提取课程知识点 3
您可能关注的文档
最近下载
- 2025入党积极分子发展对象培训考试题库100题含答案(完整版).docx VIP
- 建筑初步设计汇报.pptx VIP
- 个人简历——【标准模板】.doc VIP
- 教师信息技术应用能力提升培训.pptx VIP
- 新版统部编三年级语文上册第二单元(习作:写日记)PPT教案.pptx VIP
- 江苏省南京市第二十九中学2026届高三上学期模拟预测试题化学含答案.pdf
- 2021年职业病防治知识题库(含答案).pdf VIP
- 中职英语(高教版)基础模块二-Unit6 Craftsmanship Listening and Speaking优质教学课件PPT.pptx VIP
- (2025)公安招聘辅警考试笔试题与答案(完整版).docx
- 省工业固体废物(含危险废物)综合利用情况调查表.docx VIP
文档评论(0)