- 1、本文档共13页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
多示例学习*
周志华
南京大学 软件新技术国家重点实验室, 江苏 南京 210093
摘 要: 在多示例学习中,训练样本是由多个示例组成的包,包是有概念标记的,但示例本身却没有概念标记。如
果一个包中至少包含一个正例,则该包是一个正包,否则即为反包。学习的目的是预测新包的类别。由于多示例学
习具有独特的性质,目前被认为是一种新的学习框架。本文对该领域的研究进展进行了综述,并对有待深入研究的
一些问题进行了讨论。
1 引言
20 世纪90 年代以来,从例子中学习(learning from examples )被认为是最有希望的机器学习途
径[1] 。如果以训练样本的歧义性(ambiguity )作为划分标准,则目前该领域的研究大致建立在三种
[2] 下,即监督学习、非监督学习和强化学习。
学习框架(learning framework )
监督学习通过对具有概念标记(concept label )的训练例进行学习,以尽可能正确地对训练集之
外的示例的概念标记进行预测。这里所有的训练样本都是有标记的,因此其歧义性最低。非监督学
习通过对没有概念标记的训练例进行学习,以发现数据中隐藏的结构。这里所有的训练样本都是没
有标记的,因此其歧义性最高。强化学习通过对没有概念标记、但与一个延迟奖赏或效用(可视为
延迟的概念标记)相关联的训练例进行学习,以获得某种从状态到行动的映射。这里所有的训练样
本都是有标记的,但与监督学习不同的是,标记是延迟的,因此强化学习的歧义性介于监督学习与
非监督学习之间。
20 世纪90 年代中后期,研究者们[3]在对药物活性预测(drug activity prediction )问题的研究中,
提出了多示例学习(multi-instance learning )的概念。在此类学习中,训练集由若干个具有概念标记
的包(bag )组成,每个包包含若干没有概念标记的示例。若一个包中至少有一个正例,则该包被标
记为正(positive ),若一个包中所有示例都是反例,则该包被标记为反(negative )。通过对训练包的
学习,希望学习系统尽可能正确地对训练集之外的包的概念标记进行预测。
与监督学习相比,多示例学习中的训练示例是没有概念标记的,这与监督学习中所有训练示例
都有概念标记不同;与非监督学习相比,多示例学习中训练包是有概念标记的,这与非监督学习的
训练样本中没有任何概念标记也不同;而与强化学习相比,多示例学习中又没有时效延迟的概念。
更重要的是,在以往的各种学习框架中,一个样本就是一个示例,即样本和示例是一一对应关系;
而在多示例学习中,一个样本(即包)包含了多个示例,即样本和示例是一对多的对应关系。因此,
多示例学习中训练样本的歧义性与监督学习、非监督学习、强化学习的歧义性都完全不同,这就使
得以往的学习方法难以很好地解决此类问题。由于多示例学习具有独特的性质和广泛的应用前景,
属于以往机器学习研究的一个盲区,因此在国际机器学习界引起了极大的反响,被认为是一种新的
[2]
学习框架 。
* 本文得到国家杰出青年科学基金和国家自然科学基金资助
本文首先介绍多示例学习的起源,然后对该领域的研究进展进行综述,最后对有待深入研究的
一些问题进行讨论。
2 问题的提出
大多数药物都是一些分子,它们通过与较大的蛋白质分子例如酶等绑定来发挥作用,药效则是
由绑定的程度决定的。对适于制造药物的分子来说,它的某个低能形状和期望的绑定区域将耦合得
很紧密;而对不适于制造药物的分子来说,它和期望的绑定区域将耦合得不好。
20 世纪90 年代中后期,T. G. Dietterich 等人[3]对药物活性预测问题进行了研究。其目的是让学
习系统通过对已知适于或不适于制药的分子进行分析,以尽可能正确地预测某种新的分子是否适合
制造药物。该问题的困难主要在于,每个分子都有很多种可能的低能形状,图 1 给出了一个例子。
而生物化学专家目前只知道哪些分子适于制药,并不知道具体的哪一种形状起到了决定性作用。如
果直接使用监督学习框架,将适于制药的分子的所有低能形状都作为正例,而将所有不适于制药的
分子的所有低能形状都作为反例,则会由于正例中噪音度太高而难以成功地进行学习。这是因为一
个分子可能有上百种低能形
您可能关注的文档
- 《爱护公共卫生》主题班会教案.doc
- 管辖权异议法院作出裁定期限.doc
- 中药饮片加工工艺流程图(DEC).doc
- 病句辨析十一个标志词.pptx
- 公共管理英语期末复习部分课文翻译.doc
- 政府采购验收单.doc
- 【《公共管理学》重点整理】.doc
- 常用的通用洗涤标志.doc
- 大弓门为何更能精准射击.doc
- 政府公文字体格式.docx
- 2023年江苏省镇江市润州区中考生物二模试卷+答案解析.pdf
- 2023年江苏省徐州市邳州市运河中学中考生物二模试卷+答案解析.pdf
- 2023年江苏省苏州市吴中区中考冲刺数学模拟预测卷+答案解析.pdf
- 2023年江苏省南通市崇川区田家炳中学中考数学四模试卷+答案解析.pdf
- 2023年江西省吉安市中考物理模拟试卷(一)+答案解析.pdf
- 2023年江苏省泰州市海陵区九年级(下)中考三模数学试卷+答案解析.pdf
- 2023年江苏省苏州市高新二中中考数学二模试卷+答案解析.pdf
- 2023年江苏省南通市九年级数学中考复习模拟卷+答案解析.pdf
- 2023年江苏省南通市海安市九年级数学模拟卷+答案解析.pdf
- 2023年江苏省泰州市靖江外国语学校中考数学一调试卷+答案解析.pdf
文档评论(0)