- 1、本文档共14页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
XML解析技术研究
李竹青 赵永望 刘煌
(北京航空航天大学计算机学院,北京 100191)
摘要:XML作为过去十年中出现的最流行的技术之一,得到了广泛的应用,而其中XML解析技术是XML应用的关键。本文介绍了XML解析技术的研究动向,分析和比较了4种XML解析技术的优劣,并归纳总结了应用系统设计中选取合适的XML解析技术的原则。
关键词:XML,SAX,DOM,VTD-XML,JAXB
1 引言
XML(eXtensible Markup Language,可扩展标记语言)是由World Wide Web联盟(W3C)定义的元语言,即一种关于语言的语言。XML的设计源于SGML (Standard Generalized Markup Language,标准通用标记语言) ,是SGML的子集,其目的是为了促进Internet上结构化文档的交换。简单的说,XML是一组规则和准则的集合,用于以无格式文本来描述结构化数据[1]。1996年W3C联盟就开始从事XML的标准化工作,并于1998年2月10日发布了XML1.0。
XML的出现给分布式计算领域带来了重大影响,其力量源于它的数据独立性[1]。XML是纯数据描述,与编程语言、操作系统或传输协议无关,从而将数据从以代码为中心的基础结构所产生的约束中解放出来,让数据能够在Web上更自由地流通。
然而XML本身只是以纯文本对数据进行编码的一种格式,要想利用XML,或者说利用XML文件中所编码的数据,必须先将数据从纯文本中解析出来,因此,必须有一个能够识别XML文档中信息的解析器,用来解释XML文档并提取其中的数据。然而,根据数据提取的不同需求,又存在着多种解析方式,不同的解析方式有着各自的优缺点和适用环境。选择合适的XML解析技术能够有效提升应用系统的整体性能,因此,了解和区分各种不同的XML解析技术就显得尤为重要。
2 XML解析技术分析
所有的XML处理都从解析开始,无论是使用XSLT或Java语言,第一步都是要读入XML文件,解码结构和检索信息等等,这就是解析,即把代表XML文档的一个无结构的字符序列转换为满足XML语法的结构化组件的过程。
2.1 XML解析技术的分类
根据从XML中获取数据的简易性,性能和最终所得到的数据模型的不同,XML解析技术大致可分为以下四类:
面向文档的流式解析;
面向文档的对象式解析;
面向文档的指针式解析;
面向应用的对象式解析;
这四类解析技术分别处于不同的抽象层次,适用于不同的应用场景,有着各自的优缺点。针对具体的应用需求,选择合适的解析技术,往往能够减少内存消耗,缩短处理时间,更方便地获取数据,提高应用系统的整体性能。
2.2 面向文档的流式解析技术
流式解析是一种基于事件的解析过程,解析器顺序读取XML文档,产生一个对应的事件流,并向事件处理程序发送所捕获的各种事件,如元素开始和元素结束等,而事件处理程序则通过不同的方法处理这些事件。
流式解析是将XML文档作为一个数据流来处理,因此,它具有类似于流媒体的优点,能够立即开始读取数据,而不是等待所有的数据被处理。而且,由于应用程序只是在读取数据时检查数据,不需要将整个文档一次加载到内存中,使得在处理大型文档时具有较好的时间和空间上的效率。然而效率的代价是易用性的降低,流式解析编程较为复杂,程序员需要负责更多的操作。并且由于应用程序没有以任何方式存储数据,所以使得更改数据或在数据流中往后移是不可能的。再加上它的单遍解析特性,意味着它也不支持随机访问。
流式解析又分为两种解析方式:推式解析(SAX)和拉式解析(StAX)。这两种方式的主要区别在于是由解析器还是应用程序控制读循环(读入文件的循环)。
2.2.1 推式解析(SAX解析技术)
SAX(Simple API for XML)解析技术就是一种推式解析,在这种解析方式中,解析器控制着读循环,在文档结束之前控制权不会返回给应用程序[3]。解析器通过回调的方式进行数据处理。
SAX提供了一个用于处理XML的,基于事件驱动的简单API。它的设计开始于XML-DEV邮件列表成员间的讨论,他们开发出的第一个接口草案SAX1.0于1998年1月发布,其后在2000年5月发布了SAX2.0,目前必威体育精装版版本是2004年4月发布的SAX2.0.2。SAX没有经过官方的标准机构认可,它不由W3C联盟或其它任何官方机构维护(现在,SAX由David Megginson维护) [4],但它被广泛使用并视为XML社区事实上的标准。SAX最初是为Java而定义的,但也可以用于Python、Perl、C++等其它语言。
SAX是基于事件驱动的,即SAX解析器在读取XML文档的过程中生成一个事件流,并且对于每个事件通过回调事件处理程序中相应的方法来进行处理。比如元素开
您可能关注的文档
- ICU抢救制度急救流程.doc
- IDA反汇编学习心得.doc
- IGBT直流斩波电路的设计.doc
- IIS Web服务器安全加固步骤.doc
- IMF份额与投票权改革中的困境及其对策.doc
- Infiltrating Cross-Culture Awareness in Junior English Teaching 初中英语教学中跨文化意识的渗透.doc
- Influences of Different Cultures on International Business Negotiation正文 英语专业 毕业论文.doc
- Informatica_Powercenter安装与配置参考文档.doc
- iPad新手使用教程.doc
- iPhone苹果手机不用信用卡注册AppStore帐户的方法.doc
- 2022二级造价工程师考试真题及答案5章.pdf
- 2022届江西省九校高三上学期期中联考化学试卷.pdf
- 2022年大学生安全知识竞赛试题库及答案(精选150题) .pdf
- 2022一建《建设工程法规及相关知识》考前测试B卷(附答案).pdf
- 2022年普陀区中考历史二模.pdf
- 2022国开合同法形考任务3.pdf
- 2022承担责任书_原创精品文档.pdf
- 2022年新高考全国卷1英语阅读理解C篇深度解读含译文.pdf
- 2022年哈尔滨工业大学(深圳)数据科学与大数据技术专业《操作系统》科目期末试卷B(有答案).pdf
- 2022-2023学年山西省长治市壶关县实验中学高二化学月考试题含解析.pdf
文档评论(0)