广东开放大学期末考试HTMLParser使用.pdf

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
HTMLParser 使用 1、使用HtmlPaser 的关键步骤 (1)通过Parser 类创建一个解释器 (2 )创建Filter 或者Visitor (3 )使用parser 根据filter 或者visitor 来取得所有符合条件的节点 (4 )对节点内容进行处理 2、使用Parser 的构造函数创建解释器 官方API 上的说明 Parser () Zero argument constructor. Parser (Lexer lexer) Construct a parser using the provided lexer. Parser (Lexer lexer, ParserFeedback fb) Construct a parser using the provided lexer and feedback object. Parser (String resource) Creates a Parser object with the location of the resource (URL or file). Parser (String resource, ParserFeedback feedback) Creates a Parser object with the location of the resource (URL or file) You would typically create a DefaultHTMLParserFeedback object and pass it in. Parser (URLConnection connection) Construct a parser using the provided URLConnection. Parser (URLConnection connection, ParserFeedback fb) Constructor for custom HTTP access. 对于大多数使用者来说,使用最多的是通过一个URLConnection 或者一个保存有 网页内容的字符串来初始化Parser,或者使用静态函数来生成一个Parser 对象。 ParserFeedback 的代码很简单,是针对调试和跟踪分析过程的,一般不需要改变。 3、HtmlPaser 使用Node 对象保存各节点信息 (1)访问各个节点的方法 Node getParent () :取得父节点 NodeList getChildren () :取得子节点的列表 Node getFirstChild () :取得第一个子节点 Node getLastChild () :取得最后一个子节点 Node getPreviousSibling () :取得前一个兄弟(不好意思,英文是兄弟姐妹,直译太麻烦而 且不符合习惯,对不起女同胞了) Node getNextSibling () :取得下一个兄弟节点 (2 )取得Node 内容的函数 String getText () :取得文本 String toPlainTextString() :取得纯文本信息。 String toHtml () :取得HTML 信息(原始HTML ) String toHtml (boolean verbatim) :取得HTML 信息(原始HTML ) String toString () :取得字符串信息(原始HTML ) Page getPage () :取得这个Node 对应的Page 对象 int getStartPosition () :取得这个Node 在HTML 页面中的起始位置 int getEndPosition () :取得这个Node 在HTML 页面中的结束位置 4、使用Filter 访问Node 节点及其内容 (1)Filter 的种类 顾名思义,Filter 就是对于结果进行过滤,取得需要的内容。 所有的Filter 均实现了NodeFilter 接口,此接口只有一个方法Boolean accept(Node node),用于确定某个节点是否属于此Filter 过滤的范围。 HTMLParser 在org.htmlparser.filters 包之内一共定义了16 个不同的Filter,也可以分为 几类。 判断类Fil

文档评论(0)

153****1683 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档