<%@ page contentType="text/html; charset=gb2312"%> Cobra: Java HTML 解析器
网站公告:   ◆北天JAVA技术网热情为java爱好者服务,本网内容包括JAVA(JSP、servlet、EJB、webservice、j2ee、javabean、应用服务器、JavaScript),数据库(MYSQL、SQL Server、Sybase、Oracle、DB2、数据库综合知识),设计研究(设计模式、Struts、Spring、Hibernate、设计框架、设计综合知识),WEB2.0新技术(主要介绍AJAX),以及各种技术的入门、实例、例子等等,欢迎各位多来坐坐!◆  诚邀各位JAVA爱好者加盟!◆  本网站内容丰富,更新快,保证每周20篇以上!  
加入收藏
设为首页
联系站长
承接项目
  相关资源:网站首页 | 免费培训学院 | 技术论坛 | JAVA聊天室 | 作家专栏 | 开发工具 | 认证考试 | 会员俱乐部
  JAVA技术初学者园地 | jsp与servlet | javascript | Java源代码 | EJB | web service | 应用服务器 | JAVA综合知识
  设计研究设计模式 | 设计框架 | Struts | Spring | Hibernate | 开源项目 | 面向对象设计 | 设计综合知识
  数 据 库MYSQL | SQL Server | Sybase | Oracle | DB2 | Informix | Access | 数据库综合知识
  其他资源:AJAX新技术 | 网站开发 | ERP软件 | OA办公软件 | 商业智能BI | 开发综合知识 | 承接项目 | 项目试用

 
 
Cobra: Java HTML 解析器
     发布者: 发布时间:2008-03-28
Cobra 简介:
Cobra是一个HTML工具包。它包含一个纯Java HTML DOM 分析器和一个页面表现引擎。Cobra支持HTML4,Javascript 和CSS2。声明的新特征有:
  1. 实现了W3C HTML DOM Level 2接口。
  2. 能够解析某些浏览器所识别的 "street HTML"。
  3. 能够在headless模式中被使用。
  4. 当文档被解析时,对于Dom修改提供incremental notifications。
  5. 提供增量地修改Dom的方式,比如,设置一个页面元素的 "innerHTML" 属性。
  6. 识别Javascript.解析过程中对Dom的修改能够在结果Dom中反映出来,另外能实现对Javascript的禁用。
  7. 识别css2。


使用方法:
推荐做法是通过DocumentBuilderImpl类来使用Cobra HTML parser,如下所示:
Java代码复制代码
  1. import org.lobobrowser.html.parser.*;   
  2. import org.lobobrowser.html.test.*;   
  3. import org.lobobrowser.html.*;   
  4. import org.w3c.dom.*;   
  5. ...   
  6. UserAgentContext context = new SimpleUserAgentContext();   
  7. DocumentBuilderImpl dbi = new DocumentBuilderImpl(context);   
  8. //指定文档URI和字符集合  
  9. Document document = dbi.parse(new InputSourceImpl(inputStream, documentURI, charset));  


HtmlParser类也能被直接使用,尤其是在第三方Dom的实现中,或者在某个比较特殊的Dom节点(引用innerHTML属性的地方)下解析HTML:
Java代码复制代码
  1. import org.lobobrowser.html.parser.*;   
  2. import org.lobobrowser.html.test.*;   
  3. import org.lobobrowser.html.*;   
  4. import org.w3c.dom.*;   
  5. import org.w3c.dom.html2.*;   
  6. ...   
  7. UserAgentContext context = new SimpleUserAgentContext();   
  8. DocumentBuilderImpl dbi = new DocumentBuilderImpl(context);   
  9. HTMLDocument document = (HTMLDocument) dbi.createDocument();   
  10. ...   
  11. HtmlParser parser = new HtmlParser(context, document);   
  12. parser.parse(myReader, someParentNode);  


性能贴士
远程脚本和css文档载入速度对解析器的性能影响显著,有两种提高性能的方法:
  1. 禁用Javascripte 或 css
  2. 启用某些缓存机制


相关信息
本文所涉及内容在 Cobra 0.98.1+版本中均有体现,相关下载信息和API文档:
SourceForge下载地址
Api文献

TAG:
html
parser



(转载文章请保留出处:北天JAVA技术网(www.java114.com))
 
更多精彩文章:
网站的进化:十个流行网站是如何变化(和未变化)的
网站的进化:十个流行网站是如何变化(和未变化)的
《eWEEK》:火狐Safari鹬蚌相争 IE坐收渔利
《eWEEK》:火狐Safari鹬蚌相争 IE坐收渔利
[图]Intel 32nm Westmere处理器架构曝光!
[图]Intel 32nm Westmere处理器架构曝光!
 
最近评论:
        
鍥炲
        
鍥炲
        
标 题:   
内 容:   
 
                                  
 
免责声明:该文章由网友发表,如果对您造成侵权,请联系站长

首页 - 承接项目 - 网站地图 - 联系我们 -
版权所有北天JAVA技术工作室 ICP证号:粤ICP备06079815号