摘要:本篇教程介绍了HTML+CSS入门 HTML Agility Pack详解,希望阅读本篇文章以后大家有所收获,帮助大家HTML+CSS入门。
本篇教程介绍了HTML+CSS入门 HTML Agility Pack详解,希望阅读本篇文章以后大家有所收获,帮助大家HTML+CSS入门。
<
Html Agility Pack是codeplex里的一款开源框架,其主要功能是利用对象模型去操作html内容,能够把xpath等xml方面的技术简单、灵活地应用在html文档解析中。正如其介绍所说的那样,该框架非常适合用于开发爬虫,网络数据挖掘工具。更重要的是该框架完全由c#语言编写,便于对框架的修改和深入的研究。
下面来看看如何将html转换成xml格式
首先创建一个HtmlDocument对象(该HtmlDocument是Html Agility Pack中的类,并不是winform里的那个),所有的对html的操作都通过这个对象实现。
HtmlDocument htmlDoc = new HtmlDocument();
接着设置输出成xml的一些选项
//输出成xml格式
htmlDoc.OptionOutputAsXml = true;
加载html字符串内容,同时输出转换结果
复制代码
// 加载html内容
htmlDoc.LoadHtml(@"<html><body>
<table>
<tr>
<td>dafd</td>
<td>
</tr>
</table>
</body></html>");
// 将输出结果保存到字符串流中
StringBuilder sbXml = new StringBuilder();
StringWriter sw = new StringWriter(sbXml);
htmlDoc.Save(sw);
Console.WriteLine(sbXml.ToString());
复制代码
提供的html内容并不是良好格式的xml,转换之后的结果:
复制代码
<?xml version="1.0" encoding="gb2312"?>
<html>
<body>
<table>
<tr>
<td>dafd</td>
<td></td>
</tr>
</table>
</body>
</html>
复制代码
转换之后,自动修复了没有匹配标记,并且加上了xml的声明。
另外在使用的时候,如果给定的html文档内容没有根节点,那么转换之后会自动添加一个名称为span的根节点。
比如输入的html文档如下:
复制代码
<script>var b ='b';</script>
<html><body>
<table>
<tr>
<td>dafd</td>
<td>
</tr>
</table>
</body>
</html>
复制代码
转换结果如下:
复制代码
<?xml version="1.0" encoding="gb2312"?><span><script>
//<![CDATA[
var b ='b';
//]]>//
</script><html><body>
<table>
<tr>
<td>dafd</td>
<td>
</td></tr>
</table>
</body></html></span>
复制代码
这种方式保证了转换时的安全,是否使用还是看具体的项目要求。
以上方式是给定了已有的html字符串,还有另外一种更加方便的方式,那就是直接给出url路径,利用HtmlWeb就能包办下载以及转换的功能。实现方式如下:
复制代码
StringBuilder sbXml = new StringBuilder();
StringWriter sw = new StringWriter(sbXml);
XmlTextWriter tw = new XmlTextWriter(sw);
HtmlWeb htmlWeb = new HtmlWeb();
htmlWeb.LoadHtmlAsXml("//htmlagilitypack.codeplex.com/", tw);
Console.WriteLine(sbXml.ToString());
复制代码
以上方式虽然方便,但是有一个不稳定的因素是:下载过来的html文档很有可能是乱码,并确实存在这种情况,为了更好的使用,我修改了下源代码,让其在下载的时候就能自动判断编码方式。
Html Agility Pack的效率比htmlparser有了很大的提升。但是在处理一些超大页面时,还是要有一些等待。另外还有一个美中不足的是,转换的结果还是不能100%地符合表中html格式的内容,只能说是95%地接近,比起firebug的html解析功能还差的远。
本文由职坐标整理发布,欢迎关注职坐标WEB前端HTML/CSS频道,获取更多HTML/CSS知识!
您输入的评论内容中包含违禁敏感词
我知道了
请输入正确的手机号码
请输入正确的验证码
您今天的短信下发次数太多了,明天再试试吧!
我们会在第一时间安排职业规划师联系您!
您也可以联系我们的职业规划师咨询:
版权所有 职坐标-一站式IT培训就业服务领导者 沪ICP备13042190号-4
上海海同信息科技有限公司 Copyright ©2015 www.zhizuobiao.com,All Rights Reserved.
沪公网安备 31011502005948号