在日常的Web开发工作中,我们经常需要处理HTML文档,并从中提取特定信息,比如链接、图片地址等。今天,我就遇到了一个典型的场景,需要从一个复杂的HTML页面中提取所有<a>
标签的href
属性值,以便进行进一步的数据分析或内容聚合。通过这个过程,我发现了PHP DOM解析器的强大之处,它不仅能帮助我们轻松处理HTML文档,还能保证数据的准确性和完整性。
在最近的一个项目中,我负责维护一个内容聚合平台。该平台需要从多个外部网站抓取新闻摘要,并展示给用户。然而,这些外部网站的HTML结构各不相同,有的非常复杂,包含多层嵌套的<div>
和<span>
标签,使得直接通过字符串操作提取<a>
标签的href
变得既繁琐又容易出错。此外,这些网站还经常更新,HTML结构也会随之变化,这进一步增加了维护的难度。
为了高效且稳定地解决这个问题,我决定采用PHP内置的DOM解析器。DOM解析器允许我们将HTML文档加载为一个DOM对象,然后像操作XML文档一样,使用DOM API来遍历和查询文档中的元素。这种方法不仅代码清晰,易于维护,而且能够自动处理HTML文档中的复杂结构,大大提高了数据提取的准确性和效率。
下面是我用来提取HTML中所有<a>
标签href
值的PHP代码示例:
// 创建一个新的DOMDocument实例 $dom = new DOMDocument(); // 加载HTML字符串 @$dom->loadHTML($contents, LIBXML_HTML_NOIMPLIED | LIBXML_HTML_NODEFDTD); // 使用@来抑制警告 // 获取所有的<a>标签 $links = $dom->getElementsByTagName('a'); // 遍历所有<a>标签 foreach ($links as $link) { // 提取href属性值 $href = $link->getAttribute('href'); echo $href . PHP_EOL; }
加载HTML内容:通过file_get_contents()
函数或cURL(如果是网络资源)获取HTML内容。这里为了示例方便,我直接使用了字符串模拟。
创建DOMDocument实例:实例化DOMDocument
类,这是处理HTML文档的基础。
加载HTML字符串:使用loadHTML()
方法将HTML字符串加载到DOMDocument对象中。注意,这里使用了@
来抑制可能的警告,但在实际开发中,我们应该处理这些警告,以避免隐藏潜在的问题。
获取<a>
标签:通过getElementsByTagName()
方法获取文档中所有的<a>
标签。这个方法返回一个DOMNodeList
对象,包含了所有匹配的元素。
遍历并提取href:使用foreach
循环遍历DOMNodeList
对象中的每个<a>
标签,并通过getAttribute('href')
方法提取其href
属性值。
处理href:在提取到href
之后,你可以根据需要进行进一步的处理,比如去重、验证URL的有效性、存储到数据库等。
通过使用PHP DOM解析器,我成功地解决了从复杂HTML文档中提取<a>
标签href
值的问题。这种方法不仅提高了数据提取的准确性和效率,还使得代码更加清晰和易于维护。在实际工作中,当遇到类似的需求时,我强烈推荐使用DOM解析器来处理HTML文档。
<?php /* *算法学习自百度.只是学习和记录 */ header("Content-type:text/html;charset=utf-8"); //1.设置奖项,id是奖项id,name是中奖名称,v是中奖概率 $arr =&n...
header() 函数向客户端发送原始的 HTTP 报头。(官方解释)通俗的讲header函数将参数中的字符串作为服务端的响应头来返回给客户端。什么是服务端的响应头?打开谷歌浏览器看看network中的请求response header信息即可。更多的参数百度response header即可浏览器...
在PHP中,大部分变量类型,如字符串,整型,浮点,数组等都是值类型的,而类和对象是引用类型.和其他语言有点差距.(1).在值类型中我们直接使用&符号表示指向对应变量的内存地址,当前变量和被指向的变量只要有1个的值被修改都会直接影响另外一个变量的值发生变化。(ps:还是非常节省内存的,可以使用...
md5/sha1+salt方式是目前各大cms常用的加密方式,虽然salt安全,但是各大md5网站也在研究这个方向,那么我们应该选择password_hash动态hash来助力,一种密码有多种hash结果.看代码模拟登陆.<?php //01.注册 $user ='zhang...
逛公众号文章看到文章"php实现事件监听与触发的方法,你用过吗?",我就好奇了,php又不是asp.net的webform,哪里来的服务端事件监听。于是学习了一波。先看下监听类:class Event { /** &nbs...
ThinkPHP中有一个debug调试功能,能输出报错文件的信息,并能看到这个函数被哪些函数调用,从框架的启动开始记录,特别方便调试。于是研究了下它的底层给予了实现。<?php //--框架核心--Start //框架内置错误处理 function errDealWith($er...