黄金下的文章

珠宝咨询网 2017-01-10 10:32

正则文法在理论上,不足以表示标签之间的嵌套关系。形式文法中,正则文法是HTML的上下文无关文法的子集。即正则表达式的逻辑,理论上不足以表达HTML的文法结构。这一点请参考《编译原理》、《有限自动机与形式文法》这两门课程的相关知识。

而在实际应用中,正则更是不足(或极难)表达:

这个问题说了一遍又一遍:不要用正则解析HTML,请使用一个规范的解析器(Parser)。——在某些场合,针对特定的简易用例,用正则你高兴就好。但切记不要写出很复杂的正则表达式,更不要试图用正则去“无缺陷、普适的”匹配HTML,因为你迟早会失败。

PHP的HTML解析可以通过PHP原生的DOM模块(某些服务器环境下可能需要安装对应扩展),或者第三方HTML解析库来实现。


文章版权所有,如需转载请与网站或作者本人联系

赞(3 收藏(2

评论 ( 0 )

需要登录

登陆

深圳市胡博士珠宝文化传播有限公司

拥有或与相关内容提供者共同拥有深圳珠宝咨询网站内相关内容(包括文字、图片、音频、视频资料及页面设计、编排、软件等)的版权和其他相关知识产权。 如您对本网站的相关版权有任何异议或认为侵犯了您的合法权益,请及时与我们联系。