WordPress 6.2 引进了速度更快的 HTML 处理 API

2023-04-13 09:33:28 浏览数 (2)

在 WordPress 上更新和处理 HTML 是非常不方便的,甚至有点不舒服,正则表达式难用并且可能导致各种错误,DOMDocument 又非常占用资源,并且在处理现代的 HTML 经常失败,而且很多虚拟主机无法使用。

所以 WordPress 6.2 引进了 WP_HTML_Tag_Processor,一个给 WordPress 开发者调整 HTML 标签属性的工具,他是 WordPress 新的 HTML 处理 API 的第一个组件。

更新 HTML 属性

WP_HTML_Tag_Processor 可以找到特定的标签并可以更改其属性,下面例子是在一段 HTML 中的找到第一个 img 标签,然后给它设置 alt 标签:

代码语言:javascript复制
$html = '<img src="/husky.jpg">';
 
$p = new WP_HTML_Tag_Processor( $html );
 
if ( $p->next_tag() ) {
    $p->set_attribute( 'alt', 'Husky in the snow' );
}
 
echo $p->get_updated_html();
 
// 输出:
// <img alt="Husky in the snow" src="/husky.jpg">

简单说明一下:next_tag() 方法会移动到 HTML 中的下一个可用标签,它也可以通过标签名,CSS 类名 或者使用两者一起去找到特定的标签。根据 HTML 规范,通过标签和属性名称的查找不区分大小写,但通过 CSS 类名查找则区分。

代码语言:javascript复制
if ( $p->next_tag( array( 'tag_name' => 'DIV', 'class_name' => 'block-GROUP' ) ) ) {
    $p->remove_class( 'block-group' );
    $p->add_class( 'wp-block-group' );
}

自动转义和解码

默认情况下下面这些操作是安全的:

  • 没有检查一个属性是否存在就去删除它而
  • 添加一个可能已经存在的 CSS 类,
  • 设置一个属性值而没有确保已有相同重复的属性值

所以不必担心代码会将 <textarea> 中内容或者属性值,甚至 HTML 注释误认为是一个标签。

WP_HTML_Tag_Processor 遵循 HTML5 规范,所以不用自己写代码去处理,它会在必要的时候自动转义和解码,并且知道如何处理格式错误的标签。

代码语言:javascript复制
$ugly_html = <<<HTML
<textarea title='<div> elements are semantically void'>
    <div><!--<div attr-->="</div>"></div>">
</textarea>
<div></div>
HTML;
 
$p = new WP_HTML_Tag_Processor( $ugly_html );
if ( $p->next_tag( 'div' ) ) {
    $p->add_class( 'bold' );
}
 
echo $p->get_updated_html();
// 输出:
// <textarea title='<div> elements are semantically void'>
//     <div><!--<div attr-->="</div>"></div>">
// </textarea>
// <div class="bold"></div>

速度足够快

WP_HTML_Tag_Processor 运行速度经测试已足够快,可以在关键的代码中运行,它不会产生额外的内存开销,在 WordPress 6.2 中,可以使用它取代容易出错的正则表达式和字符搜索串的代码 ,来执行相同的 HTML 更新。

当然它还有一些更高级的用法,在 WordPress 6.2 发布之后,可以直接阅读 class 中相关的文档来学习如何使用。

WP_HTML_Tag_Processor 也有不会去做的事情,比如:不构建 DOM 文档树、查找嵌套标签或更新标签的内部 HTML 或内部文本。未来 WordPress HTML 相关的功能会给予这个 class 之上,使得可以查看所有标签,使用 CSS 选择器查找标签,并使用新标签修改 HTML 结构,删除标签和修改内部结构等。

0 人点赞