阅读(58) (8)

字节跳动小程序 sitemap 文档规范

2020-02-06 01:23:41 更新

当小程序内容和 h5 内容在数据、样式等方面出现不对称的情况,数据需要以 sitemap 形式输出,保证可以更流畅地调起小程序,并且可以更全面地覆盖数据源。

SiteMapIndex 文件要求:

1.sitemapindex 文件根节点必须是<sitemapindex>

2.sitemapindex 文件编码必须为 UTF-8,第一行为: <?xml version="1.0" encoding="utf-8" ?>

3.sitemapindex 文件禁止使用命名空间,禁止使用规定之外的属性。

4.sitemapindex 文件大小不得超过 5M,sitemap 节点数量不超过 5W。

5.必须保证 sitemap 中所有 URL 可访问,且内容符合 XML 数据文件规范。

SiteMapIndex 文件示例

<?xml version="1.0" encoding="utf-8" ?>
<sitemapindex>

<sitemap>

<loc>数据xml地址1</loc>
<lastmod>对应的最后修改时间</lastmod>
</sitemap>
<sitemap>
<loc>数据xml地址2</loc>
<lastmod>对应的最后修改时间</lastmod>
</sitemap>
</sitemapindex>

数据 XML 文件规范


数据 XML 文件要求

1.数据 XML 文件的根节点必须为<DOCUMENT>

2.数据 XML 文件编码必须为 UTF-8,第一行为: <?xml version="1.0" encoding="utf-8" ?>

3.数据 XML 文件禁止使用命名空间,禁止使用规定之外的属性。

4.数据 XML 单个文件大小不得超过 10M(必须满足),item 数目不得超过 1W。

5.item 节点中<key><display>节点为必需节点。

6.除根节点之外的其它节点,标签名建议采用英文小写字母及下划线‘_’。

7.数据节点中包含转义字符,请使用 CDATA。

8.对于数组型的节点,请在只有一个子节点时保证和多个节点时的结构相同。

数据 XML 文件示例

<?xml version="1.0" encoding="utf-8" ?>
<DOCUMENT>
<!--根节点必须为⼤写DOCUMENT,标记整个xml⽂件的开始和结束-->
<item>
<!-- 一个item为一条数据,单文件最大允许5000个item,且文件大小不应超过10M-->
<key>1238475hezuofang</key>
<!-- 使用ID,key长度限制1-64字符,内容不能以空白符开头和结束,且中间不能包含tab和换行。需要保证唯一,ID+合作方名称-->
<display>
//<!-- 自定义数据区域,可以根据需求添加任意节点。 -->
//<!-- 节点总大小上限20KB,不建议超过3KB -->
<title>光硬件芯片来了,目标取代硅硬件芯片</title>
<!--title: 标题-->
<description><![CDATA[硬件(英文名Hardware)是计算机硬件的简称(中国大陆及香港用语,台湾叫作:硬体),是指计算机系统中由电子,机械和光电元件等组成的各种物理装置的总称。这些物理装置按系统]]></description>
<!-- 摘要字数限制60字-->
<pic>https://175.178.95.144/zijie/pic/microapp/pic.xxx.jpg</pic>
<!-- 封面图链接 -->
<create_time>2016-01-29 08:19:52</create_time>
<!-- 创建时间 -->
<from>人民网</from>
<!-- 合作方来源 -->

当item对应的页面唯一时,格式如下:


<url>http://m.xxx.com</url>
<!-- h5url -->
<lightapp_url>小程序内部PATH,PATH开头省略/,例如:page/xxx,而不是/page/xxx</lightapp_url>
<lightappid_url>小程序APPID</lightappid_url>
当item下有多个页面时,格式如下:
<lightapp_list>
<lightapp_item>
<url>http://m.xxx.com</url>
<!-- h5url -->
<lightapp_url>小程序内部PATH,PATH开头省略/,例如:page/xxx,而不是/page/xxx</lightapp_url>
</lightapp_item>
</lightapp_list>
<lightappid_url>小程序APPID</lightappid_url>
【上述两种情况二选一,绝大多数是1中的类型】


【新增:注意sitemapindex文件大小不得超过5000k,由于实时抓取,量可控制小一些】
当数据有新增,更改,删减时不能在原有的sitemap格式上修改,需要新建一个sitemap文档完成增减删改等功能。需要在XML中添加如下字段:
<execute>add或modify或delete,代表增加、修改或删除操作</execute>
<!-- execute字段增量sitemap必须提供,全量sitemap忽略 -->
</display>
</item>
</DOCUMENT>

常见 Q&A


Q:如果页面中包含实时变动数据怎么办? A:搜索侧数据 10 分钟获取一次 sitemap,可以保证时效性。

Q:如果数据中有大量增量数据如何同步给头条侧? A:需要通过将增量 XML 灌入到 sitemap 文件中,头条 RD 定期抓取。

Q:key 字段对应的 ID 填什么? A:填该条数据 ID,若没有 ID 则取随机值+合作方名称,避免重复。如:<key>1238475hezuofang</key>