表情盲测实践

评测目的

1、了解和竞品的差距。

2、发现问题。

3、验证实验策略优劣。‍

评测方式选择

由于表情是和搜索词息息相关的，且这种相关性通过机器很难判断出来，所以针对表情图的评测，业界一般采用的方法是人工评测。

由于评测涉及到搜狗输入法产品和3家竞品，且不能让评测人员知道具体评测的是哪家产品，所以最终采用的是盲测。‍

盲测开展的步骤如下：

评测资源支持：

主要涉及到两个方面：

1、评测词来源

a) 采用7个维度（高频词、中频词、低频词、长尾词、超长尾词、新词、热词）随机选词。

b) 每天每个维度选取一个词，累积选取20天。

2、评测图来源

a) 通过工具模拟人工操作，将竞品图和词关联并下载到本地。‍

评测方式：

采用web页，将四款产品随机展示。‍

评测标准：

将评测结果分类三大标准：

1、强相关——三颗星。

2、不相关——两颗星。

3、无效图——一颗星。

不同的标准通过选星来操作。且为了定位具体原因，每颗星对应有详细可选菜单。

制定完标准后，需要给评测人员讲解标准，确保理解上没有问题，4个产品统一评测标准。‍

结果指标

对于评测完的结果指标，主要有以下几个维度：

1、关键词和图相关性。

2、词类型和图相关性。

3、前N张图相关性。

4、不相关原因占比。

5、问题图及具体原因比例。

6、整体平均分（NDCG位置权重分，词平均分，图平均分）。‍

结果分析：

针对结果指标的图表重点从以下角度进行分析：

1、图重复率。

2、无结果、少结果率。

3、不相关内部原因占比（原词召回，分词召回，近义词召回等）。

4、低相关性词分析。‍

0 人点赞