表情盲测实践

2020-04-02 17:03:48 浏览数 (1)

评测目的

1、 了解和竞品的差距。

2、 发现问题。

3、 验证实验策略优劣。‍

评测方式选择

由于表情是和搜索词息息相关的,且这种相关性通过机器很难判断出来,所以针对表情图的评测,业界一般采用的方法是人工评测。

由于评测涉及到搜狗输入法产品和3家竞品,且不能让评测人员知道具体评测的是哪家产品,所以最终采用的是盲测。‍

盲测开展的步骤如下:

评测资源支持:

主要涉及到两个方面:

1、 评测词来源

a) 采用7个维度(高频词、中频词、低频词、长尾词、超长尾词、新词、热词)随机选词。

b) 每天每个维度选取一个词,累积选取20天。

2、 评测图来源

a) 通过工具模拟人工操作,将竞品图和词关联并下载到本地。‍

评测方式:

采用web页,将四款产品随机展示。‍

评测标准:

将评测结果分类三大标准:

1、 强相关——三颗星。

2、 不相关——两颗星。

3、 无效图——一颗星。

不同的标准通过选星来操作。且为了定位具体原因,每颗星对应有详细可选菜单。

制定完标准后,需要给评测人员讲解标准,确保理解上没有问题,4个产品统一评测标准。‍

结果指标

对于评测完的结果指标,主要有以下几个维度:

1、 关键词和图相关性。

2、 词类型和图相关性。

3、 前N张图相关性。

4、 不相关原因占比。

5、 问题图及具体原因比例。

6、 整体平均分(NDCG位置权重分,词平均分,图平均分)。‍

结果分析:

针对结果指标的图表重点从以下角度进行分析:

1、 图重复率。

2、 无结果、少结果率。

3、 不相关内部原因占比(原词召回,分词召回,近义词召回等)。

4、 低相关性词分析。‍

web

0 人点赞