评测目的
1、 了解和竞品的差距。
2、 发现问题。
3、 验证实验策略优劣。
评测方式选择
由于表情是和搜索词息息相关的,且这种相关性通过机器很难判断出来,所以针对表情图的评测,业界一般采用的方法是人工评测。
由于评测涉及到搜狗输入法产品和3家竞品,且不能让评测人员知道具体评测的是哪家产品,所以最终采用的是盲测。
盲测开展的步骤如下:
评测资源支持:
主要涉及到两个方面:
1、 评测词来源
a) 采用7个维度(高频词、中频词、低频词、长尾词、超长尾词、新词、热词)随机选词。
b) 每天每个维度选取一个词,累积选取20天。
2、 评测图来源
a) 通过工具模拟人工操作,将竞品图和词关联并下载到本地。
评测方式:
采用web页,将四款产品随机展示。
评测标准:
将评测结果分类三大标准:
1、 强相关——三颗星。
2、 不相关——两颗星。
3、 无效图——一颗星。
不同的标准通过选星来操作。且为了定位具体原因,每颗星对应有详细可选菜单。
制定完标准后,需要给评测人员讲解标准,确保理解上没有问题,4个产品统一评测标准。
结果指标
对于评测完的结果指标,主要有以下几个维度:
1、 关键词和图相关性。
2、 词类型和图相关性。
3、 前N张图相关性。
4、 不相关原因占比。
5、 问题图及具体原因比例。
6、 整体平均分(NDCG位置权重分,词平均分,图平均分)。
结果分析:
针对结果指标的图表重点从以下角度进行分析:
1、 图重复率。
2、 无结果、少结果率。
3、 不相关内部原因占比(原词召回,分词召回,近义词召回等)。
4、 低相关性词分析。