项目概要
机器人对话,根据上文得到下文这么个东西。推测也是使用滑窗来做的,但具体不清楚了。
我的任务
给 pred 进行打分,评分规则如下:
- 打分区间都是0–3,0最差,3最好
- “input”: 这个输入文本,有非常多的种类。
- “gold”: 参考的解释,可以和 pred 比较得到分数。
- 注意:gold只是一个参考,pred可以跟gold不同意思。
- “pred”: 预测出来的内容。
- “hs_specificity”: 具体性,是否给出了具体的内容。
- 没有任何有价值的信息的给0,如I don’t know就可以给0。
- 有具体内容,但具体为虚的给1。
- 如果有表示具体事物的词给2。
- 2分档次特征出现次数大于2的都可以考虑给3。
- 注意:出现一些OOV可以看做是specificity的一种表现,比如
I paid $ <unk> dollars already
。
- “hs_fluency”: pred 本身的属性,字面义,是否流畅。
- 如果整体都很烂,尤其是有重复给0
- 如果有主要问题但整体上还算通顺给1。
- 基本流畅但有个别词的瑕疵一般给2。
- 完全流畅的给3,比如I don’t know就给3。
- “hs_relatedness”: perd和input的相关性。
- 完全无关的给0。
- 稍微能扯上关系的给1。
- 比较接洽的给2 (想给3但是不确定的给2)。
- 非常好的给3。
- “hs_consistency”: 一致性,pred的指向是否和input一致。
- 有明确的方向性错误的给0。
- 没有相反,但是比较冗余,指向性不明确给1。
- 没有相反且指向性清晰的给2 (想给3但是不确定的给2)。
- 非常恰题给3。
- 逻辑交叉部分
- 如果是 relatedness 很低 (答非所问) 那么 consistency 的表现也不会好,可以考虑 consistency 给1。consistency <= relatedness
- relatedness 和 consistency 的差别在一个是文字上的连接,一个是意思上的连接。(一个是躯壳,一个是灵魂)
- pred 和 input 可以完全不相干,这个时候 relatedness 给 1 或者 2,consistency 给 2。
就是说我们认为relatedness是一种软的consistency。
项目日志
2020-12-29 星期二
确定参与标注的任务,我的配额:
- 200组 train set
- 100组 test set
- 1月6日完成
- 看时间,如果1月4日之后时间充裕,可以考虑增加
- 每300组提交一次
2020-01-01 星期五
- 整理项目日志
- 整理我的任务,固定工作流程
- 测算单位时间,辅助计划制定 (进行中)
2020-01-04 星期一
- 完成200组 train set
- 因为 test set 已经标注完成,就不需要再标注了
2020-01-05 星期二
- 任务拆分, 分块解决
- 可以根据 specificity 和 fluency 拆分成不同的模块, 逐个击破
- 涉及全部的 relatedness
- 涉及部分情况的 consistency
- 完成55组 45个半组
2020-01-06 星期三
- 完成全部 300 组,好耶!
- 最后45个半组用时50分钟多一点
- 完美收官
小发现
- relatedness 和 consistency 是有关系的,但是并不强,还是有很大的区别。
- 应该是个回答问题的 AI 模型,每一个 pred 都属于回应。
- 做这个文本标注已经不太像对于知识的检验了,像是在刨析自己,问自己对一个事情是怎样的看法。
- 有操作的呀,注意问题的拆分,这样可以针对性的进行流程优化。
- 这里我们就可以把四个部分分别进行判断解决
- 基础: 读完一遍的文本第二次读会更快, 理解也更深
- 基础: 优化的时间比多出来的阅读时间更加多
- 人在做一件事情的时候最耗费时间的不是事件/拆分后的小事情本身, 而是在不同的事件之间不停切换所需的思路调整
- 而且, 大事是由一件一件完美的小事组合而成的, 不能一次性做到大事的完美, 但只要每一件小事都完美了就没问题了