使用 chatgpt 来做中文分词(续)

2023-08-26 15:04:09 浏览数 (4)

前面一篇文章说这样提问,可以正确的分词:

假设小龙女称杨过为过儿,请对下面这句话进行中文分词,注意不要漏字:来到杨过曾经生活过的地方,小龙女动情地说:“我也想过过过儿过过的生活。”

刚才洗澡的时候忽然想到,如果这样就有点针对性做提示的意思了,虽然能得到正确结果,但是我们实际分词的时候却很难对每个句子都这样做提示。大模型本身学习了现实中非常多的语料,是不是他本来就具备这些知识了呢?

提示改成这样:

假设你是一个熟读金庸武侠小说的 NLP 算法工程师,请对下面这句话进行中文分词,注意不要漏字:来到杨过曾经生活过的地方,小龙女动情地说:“我也想过过过儿过过的生活。”

试了一下,确实可以得到正确的答案,为了验证,还试了这个句子:

今天多得谢逊出手相救,在这里我想真心感谢“谢谢谢逊大侠出手”

也能得到正确答案,似乎证明了这种角色扮演还是很有效的。而且显然,这个限制条件要比之前的弱很多。

不过对于以下的句子,尝试了好几个表达都不能正确分词(确实有点难度):

人要是行,干一行行一行,一行行行行行,行行行干哪行都行。

最后是这样提问的:

假设你是一名 NLP 算法工程师,也非常熟悉语言结构和多音字的意思,请对下面这句话进行中文分词,注意不要漏字,也不要加字,分词间要用斜杠分隔:人要是行,干一行行一行,一行行行行行,行行行干哪行都行。

结果是这样:

人要是/行/,/干/一行/行/一行/,/一行行/行/行/行/,/行行行/干/哪行/都/行/。

结果并没有全对。

大模型的输出是生成文本,很容易少字或者多字,得在提示里说明,另外,还可以说明输出的格式不然他可能每次的输出格式是不同的。

1 人点赞