读者Q&A: 分词时搜狗词库加载失败怎么办?

2020-10-23 16:29:03 浏览数 (1)

在前面

话说前几天“R语言中文社区II群”中的@骑着白马唱着歌童鞋私信大猫,说大猫的R语言课堂中有一期介绍的中文分词词典包“cidian”无法导入某个搜狗词库,大猫试了以下,果然如此,不论更改编码还是其它方法全都无法导入。大猫赶紧在github上给作者@qinwf发起了一个issue,今天刚收到回复,作者是怎么说的呢?

猫在github上的issue

你好!在使用过程中发现有些scel无法正确导入。例如对于"网络流行新词【官方推荐】"包(click here ),导入的时候显示下图:

者回复

两天以后stringi包的作者@gagolews把这个issue和stringi的一个issue关联了起来,大猫有点纳闷,为什么stringi包的作者也跑过来了?待大猫细细一看,原来是@骑着白马唱着歌认为cidian无法加载搜狗词库是stringi的锅,给stringi发了一个issue……

三天过去了,cidian包的作者木有任何动静。就在大猫以为这个问题要不了了之的时候,伟大的@qinwf出现了,回复道:

你好,刚刚看到这个 issue,我待会看看。

对呀,人家毕竟也是要工作的嘛,没有每天check也很正常。然后@qinwf就以迅雷不及掩耳盗铃之势找到了问题的原因:

@Xiaomo2007 @everyones

这个词库格式跟其他词库有所不同,它在文件末端包括一小段额外的内容,这段内容在其他词库没有出现过。它被标记为 DELTBL9 ,可能是已经被删除的词 deleted table,其他词库没有这个部分。

暂时没有研究清楚这个 DELTBL 的起始规律,我待会更新一个临时的解决方案。

又过了一个小时,大猫再次收到github的邮件,@qinwf已经fix了这个issue:

已经更新了,重新安装应该就能导出词库了。

问题圆满解决!撒花!小伙伴们可以通过install_github来安装最新版本的cidian来愉快地导入搜狗词典啦!

最后,感谢@骑着白马唱着歌同学向大猫提出的问题!也欢迎大家提问哦,有价值的问题大猫会放到公众号上来哒~

stringi的作者@gagolews似乎也长出一口气,心里想stringi这么robust使用范围那么广,怎么可能会有问题,这锅老子可不要背,在github上回复道:

I guess the problem is on the cidian side. There is a similar issue already opened at qinwf/cidian#3……

github上的原帖请大家点击“阅读原文”或者以下链接:

https://github.com/qinwf/cidian/issues/3#

0 人点赞