最近对自然语言生成或者文本自动生成技术比较感兴趣,做了一些调研,作为自然语言处理领域的难题之一,个人一直觉得自然语言生成(NLG)是最难的,虽然这一两年动辄会看机器模仿莎士比亚写剧本,模仿金庸写小说,这些不过是媒体用来吸引眼球的,总之这些字凑到一起看起来像模像样,但是读了之后不知所云。不过对于特定格式的文本,类似诗歌这种,如果不细究,从直观的角度来看确实还有点像那么回事,例如清华大学自然语言处理与社会人文计算实验室开发的九歌计算机诗词创作系统,还是很强大的:
所以我首先将目光瞄准了诗歌自动生成相关的资料上,在google了一圈后,锁定了ioiogoo同学的这篇文章和两个开源版本实现:
1)介绍文章:用Keras实现RNN LSTM的模型自动编写古诗 2)ioiogoo同学原始版本代码:
https://github.com/ioiogoo/poetry_generator_Keras
3)youyuge34同学的更新版本:
https://github.com/youyuge34/Poems_generator_Keras
特别是最后这个版本,作者直接提供了训练好的模型数据:poetry_model.h5,如果不想训练,直接下载这个模型把玩即可。
基于该项目下自带的数据和模型。不过这方面还有一个诗词数据更全的Github项目:chinese-poetry/chinese-poetry
"最全中华古诗词数据库, 唐宋两朝近一万四千古诗人, 接近5.5万首唐诗加26万宋诗. 两宋时期1564位词人,21050首词。"
Github链接,点击阅读原文可以直达,推荐Star:
https://github.com/chinese-poetry/chinese-poetry
中文诗歌主页是一个基于浏览器的诗词网站, 包含唐诗三百首、宋词三百首等文集.
最全的中华古典文集数据库, 包含5.5万首唐诗、26万首宋诗和2.1万首宋词. 唐宋两朝近1.4万古诗人, 和两宋时期1.5K词人. 数据来源于互联网.
为什么要做这个仓库? 古诗是中华民族乃至全世界的瑰宝, 我们应该传承下去, 虽然有古典文集, 但大多数人并没有拥有这些书籍. 从某种意义上来说, 这些庞大的文集离我们是有一定距离的。而电子版方便拷贝, 所以此开源数据库诞生了. 你可以用此数据做任何有益的事情, 甚至我也可以帮助你.
古诗采集没有记录过程, 因为古诗数据庞大,目标网站有限制, 采集过程经常中断超过了一个星期.2017年新加入全宋词, 全宋词爬取过程及数据分析.
数据集合
- 全唐诗 json
- 全宋诗 json
- 全宋词 ci
- 五代·花间集 wudai
- 五代·南唐二主词 wudai
- 论语 lunyu
- 诗经 shijing
- 幽梦影 youmengying
- 四书五经 sishuwujing
- 蒙學 mengxue
待补充
- 清代诗词
- 元曲
案例展示
- animalize / QuanTangshi 离线全唐诗 Android
- justdark / pytorch-poetry-gen a char-RNN based on pytorch
- Clover27 / ancient-Chinese-poem-generator Ancient-Chinese-Poem-Generator
- chinese-poetry / poetry-calendar 诗词周历
- chenyuntc / pytorch-book 简体唐诗生成(char-RNN), 可生成藏头诗,自定义诗歌意境,前缀等
- okcy1016 / poetry-desktop 诗词桌面
- huangjianke / weapp-poem 诗词墨客 小程序版