2020年中央一号文件说了啥?

2020-07-21 10:53:40 浏览数 (1)

2020 年是全面建成小康社会目标实现之年,是全面打赢脱贫攻坚战收官之年。今年的中央一号文件强调了哪些内容呢?本文使用 Python 对 2020 中央一号文件进行简单的文本分析,并绘制词云图可视化。其中,中央一号文件文本来自中国政府网[1]

分词与词频统计

读取文件

代码语言:javascript复制
import os
from os.path import join

os.getcwd()
data_path = join(os.getcwd(), "Data")

f = open(join(data_path, '2020年中央一号文件.txt'), "r", encoding="utf-8")
t = f.read()
f.close()

分词与词频统计

利用 jieba 库对文件进行分词、添加自定义词典和停用词。基于 TF-IDF 算法抽取关键词,然后进行词频统计,并存入 csv 文件。

代码语言:javascript复制
import jieba
import jieba.analyse as analyse

# 分词
ls = jieba.lcut(t)
txt = " ".join(ls)

# 添加自定义词典
jieba.suggest_freq(('十九大'), True)

# 添加停用词
stopwords = ['2020']
ls = [x for x in ls if len(x) > 1and x notin stopwords]

# 基于 TF-IDF 算法的关键词抽取
kw = "  ".join(analyse.extract_tags(t, topK=20, withWeight=False, allowPOS=()))

# 词频统计
counts = {}
for word in ls:
    if len(word) == 1:
        continue
    else:
        counts[word] = counts.get(word, 0)   1
items = list(counts.items())
items.sort(key=lambda x: x[1], reverse=True)
代码语言:javascript复制
# 导出词频结果
import numpy as np
import pandas as pd

df = pd.DataFrame(items, columns=['关键词', '频次'])
df.to_csv("./Result/01_词频统计结果.csv", index=None, encoding='utf_8_sig')
df.head(10)

下表为出现频次最高的 10 个关键词,可见农村和农业建设、脱贫攻坚问题仍然是中央一号文件关注的主要问题。

关键词

频次

0

农村

80

1

建设

48

2

农业

44

3

乡村

43

4

加强

40

5

工作

39

6

推进

33

7

脱贫

31

8

服务

25

9

全面

24

绘制词云图

wordcloud 库绘制词云图

代码语言:javascript复制
import wordcloud

w = wordcloud.WordCloud(font_path="./Font/simhei.ttf",
                        width=1000, height=700, background_color="white")
w.generate(txt)
w.to_file("./Result/02_wordcloud.png")

Pyecharts 绘制动态词云图

代码语言:javascript复制
from pyecharts import options as opts
from pyecharts.charts import Page, WordCloud
from pyecharts.globals import SymbolType


def wordcloud_diamond() -> WordCloud:
    words = items[:100] # 绘制前 100 个词
    c = (
        WordCloud()
        .add("", words, word_size_range=[20, 100], shape=SymbolType.DIAMOND)
        .set_global_opts(title_opts=opts.TitleOpts(title="2020中央一号文件词云"))
    )
    return c


wordcloud_diamond().render('./Result/03_2020中央一号文件词云图.html')

结论

2020 中央一号文件全文约 10000 字,其中 “农村”“乡村”“农业” 共出现 167 次。可见,今年的中央一号文件依旧聚焦“三农”问题。脱贫攻坚 被多次提及,印证当前集中力量完成打赢脱贫攻坚战和补上全面小康“三农”领域突出短板两大重点任务。另外,多次强调了 政策制度服务保障 等,体现了突出政策供给,落实政策保障作用的方针。

参考资料

[1]

中国政府网: http://www.gov.cn/zhengce/2020-02/05/content_5474884.htm

0 人点赞