简单几步教你用Python生成词云图

2019-07-04 19:38:47 浏览数 (1)

源 / 恋习Python

词云图,也叫文字云,是对文本中出现频率较高的“关键词”予以视觉化的展现,词云图过滤掉大量的低频低质的文本信息,使得浏览者只要一眼扫过文本就可领略文本的主旨。

用Python画词云图其实也是这三大步骤:

1、准备原材料

准备好一份自己需要分析的文本材料,今天选取的是中共中央政治局第十二次集体学习时,关于推动媒体融合向纵深发展的讲话

在这里,主要会用到Python库jieba,jieba就是这样一个非常好用的中文工具,是以分词起家的,但是功能比分词要强大很多。

jieba.cut返回的结构都是一个可迭代的 generator,可以使用 for 循环来获得分词后得到的每一个词语(unicode)。

jieba.cut 方法接受三个输入参数:

  • 需要分词的字符串
  • cut_all 参数用来控制是否采用全模式,一般情况下,cut_all为False
  • HMM 参数用来控制是否使用 HMM 模型
代码语言:javascript复制
import jieba

list0 = jieba.cut('我原来是一名Java工程师,后来喜欢上了Python语言', cut_all=True)
print("全模式:",list(list0))

list1 = jieba.cut('我原来是一名Java工程师,后来喜欢上了Python语言', cut_all=False)
print("精准模式:",list(list1))

###输出结果:
全模式: ['我', '原来', '是', '一名', 'Java', '工程', '工程师', '', '', '后来', '喜欢', '上', '了', 'Python', '语言']
精准模式: ['我', '原来', '是', '一名', 'Java', '工程师', ',', '后来', '喜欢', '上', '了', 'Python', '语言']

同时,获得到文本时,需要对文本进行文本预处理、文本分词以及词频统计

详细代码如下:

代码语言:javascript复制
data_txt = open(r"E:projectwordcloudxinmeiti.txt",'r',encoding='utf-8').read()

#文本预处理
pattern = re.compile(u't|n|.|-|:|;|)|(|?|"')
data_txt = re.sub(pattern, '', data_txt)

#文本分词
cut_txt = jieba.cut(data_txt)
object_list=[]
remove_words = [u"的","习近平",u'对',u'等',u'能',u'都',u'。',u' ',u'、',u'中',u'在',u'了',u',',u'“',u'”',u'一个',u'是',u'人民日报']

#词频统计
for word in cut_txt:
    if word not in remove_words:
        object_list.append(word)

word_counts = collections.Counter(object_list)

2、选定填色书

关于词云图最后的形状轮廓,我们将选取宠物猪作为展示,如下图:

这里主要说说Python中wordcloud的基本使用,wordcloud把词云当作一个对象,它可以将文本中词语出现的频率作为一个参数绘制词云,而词云的大小、颜色、形状等都是可以设定的。

WordCloud方法的参数如下:

width:指定词云对象生成的图片的宽度(默认为200px)

height:指定词云对象生成的图片的高度(默认为400px)

min_font_size:指定词云中字体最小字号,默认为4

max_font_size:指定词云中字体最大字号

font_step:指定词云中字体之间的间隔,默认为1

font_path:指定字体文件路径

max_words:指定词云中能显示的最多单词数,默认为200

stop_words:指定在词云中不显示的单词列表

background_color:指定词云图片的背景颜色,默认为黑色

mask:定义词频背景

说明一下:如果设置了mask参数,那么width、height参数将无效

word_cloud 生成词云有两个方法。from text 和 from frequencies 。即文本生成和频率生成,每一个都有对应的函数可以使用,如下:

  • wd.generate(txt) 向WordCloud 对象w中加载文本txt
  • wd.generate_from_frequencies(word_counts) 向WordCloud 对象wd中加载词语频率

详细代码如下:

代码语言:javascript复制
#定义词频背景
background_image = np.array(Image.open(path_image))
font_path="E:projectwordcloudsimfang.ttf"
wd = WordCloud(
    font_path=font_path,  #设置字体格式,不然会乱码
    background_color="white",  #设置背景颜色
    mask=background_image   #设置背景图
).generate_from_frequencies(word_counts)

#保存词云图
wd.to_file('zhu.png')
#显示词云图
plt.imshow(wd,interpolation="bilinear")
plt.axis("off")
plt.show()

结果图如下:


0 人点赞