如何优雅地划重点?只需一张词云图
作者 | 魏楚楚
编辑 | 东东酱
可视化与文本挖掘的需要,使得中文文本处理尤为重要。各大媒体、朋友圈不乏这样简洁漂亮的词云图,甚至是政府工作报告都能用这样的高频词汇图来解读。
以政府工作报告为语料文本,越高频的词汇可视化体现越大,这张图不难看出,“发展”、“经济”、“改革”、“社会”和“建设”是李克强总理提及率最高的词汇,一般而言,提及率越高也就越重要。
有如神助的词云图,究竟是怎么做出来的?我们如何才能优雅地使用词云图?
“词云”概念由美国西北大学新闻学副教授、新媒体专业主任里奇·戈登(Rich Gordon)提出。词云图是指对网络文本中高频关键词予以视觉上的突出,形成“关键词云层”或“关键词渲染”,从而过滤掉大量的文本信息,使阅读者只要一眼扫过就可以领略文本的主旨。
图片来源:
一眼就能get到文本要点有木有?!从此再看到繁冗复杂的语料,我们也不必“葛优躺”了 T_T
不仅能看到要点,还能根据我们的喜好调整图案和颜色,个性化定制词云图。譬如一言不合就把用男神女神的轮廓来制作词云分析:
图片来源:
个性化定制的词云图具有更强的视觉冲击力,小伙伴们如果将词云图放入presentation ,在保证我们想传达的信息准确的前提下,词云图颜值更高往往更能加印象分。
民间流传最广的词云制作工具当然非Tagxedo莫属,优秀的分词处理、优美的个性可视化,足以让你优雅地划重点。
➤ Step 1:进入Tagxedo主界面:
➤ Step 2:选择Create选项,输入语料进行分词处理和分析
➤ Step 3:调参,个性化定制layout,shape, theme等,直到得到心怡的词云图
➤ Step 4:save成JPG格式的图片
tagxedo默认生成的词云图是:
是不是简单又酷炫?😏
除了Tagxedo,还有什么好用的词云图工具呢?笔者吐血推荐以下几个私藏词云图制作工具,拿走不谢:
✤ 1.HTML5 word cloud:
(中英文兼可以,词频数量的多少与词云中词语画面大小的可视化对比比较明显。)
✤ 2.agul word cloud:
(比较适合英文类词云图制作,使用Google、Facebook或Twitter账户登陆。)
✤ 3.图悦:
(简单易操作的在线词云图制作工具,比较适合中文文本,用户可根据导出的excel表查看文本词频。)
✤ 4.Vocab-Grabber:
(适合英文文本,用户能在文本中找到最有用的词汇,工具会展示如何在上下文使用这些词语)
✤ 5.Blue View:
(蓝色光标智能营销平台,词云工具为其核心产品之一,和上述工具不同的是,其为任务型制作工具,不是即时呈现,但是能够人工选择和添加关键词词频。)
形式大于内容,是初尝词云图新鲜感后的网友最大印象。看看维密的词云图,这样的分词效果至少我是不太满意的。
11月微博话题#维多利亚的秘密#相关微博词云图
如何才能做出既能传达关键信息,也能简洁干净的词云图呢?笔者推荐以下两种办法:
❶ 使用蓝色光标词云工具Blue View: 进行人工筛选和添加高频词汇。
❷ 用Python写一段代码进行分词(导入大名鼎鼎的万能的jieba包)并使用词典过滤掉无意义词汇(如:的、你、可以……)进行统计词频后用PPT或者Keynote制作词云图。
譬如我想知道王思聪的所有微博的词云图,当我用spider抓取到王思聪发布的所有新浪微博,使用python进行分词处理,得到统计词频,然后根据词频来决定词汇的大小,使用keynote或者ppt制作轮廓为$的词云图。
那么既然很多词云制作工具都能满足统计给定语料的词频能力,为什么我们还要费力去用python呢?
差异就在分词处理能力和词典过滤能力,python可以去掉无意义词汇,最终呈现最有价值的信息。
噢,
小伙们跟我念:
Python大法好。
好了,以上就是吐血整理的词云攻略,小伙伴们可以试下,咱们也能优雅地划重点啦~
封面图来源:money.163.com
推荐阅读: