大家好,欢迎来到IT知识分享网。
“ 想起来2018年已过去近半,想起来年初总结挖下的坑还基本没填,现在开始第一更,目标是先把去年的坑填完吧。”
什么是文字云呢?它的英文其实是words cloud,是可视化的一种表现形式,一般用来直观展示大段文字中词语出现的频率。
那其实涉及到两个问题,一个是一大段的文字怎么分成相对独立的一个个单词?另一个是如何统计每个词语出现的频率并依据频率来可视化呈现?
先说结论:
文字云可视化:https://wordart.com
在线分词:http://www.78901.net/participle/
01 文字云可视化
其实有很多在线的网站可以实现“文字云”的效果,最初接触的时候我用的是tagxedo这个网站(http://www.tagxedo.com/app.html),大概在2013年左右,最初还不需要翻墙就可以登上,特点是支持中文,但现在这个网站需要科学上网才能使用,所以不推荐再用。
下面是之前用tagxedo做的一些案例:
比如抠图后结合项目理念用来作为封面——
比如利用关键词做成鸟瞰图的衬底做封面——
没有tagxedo后其实有更好的选择,就是上面提到的wordart网站(完整网址是:https://wordart.com),可以直接访问,不需要翻墙。
制作步骤也很简单,跟tagxedo的逻辑是一样的,页面左侧分为words、shapes、fonts、layout和style,右侧是文字云生成界面,基本上就是“插入文字——可视化——自定义样式”三步。
words——插入需要生成为文字云的文字,值得提醒的是wordart网站支持导入csv格式的文件,那么有什么优势呢?这样说吧,excel格式的表格xls最大支持6553行,xlsx最大支持行,而csv格式其实和txt一样,是属于纯文本文件,是没有行数限制的。
shapes——不用多说,支持添加自定义的形状文件,建议做成黑白对比的png图导入。
fonts——字体,如果要生成中文的话需要自己上传中文字体,不然默认都是英文字体,导入中文是生成不了的。
layout——输出,建议导出png格式。
style——主题样式,可以选择各种配色,多试两次就能了解。
02 中文分词
为什么要分词呢?
其实也很好理解,不分词的话全都是一段一段的话,无法统计单个词语出现的频率,分词就是为了更好地统计不同的词语。
在线分词网站其实不止http://www.78901.net/participle/,之外还有很多很多,基本上都大同小异,输入一段文本后会自动生成分词完的结果。
导入到wordart网站的words里面后可以看到各个词语的词频。
然后会自动根据词频生成文字云的效果,如下:
其实操作上不需要讲太多,网上也很多教程,我觉得更重要的是摸索一些应用方向,现在多集中在:问卷调查中主观题目的可视化展示、封面或专题图的制作这两个方面,但我认为应该能够有更多发挥的空间。
比如可以通过网络爬取类似大众点评的店铺点评数据,将其存储成csv格式文件导入并迅速生成该店铺的评论文字云,可以很直观地体现出点评的关注点集中在哪里。
更多的是需要发挥自己的想象力。
暂时介绍到这里,希望能够帮助到需要的人,以上。
P.S.小小期待下端午节的十年城规聚会。
欢迎关注公众号:平纸杂货铺
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/73599.html