大家好,欢迎来到IT知识分享网。
中文情感分析:SnowNLP
这是一个可以方便的处理中文文本内容的Python库。受到了TextBlob启发而开发的。
安装
pip install snownlp
应用
创建一个对象:
from snownlp import SnowNLP
sentence = '我爱机器学习'
s = SnowNLP(sentence)
中文分词:
s_token = s.words
print(s_token)
词性标注:
s_tags = s.tags
for token_tag in s_tags:
print(token_tag)
情感分析:
s_senti = s.sentiments
print(s_senti)
# 结果越接近于1越积极,越接近于0越消极
中文拼音:
s_pinyin = s.pinyin
for i in range(len(sentence)):
print(sentence[i],s_pinyin[i])
繁体字转简体:
sentence_fan = '竟然還貼心到把自己整理的文檔也開放分享了來了,鐵子這下壹鍵三連必須有了!'
s_jianti = SnowNLP(sentence_fan)
print(s_jianti.han)
分割句子:
text = u'二愣子睁大着双眼,直直望着茅草和烂泥糊成的黑屋顶,身上盖着的旧棉被,已呈深黄色,看不出原来的本来面目,还若有若无的散发着淡淡的霉味。在他身边紧挨着的另一人,是二哥韩铸,酣睡的十分香甜,从他身上不时传来轻重不一的阵阵打呼声。离床大约半丈远的地方,是一堵黄泥糊成的土墙,因为时间过久,墙壁上裂开了几丝不起眼的细长口子,从这些裂纹中,隐隐约约的传来韩母唠唠叨叨的埋怨声,偶尔还掺杂着韩父,抽旱烟杆的“啪嗒”“啪嗒”吸允声。二愣子缓缓的闭上已有些发涩的双目,迫使自己尽早进入深深的睡梦中。他心里非常清楚,再不老实入睡的话,明天就无法早起些了,也就无法和其他约好的同伴一起进山拣干柴。二愣子姓韩名立,这么像模像样的名字,他父母可起不出来,这是他父亲用两个粗粮制成的窝头,求村里老张叔给起的名字。老张叔年轻时,曾经跟城里的有钱人当过几年的伴读书童,是村里唯一认识几个字的读书人,村里小孩子的名字,倒有一多半是他给起的。韩立被村里人叫作“二愣子”,可人并不是真愣真傻,反而是村中首屈一指的聪明孩子,但就像其他村中的孩子一样,除了家里人外,他就很少听到有人正式叫他名字“韩立”,倒是“二愣子”“二愣子”的称呼一直伴随至今。而之所以被人起了个“二愣子”的绰号,也只不过是因为村里已有一个叫“愣子”的孩子了。这也没啥,村里的其他孩子也是“狗娃”“二蛋”之类的被人一直称呼着,这些名字也不见得比“二愣子”好听了哪里去。因此,韩立虽然并不喜欢这个称呼,但也只能这样一直的自我安慰着。韩立外表长得很不起眼,皮肤黑黑的,就是一个普通的农家小孩模样。但他的内心深处,却比同龄人早熟了许多,他从小就向往外面世界的富饶繁华,梦想有一天,他能走出这个巴掌大的村子,去看看老张叔经常所说的外面世界。当韩立的这个想法,一直没敢和其他人说起过。否则,一定会使村里人感到愕然,一个乳臭未干的小屁孩,竟然会有这么一个大人也不敢轻易想的念头。要知道,其他同韩立差不多大的小孩,都还只会满村的追鸡摸狗,更别说会有离开故土,这么一个古怪的念头。'
t = SnowNLP(text)
for sen in t.sentences:
print(sen+'o')
关键词抽取:
key_num = 5
t_key = t.keywords(key_num)
print(t_key)
摘要抽取(关键句抽取):
key_sen = 5
t_keysen = t.summary(key_sen)
print(t_keysen)
计算tf和idf:
s = SnowNLP([[u'机器学习', u'人工智能'],
[u'深度学习', u'自然语言处理'],
[u'数据挖掘']])
print(s.tf)
print(s.idf)
计算相似度(BM25):
artical2 = u'“这只是在下前主人一点未了心愿,也只有等主人飞升之后才有机会做到的。”蟹道人点了点头,不再多说什么了。9.0270这时,空中五色云团越发庞大起来,并有一股说不出的凝重气息从中散发而出。“几位道友,先暂避一二吧。我这就渡劫了!”韩立再抬首看了一下天空,双目一眯的说道。魔光几人自然毫无异议,当即遁光一起后,向荒岛外飞射而去。与此同时,韩立大袖一抖,一团金光从中激射而出,里面隐约有一个秃头无眉的紫金色小人,也一闪即逝的破空而走。却正是那头噬金虫王。韩立这才神色平静的盘坐而下。几个闪动后,魔光、火须子等人就全出现在了荒岛另一边的高空中,纷纷停下遁光火,才转身向荒岛中心处遥望而去。只听远处一声轰隆隆巨响,五色云雾中当即凭空现出一个黑乎乎巨洞,里面呼啸声一起,一股灰白之风一卷而下。此风开始不过一小股而已,但方一离开黑洞,立刻在嗡嗡声中化为铺天风海的一压而下。“天罡之风出现了,看来飞升天劫真的降下了。”火须子一见到此幕,嘿嘿一笑的说道。“这天罡风虽然厉害,但对韩道友来说早有应付手段,根本不足畏惧的。”魔光则不慌不忙的说道。此天魔话音刚落,顿时荒岛中心处一朵青莲绽放而开,开始不过房屋大小。但转眼间就化为了数亩大小。滴溜溜一转后。青濛濛剑光从中狂卷而出,将附近一切全都一斩而开。任凭外面飞沙走石,天风滚滚,青莲却在低空处纹丝不动,将下方一切全稳稳的护在其中。这天罡之风一刮,就是数个时辰之长。若是一般大乘,单凭此风就足以让他们叫苦不迭,体内法力要一去不少。根本不可能再挨过后面更加恐怖的其他天劫。但对韩立来说,这点法力却不过是九牛一毛而已。'
print(s.sim(artilc1))
模型再训练:
- 提供训练的包括分词,词性标注,情感分析。语料在snownlp/seg目录下
- 训练好的文件就存储为seg.marshal了,然后修改snownlp/seg/init.py里的data_path指向刚训练好的文件即可
# 训练代码案例
#from snownlp import seg
#seg.train('data.txt')
#seg.save('seg.marshal')
# from snownlp import tag
# tag.train('199801.txt')
# tag.save('tag.marshal')
# from snownlp import sentiment
# sentiment.train('neg.txt', 'pos.txt')
# sentiment.save('sentiment.marshal')
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/31325.html