自然语言处理第六讲:统计一个文本中的每个词的词频

自然语言处理第六讲:统计一个文本中的每个词的词频代码讲解 import nltk 调用 nltk 模块 content open r E pythondata test 1987 eng txt r encoding utf 8

大家好,欢迎来到IT知识分享网。

自然语言处理第六讲:统计一个文本中的每个词的词频

代码讲解:

import nltk

调用nltk模块

content = open(r‘E:\pythondata\test\1987_eng.txt’,‘r’,encoding=‘utf-8’).read()

读取1987_eng.txt内容为一个字符串

wordList = nltk.word_tokenize(content)

对这个字符串进行分词,生成一个词的列表

wordList2 = [w.lower() for w in wordList if w.isalpha()]

这是遍历的高级写法,意思是:

for w in wordlist #对词列表进行遍历

if w.isalpha() #如果这个被遍历的词是字符(即字母组成的)

w.lower() #将这个被遍历的词改成小写

dictList = {}

新建一个空的字典dictList

for word in wordList2:

对被改成小写的词的新列表进行遍历

if word in dictList:

如果被遍历的词在dictList中

dictList[word] += 1

这个词的值增加1 dictList[word] 对应的是word在dictList字典中的值

else:

否则:

dictList.update({word: 1}) #.update(添加字典键值)

给这个dictList字典增加一个键值对:word:1 word是键,1是值

print(dictList)

输出最终的字典,里面是每个词及其对应的数字,即每个词的词频

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/97723.html

(0)

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信