博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
综合练习:词频统计
阅读量:6896 次
发布时间:2019-06-27

本文共 1693 字,大约阅读时间需要 5 分钟。

综合练习

词频统计预处理

1、下载一首英文的歌词或文章

将所有,.?!’:等分隔符全部替换为空格

将所有大写转换为小写

生成单词列表

生成词频统计

排序

排除语法型词汇,代词、冠词、连词

输出词频最大TOP20

将分析对象存为utf-8编码的文件,通过文件读取的方式获得词频分析内容。

f=open("file.txt","r")news=f.read()f.close()sep=''',().;--'''exclude={
'the','to','and','of','in','for','on','a','when','as','not','with','that'}for c in sep: news = news.replace(c,'')wordList=news.lower().split()wordDict={}wordSet=set(wordList)-excludefor w in wordSet: wordDict[w]=wordList.count(w)dictList = list(wordDict.items())dictList.sort(key=lambda x:x[1],reverse=True)for i in range(20): print(dictList[i])

2、下载一长篇中文文章。

从文件读取待分析文本。

news = open('gzccnews.txt','r',encoding = 'utf-8')

安装与使用jieba进行中文分词。

pip install jieba

import jieba

list(jieba.lcut(news))

生成词频统计

排序

排除语法型词汇,代词、冠词、连词

输出词频最大TOP20(或把结果存放到文件里)

import jiebaf = open('gzccnews.txt','r',encoding = 'utf-8')story=f.read()f.close()jieba.add_word('行者')jieba.add_word('八戒')jieba.add_word('师父')sep=''',。‘’“”:;()!?、《》 '''exclude={
'的','\n','曰','之','不','人', '行','者','来','德','有','于','下','兵','此', '玄','公','见','为','何','中','而','可','吾', '出','也','以','与','上','后','今','其','去', '日','明','言','道','了','那','我','是','他', '个','你','得','这','在','子','里','行','者', '却','大','又','就','八','戒','三','着','只', '儿','一','只','把',}for c in sep: story = story.replace(c,'')tem=list(jieba.cut(story))wordDict={}words=list(set(tem)-exclude)for w in range(0,len(words)): wordDict[words[w]]=story.count(str(words[w]))dictList = list(wordDict.items())dictList.sort(key=lambda x:x[1],reverse=True)f = open('Count.txt', 'a',encoding="utf-8")for i in range(20): f.write(dictList[i][0] + ':' + str(dictList[i][1]) + '\n')f.close()

 

转载于:https://www.cnblogs.com/932zdb/p/8658551.html

你可能感兴趣的文章
使用c#,WPF,模仿IPhone的Loading(加载)效果
查看>>
真正无错的javascript的replaceAll函数 [转]
查看>>
AT指令(中文详解版)(三)
查看>>
如何开启默认共享?
查看>>
动态参数的存储过程示例.sql
查看>>
关于C++中enum的探讨[zz]
查看>>
TYAN_S8230做硬Raid
查看>>
AutoResetEvent 的诡异行为
查看>>
WAMP运行分析
查看>>
DBA查询命令积累——不断更新
查看>>
【kAri OJ 616】Asce的树
查看>>
ACdream OJ 1153 (k-GCD)
查看>>
关于 Java 数组的 12 个最佳方法
查看>>
快钱提现
查看>>
2016去哪儿编程题:字符替换
查看>>
一个优异的经理人,碰到糟糕的企业,最后往往存在的还是那间糟糕的企业(转)...
查看>>
[转]史上最全最强SpringMVC详细示例实战教程
查看>>
VMware Tools的安装
查看>>
Linux中常用的查看系统信息的命令
查看>>
能源项目xml文件标签释义--default-lazy-init
查看>>