博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
统计文本中特定词汇的出现频率
阅读量:5149 次
发布时间:2019-06-13

本文共 752 字,大约阅读时间需要 2 分钟。

import jieba txt=open('threekingdoms.txt','r',encoding='gb18030').read() excludes={'将军','却说','荆州','二人','不可','不能','如此'} words=jieba.lcut(txt) counts={} for word in words:     if len(word)==1:         continue     elif word=='诸葛亮' or word=='孔明曰':         rword='孔明'     elif word=='关公' or word=='云长':         rword='关羽'     elif word=='玄德' or word=='玄德曰':         rword='刘备'     elif word=='孟德' or word=='丞相':         rword='曹操'     else:         rword=word     counts[rword]=counts.get(rword,0)+1 for word in excludes:     del counts[word] items = list(counts.items()) items.sort(key=lambda x:x[1],reverse=True) for i in range(10):     word,count=items[i]     print('{0:<10}{1:>5}'.format(word,count))

 

转载于:https://www.cnblogs.com/Aluosen/p/11489228.html

你可能感兴趣的文章
洛谷 P3367 【模板】并查集
查看>>
方法Equals和操作符==的区别
查看>>
我的软件工程师之路,给需要的同学!
查看>>
快速模幂
查看>>
Unity3D_最简单的开始界面_结束界面
查看>>
TCP/IP五层模型
查看>>
Sharepoint 2013搜索服务配置总结(实战)
查看>>
10 个用来下载免费图标的网站
查看>>
noi.ac 第五场第六场
查看>>
01背包
查看>>
Openscada远程配置
查看>>
博客盈利请先考虑这七点
查看>>
使用 XMLBeans 进行编程
查看>>
XML 解析---dom解析和sax解析
查看>>
Gamescom2014:中国游戏公司37.com进军西方海外市场
查看>>
编程异常——假设你报createSQLQuery is not valid without active transaction,...
查看>>
ios新开发语言swift 新手教程
查看>>
有引用外部jar包时(J2SE)生成jar文件
查看>>
写接口请求类型为get或post的时,参数定义的几种方式,如何用注解(原创)--雷锋...
查看>>
什么是 开发环境、测试环境、生产环境、UAT环境、仿真环境
查看>>