-----------------2017-01-22 20:21----------------

【单词集已经更新】

【有知友提醒,使用Windows自带的记事本打开会出现单词为分割开来的情况,晚上回去重新处理一下,自己使用Notepad上是正常的换行分割,还望见谅】

学英语,无论目的何在,词汇量总是一个绕不过去的坎,没有足够的词汇量,都难以用文法来组词造句。

前段时间,恶魔的奶爸提供了几份偏向于各个领域的高频词汇,很是不错。

最近用Python写爬虫入门教程的时候,碰到过几个英文网站,便有了提炼一份网站英文单词词频的念头。

3000高频单词库说明
来源:Connecting China Connecting the World 全站4700+个网页
剔除127个常见停用词,剔除单词长度为1的单词,剔除网站英文名chinadaily。

我年纪还轻,阅历不深的时候,我父亲教导过我一句话,我至今还念念不忘。 “每逢你想要批评任何人的时候, ”他对我说,“你就记住,这个世界上所有的人,并不是个个都有过你拥有的那些优越条件。”
——《了不起的盖茨比》

以下为3000高频词汇的提取过程。

1.爬取ChinaDaily全站网页URL

def 

2.请求爬取的URL并解析网页单词

# 解析网页单词并写入文本文件
def resolve_html(url):wbdata = requests.get(url).contentsoup = BeautifulSoup(wbdata,'lxml')# 替换换行字符text = str(soup).replace('n','').replace('r','')# 替换<script>标签text = re.sub(r'<script.*?>.*?</script>',' ',text)# 替换HTML标签text = re.sub(r'<.*?>'," ",text)text = re.sub(r'[^a-zA-Z]',' ',text)# 转换为小写text = text.lower()text = text.split()text = [i for i in text if len(i) > 1 and i != 'chinadaily']text = ' '.join(text)print(text)with open("j:pythonwords.txt",'a+',encoding='utf-8') as file:file.write(text+' ')print("写入成功")
if __name__ == '__main__':pool = Pool(processes=2)pool.map_async(resolve_html,urllist)pool.close()pool.join()print('运行完成')

3.对单词文本文件进行词频处理

# 对单词文本文件进行词频处理

结果为:

单词总数 

部分单词及词频为:

('online', 8788)
('business', 8772)
('society', 8669)
('people', 8646)
('content', 8498)
('story', 8463)
('multimedia', 8287)
('cdic', 8280)
('travel', 7959)
('com', 7691)
('cover', 7679)
('cn', 7515)
('hot', 7219)
('shanghai', 7064)
('first', 6941)
('photos', 6739)
('page', 6562)
('years', 6367)
('paper', 6289)
('festival', 6188)
('offer', 6064)
('sports', 6025)
('africa', 6008)
('forum', 5983)

最后得到一个包含3000个高频词汇的txt文本文件,大家可以将其导入到各大单词软件的单词本中。

python英语词频_【我爱背单词】从300万单词中给你一份3000英语新闻高频词汇相关推荐

  1. python英语词频_为了边看美剧边学英语,我写了个字幕处理脚本

    每个英语学渣(好吧,其实这个说的就是学渣本渣了 ‍♀️)都有这样一个梦想:能够一边轻松愉快地看着美剧,一边自己的英语听力水平还能蹭蹭地往上涨.知乎上也有很多人分享了自己通过美剧练习听力的方法,比如说只 ...

  2. python论坛签到_吾爱论坛签到脚本-python

    [Python] 纯文本查看 复制代码 import requests cookie1 = """你的cookie信息""" url1 = ...

  3. python答疑群_吾爱Python群群友问题答疑

    1.首先一位群友提出这样的问题 这个错误很明显,int类型的对象是不支持迭代的,这个是显而易见的.于是给出的解决方案也是很简单的,只需要把int类型数字变为str类型即可. 2.这位群友说,他的元组里 ...

  4. python idle退出_【ZZ】windows+python2.7在IDLE中执行sys.exit()出现的问题及解决方案

    <简明Python教程>中第13章讲述"异常"时,有这样的一个实例, import sys try: s = raw_input('Enter something -- ...

  5. python海量数据分析师_数据分析师真的月入过万吗?(基于Python的招聘数据分析全流程实操)...

    0 前言 作为一名数据分析小白,经过一轮融汇贯穿学习后,也迫不及待想做一份数据分析报告,于是选取了现阶段最感兴趣的数据分析相关岗位招聘信息进行一波数据分析. 1 理解问题确定分析的目的和方向 因为目前 ...

  6. python自动数据分析_老板让我从几百个Excel中查找数据,我用python一分钟搞定!...

    相信大家最近都快被python烦死了,朋友圈,公众号推文,小视频上都是关于python的广告,什么面试录取会用python的人,刚来的同事因为会用python升职加薪啦等等.但是小编觉得,python ...

  7. python粘性拓展_如何将tkinter小部件置于粘性框架中

    在google中使用"如何使tkinter网格扩展",我遇到了这个问题. 引用布莱恩·奥克利的话Rows and columns have "weight" w ...

  8. java char数组查找_我爱java系列---【在字符数组中查询某个字符串是否存在】

    mysql中的FIND_IN_SET函数 需求:根据省份id,查询可以在该省份下发信息的通道id sql语句: SELECT cpa.CHANNEL_ID id FROM channel_price_ ...

  9. numpy构造八面体_每周评论:八面体的状态,Java中的ValueType和最新的JEP新闻

    numpy构造八面体 再过一周,又有一大堆好消息供您追赶. 在GitHub,JDK 14新闻以及Quarkus的1.0.0版(超音速亚原子Java框架)的流行度方面,阅读有关Java如何在Python ...

最新文章

  1. python画彩色城墙_Python绘制城堡-(有惊喜!!!)
  2. java 变量 占用空间_Java-空变量是否需要内存空间
  3. mybatis 笔记记录
  4. GitHub/Git 使用
  5. [SpringSecurity]基本原理_两个重要的接口_UserDetailsService接口和PasswordEncoder接口
  6. 《Python 快速入门》一千个程序员有一千套编码规范
  7. 辅助排序和Mapreduce整体流程
  8. ASP.NET2.0下使用AJAX调用Webservice的方法
  9. WPS中如何启用宏,附wps.vba.exe下载链接(百度云盘,永久有效)
  10. TLQ 异常杀进程清理 IPC 操作步骤
  11. hp计算机u盘启动,惠普台式机u盘启动(免费分享惠普电脑u盘启动步骤)
  12. web自动化你需要知道的
  13. Linux内核之 module_init解析 (下)
  14. Unity3D坦克大战(附代码和原理讲解)
  15. [精品教程,新老鸟必读]:极限装机、优化全攻略(新手优化教程)
  16. Robotium 介绍
  17. 几个高斯分布/积分的基本结论和计算
  18. 我叫mt4服务器维护时间,我叫MT4维护更新公告 维护更新内容及时间
  19. 解决Error:All flavors must now belong to a named flavor dimension. Learn more at https://d.android.com
  20. 51nod 1298 圆与三角形

热门文章

  1. python openpyxl列表逐行写入excel文件
  2. 附下载|《金融行业应用解决方案白皮书》上新
  3. 用户运营、活动运营、产品运营、内容运营的区别
  4. Unity3D-UI--Layout组件
  5. 机器学习(周志华)第一章至第三章笔记
  6. 毕业论文每章另起一页怎么设置 要求每一章新起一页,怎么设置自动格式呢?
  7. 【03】Chrome提示印象笔记剪藏插件已停用不支持的扩展程序怎么办?
  8. 删除oracle数据库的三种方法,oracle数据库的删除方法详解
  9. js中onload与onunload的使用示例
  10. 实时对讲是怎么发起的_微信对讲机怎么用【详细介绍】