前言

本人业余,小白一枚,多多包涵,最近需要看大量英文文献,遇到很多生词,想要筛选出生词进行集中查询翻译,做个生词表。论文pdf大多数是分双栏的,而且pdf匹配较不精准,目前找到的pdf转txt方案效果都不理想,所以需要自行复制做好txt文件,由于需要筛选的是生词,那么就需要制作个人的熟词txt,最后通过对比选出生词。

正文

# _*_ coding:utf-8 _*_
#用于将txt文本的英文,根据词库提取生词
import re
import string#将文本转换为列表
def Changetxt(input_path):r = open(input_path,"r",encoding='UTF-8')   #输入文本strs =r.read()s = re.findall("\w+",str.lower(strs))   #使用正则提取单词来,修改为小写l = list(set(s))            #去除列表中的重复项l.sort(key = s.index)            #set会乱序,使用sort保持原来的顺序r.close()return l#给定词库txt去掉n\
def Remove_mark(words_path):f = open(words_path,encoding = "utf-8")a = list(f)for i in range(len(a)):a[i] = a[i].rstrip("\n")f.close()return a#匹配列表new_paper_word里的单词是否在词库words里面出现,最后将筛选的生词提取到txt中
def Handle_data(output_path,new_paper_word,words):num = 0                  #用于记录本次匹配的生词数f = open(output_path,"w",encoding='UTF-8')   #用于记录筛选的生词for i in new_paper_word:m = re.search("\d+",i)n = re.search("\W+",i)if not m and  not n and len(i)>2:          #不是数字,不是符号,且长度大于2,就写到txt里面if i not in words:       #不是词库里的词f.write(i +"\n")num += 1print('筛选成功,本次共成功筛选了' + str(num) + '个生词')words_path = r'F:\\pythontest\\ww\\finish\\words.txt' #单词表路径(个人词库)
input_path = r'F:\\pythontest\\ww\\finish\\input.txt'    #用于筛选生词的txt路径,txt里应该是能够正常阅读的英文
output_path = r'F:\\pythontest\\ww\\finish\\output.txt'  #筛选出的生词new_paper_word = Changetxt(input_path)      #获取论文单词list
words = Remove_mark(words_path)            #获取词库单词list
Handle_data(output_path,new_paper_word,words)   #数据匹配处理,最终赛选出结果


下面是四个文件
words用于存放认识的单词
input为需要筛选的英文文献
output为运行后输出的结果

用python筛选英文txt中的单词,生僻单词相关推荐

  1. python统计英文文章中单词出现的次数并排序_Python读取英文文件并记录每个单词出现次数后降序输出示例...

    Python读取英文文件并记录每个单词出现次数后降序输出示例 发布时间:2020-09-19 23:07:12 来源:脚本之家 阅读:126 作者:菜鸟虫师 本文实例讲述了Python读取英文文件并记 ...

  2. Python初学者:寻找文件中的最长单词

    attention:文件里会有空格,空行.需要去除多余的才方便寻找.寻找直接用max再比对就好了 and:重复的单词也要输出,对输出顺序没要求 要求: data.txt中保存有n个单词,每个单词一行. ...

  3. 使用python批量提取txt中的数据并写入excel

    本人是编程小白,同时也是一名准毕业研究生,在处理众多数据时总是要花很多时间来做重复的工作以提取出需要的数据,让我十分头疼.我无法忍受这种低效的工作,于是便开始尝试使用Python进行编程来批量处理数据 ...

  4. python 怎么样去txt中提取xml_Python根据XML批量创建TXT并提取信息,python,xml,txt

    主要目的为根据xml文件批量创建txt文件,并将xml文件中的信息提取.保存至相应的txt中.参考xml处理程序: xml信息提取及格式转换 效果图: # -*- coding: utf-8 -*- ...

  5. python统计英文文章中单词的个数无文件_求Python统计英文文件内单词个数的思路...

    感谢微博上@刘鑫-MarsLiu的TAG每天一个小程序. 你会如何实现上述题目的要求? #!/usr/bin/env python # -*- coding: utf-8 -*- "&quo ...

  6. python统计英文文章中单词出现的次数并排序_Python实现的统计文章单词次数功能示例...

    本文实例讲述了Python实现的统计文章单词次数功能.分享给大家供大家参考,具体如下: 题目是这样的:你有一个目录,放了你一个月的日记,都是 txt,为了避免分词的问题,假设内容都是英文,请统计出你认 ...

  7. python统计英文文章中单词出现的次数并排序_python,_关于统计某一个 单词 在 文本中 出现的次数,python - phpStudy...

    关于统计某一个 单词 在 文本中 出现的次数 人生苦短,我用Python.用了不会,来到segment. 我是一个python 初学者,想要实现一个"模块",可以让用户输入某个单词 ...

  8. python输入英文句子、找最长单词_在输入fi中找出句子中的最大和最小单词数

    我有一个问题,要求我找出文本文件中单词的最小和最大数量.我已经完成了五个问题中的三个,剩下的两个是关于最小值和最大值的问题,我对此没有任何解决办法.以下是我的代码:感谢您的帮助lines, blank ...

  9. python统计英文文章中单词出现的次数

    word="I'm a boby, I'm a girl. When it is true, it is ture. thit are cats, the red is red." ...

最新文章

  1. extern与头文件(*.h)的区别和联系
  2. 北斗导航 | 北斗三号全球导航卫星系统6类服务测试评估
  3. 收藏一下mybatis全局参数配置
  4. vant toast loading 倒计时_日期倒计时软件哪个好 苹果日期倒计时软件推荐
  5. 国货当自强!华为未来 10 年 15% 收入将投入研发
  6. docker搭建本地 Registry
  7. 苹果自带录屏在哪_苹果录音功能在哪?iPhone自带录音功能的正确打开方式
  8. python---之np.unique
  9. 如何查看80端口被占用
  10. Ricequant 平台入门--回测第一个量化交易策略
  11. 华为鸿蒙如何添加桌面小组件,万能小组件添加至桌面怎么弄?桌面添加应用方法图文详解...
  12. 大势智慧参加腾讯云启「创见沙龙」,共探“全真互联网”新趋势
  13. 学生管理系统IPO图_高校学生考勤管理系统
  14. 小程序工具类无云开发按钮(已解决)
  15. 天池精准医疗大赛——人工智能辅助糖尿病遗传风险预测总结
  16. IT类电子图书下载站点合集
  17. 什么是融资?怎么才能融资?如何实现个人融资?
  18. 汽车电子的发展简介和V型开发模式
  19. 虚拟现实是计算机软件么,虚拟现实技术对于电脑软件、硬件的配置要求有哪些?...
  20. 关于我是如何自学Java,一个自学网站推荐How2j

热门文章

  1. 中国阀门驱动装置行业运行状况与前景趋势研究报告2022-2028年
  2. 为您的DC/DC 转换器选择最佳开关频率
  3. 基于微信小程序的房屋租赁小程序设计与实现-计算机毕业设计源码+LW文档
  4. 投后电视显示无法连接服务器,苹果AirPlay怎么用:AirPlay在哪设置,无法连接电视怎么办?...
  5. python语言下同一个类下有多个函数,其中一个函数想调用另外一个函数里面的变量怎么调用
  6. 及时复盘的好处_复盘是什么意思,有什么意义
  7. 拓扑结构计算机网络结构,计算机网络的常见的七种拓扑结构
  8. Inversion Lemma
  9. 狄利克雷分布公式_关于狄利克雷分布的理解
  10. FigDraw 22. SCI文章中绘图之核密度及山峦图 (ggridges)