python抓取pdf中的表格转换为csv表格汉语站名批量变英文(拼音)名
1, PDF转csv
import tabulafrom tabula import read_pdf
from tabulate import tabulate
import pandas as pd
import io
一般情况下,PDF中的表格指的是非图片格式的PDF,否则无法识别
tabula.convert_into('pdf路径.pdf', '输出表名称.csv', output_format="csv", pages = 'all')
pages 也可以选择某一页:
pages = 6 #第6页
pages = "all" #全部页面
2,表格dataframe中的汉字自动转拼音
import pypinyin
'''把汉语改写为拼音'''
df1=pd.read_csv(r'文件路径')
df1.head()
输出为:
循环改变 df1‘’站名‘’ 这一列的汉子为拼音:
pinyin_name = []
first_pinyin = []
for i in df1['站名']:r1=pypinyin.pinyin(i,style=Style.TONE3) # style控制是否添加拼音的音调r2_=[i[0] for i in r1]r3=r2_[0].capitalize() + ' ' + ''.join(r2_[1:]).capitalize()r4=''.join([i[0].upper() for i in r2_])print(r3, i, sep=' ')pinyin_name.append(r3)first_pinyin.append(r4)
df1['py_site'] = pinyin_name #拼音站名
df1['py_first2'] = first_pinyin #站名拼音的首字母
python抓取pdf中的表格转换为csv表格汉语站名批量变英文(拼音)名相关推荐
- python爬取pdf教程_#如何利用Python抓取PDF中的某些内容#python爬取pdf教程
如何利用Python抓取PDF中的某些内容 学生每天要学习,工作者要工作,家庭主妇每都要务.不论做什么,都有着相应的操作流同样就会有操作技巧.学生运用技巧学习才不会累,学得还会更快更多:工作者掌握技巧 ...
- Python抓取网页中的动态序列化数据
Python抓取网页中的动态序列化数据 动态序列化数据经常应用于前后端分离的页面.或者通过VUE.JS等HTML页面环境,常规的爬虫抓取方法并不能满足数据采集的要求,因此需要其他的方式进行数据的采集. ...
- python抓取内存中的网页_『爬虫四步走』手把手教你使用Python抓取并存储网页数据!...
爬虫是Python的一个重要的应用,使用Python爬虫我们可以轻松的从互联网中抓取我们想要的数据,本文将基于爬取B站视频热搜榜单数据并存储为例,详细介绍Python爬虫的基本流程.如果你还在入门爬虫 ...
- python抓取html中特定的数据库,Python抓取网页中内容,正则分析后存入mysql数据库...
firefox+httpfox可以查看post表单 首先在http://www.renren.com/这个地址输入用户名和密码, 输入用户名和密码之后post到下面这个网址: http://www.r ...
- python抓取视频中的人物动作,并生成3D的bvh
视频中的人物抓取 查看视频时,看到很多人的动作特别潇洒.就想做动作抓取 参考了别人的案例,自己进行布局 特别感谢 作者:StubbornHuang <我的开源项目 – 3DPoseEstimat ...
- Python抓取excel中关键字
在面对几k行甚至上万行的excel数据时,如果只需要找出我们所需的某几行数据,可利用此代码,在设置好excel的路径.excel文件名和关键字之后,即可抓取所需数据并输出至新的excel中. 三个参数 ...
- 用python抓取网页中所有pdf文件的笨方法
进入下载中心: https://www.sensirion.com/en/download-center/ 在网页任意地方点击右键,后选择inspection 右边选择elements 一直向下翻找到 ...
- python抓取word中的图片并另存为
#!/usr/bin/env python # coding:gbkimport os,zipfile,shutildef getimage(docdir):os.chdir(docdir)dirli ...
- python获取网页图片_python抓取网页中的图片示例
python抓取网页中的图片示例 代码如下: #coding:utf8 import re import urllib def getHTML(url): page = urllib.urlopen( ...
最新文章
- F5内网大二层负载均衡业务访问故障解析(CISCO OTV+LISP-MTU问题导致)
- JS获取标签方法及兼容处理
- c++ 协程_用yield实现协程
- 为什么unity 安装完模块还是找不到sdk_Unity填坑笔记(四)——移植UWP平台
- 第20课 孔融让梨 《小学生C++趣味编程》
- Magedu2_3 linux文件目录
- Pytorch+MINST 全连接神经网路训练学习
- Electron —— Cannot find module ‘index.js’
- HTML5的10大优势
- datagrivew删除列_c# 如何获取datagrivew 表里面名称为card_id的一列,并把这列里面的元素循环...
- java求解一给定数字的二进制表达中的1的个数
- echarts官网demo
- c语言编程实现scp功能,scp源码浅析
- Java中的UTF-8、UTF-16编码字符所占字节数
- c语言编译kbhit出现问题,kbhit用C语言
- 方差分析介绍(结合COVID-19案例)
- epub文件是什么文件?如何用安卓手机打开?
- Java调用opencv实现图片去水印
- 图网络:从数据处理到DGL模型构建(GCN, GraphSAGE, RGCN)
- pomelo mysql_pomelo中使用mysql
热门文章
- 【Linux】第十一章 进程信号(概念+产生信号+阻塞信号+捕捉信号)
- JSP药店积分管理系统myeclipse开发mysql数据库web结构java编程
- 计算机教学中ppt的作用,多媒体课件在教学中的作用
- 远程智能网关在塔吊设备的应用
- 微信官方平台第三方开发 关于代公众号发起网页授权
- 隐私计算头条周刊(9.4-9.10)
- 【智驾深谈】特斯拉死亡事故官方洗白,业界被判死缓(万字报告)
- 快速云:虚拟主机的基础使用步骤
- 互联网日报 | 天猫京东618再创新纪录;字节跳动成立抖音电商部门;全国普速铁路20日起实施电子客票...
- 大学生英文求职信 计算机,计算机专业毕业生英文求职信范文