python抓取pdf中的表格转换为csv表格汉语站名批量变英文（拼音）名

1, PDF转csv

import tabulafrom tabula import read_pdf
from tabulate import tabulate
import pandas as pd
import io

一般情况下，PDF中的表格指的是非图片格式的PDF，否则无法识别

tabula.convert_into('pdf路径.pdf', '输出表名称.csv', output_format="csv", pages = 'all')

pages 也可以选择某一页：

pages = 6 #第6页
pages = "all" #全部页面

2，表格dataframe中的汉字自动转拼音

import pypinyin

'''把汉语改写为拼音'''
df1=pd.read_csv(r'文件路径')
df1.head()

输出为：

循环改变 df1‘’站名‘’ 这一列的汉子为拼音：

pinyin_name = []
first_pinyin = []
for i in df1['站名']:r1=pypinyin.pinyin(i,style=Style.TONE3)  # style控制是否添加拼音的音调r2_=[i[0] for i in r1]r3=r2_[0].capitalize() + ' ' + ''.join(r2_[1:]).capitalize()r4=''.join([i[0].upper() for i in r2_])print(r3, i, sep=' ')pinyin_name.append(r3)first_pinyin.append(r4)
df1['py_site'] = pinyin_name #拼音站名
df1['py_first2'] = first_pinyin #站名拼音的首字母

python抓取pdf中的表格转换为csv表格汉语站名批量变英文（拼音）名相关推荐

python爬取pdf教程_#如何利用Python抓取PDF中的某些内容#python爬取pdf教程
如何利用Python抓取PDF中的某些内容学生每天要学习,工作者要工作,家庭主妇每都要务.不论做什么,都有着相应的操作流同样就会有操作技巧.学生运用技巧学习才不会累,学得还会更快更多:工作者掌握技巧 ...
Python抓取网页中的动态序列化数据
Python抓取网页中的动态序列化数据动态序列化数据经常应用于前后端分离的页面.或者通过VUE.JS等HTML页面环境,常规的爬虫抓取方法并不能满足数据采集的要求,因此需要其他的方式进行数据的采集. ...
python抓取内存中的网页_『爬虫四步走』手把手教你使用Python抓取并存储网页数据！...
爬虫是Python的一个重要的应用,使用Python爬虫我们可以轻松的从互联网中抓取我们想要的数据,本文将基于爬取B站视频热搜榜单数据并存储为例,详细介绍Python爬虫的基本流程.如果你还在入门爬虫 ...
python抓取html中特定的数据库,Python抓取网页中内容，正则分析后存入mysql数据库...
firefox+httpfox可以查看post表单首先在http://www.renren.com/这个地址输入用户名和密码, 输入用户名和密码之后post到下面这个网址: http://www.r ...
python抓取视频中的人物动作，并生成3D的bvh
视频中的人物抓取查看视频时,看到很多人的动作特别潇洒.就想做动作抓取参考了别人的案例,自己进行布局特别感谢作者:StubbornHuang <我的开源项目 – 3DPoseEstimat ...
Python抓取excel中关键字
在面对几k行甚至上万行的excel数据时,如果只需要找出我们所需的某几行数据,可利用此代码,在设置好excel的路径.excel文件名和关键字之后,即可抓取所需数据并输出至新的excel中. 三个参数 ...
用python抓取网页中所有pdf文件的笨方法
进入下载中心: https://www.sensirion.com/en/download-center/ 在网页任意地方点击右键,后选择inspection 右边选择elements 一直向下翻找到 ...
python抓取word中的图片并另存为
#!/usr/bin/env python # coding:gbkimport os,zipfile,shutildef getimage(docdir):os.chdir(docdir)dirli ...
python获取网页图片_python抓取网页中的图片示例
python抓取网页中的图片示例代码如下: #coding:utf8 import re import urllib def getHTML(url): page = urllib.urlopen( ...

python抓取pdf中的表格转换为csv表格汉语站名批量变英文（拼音）名

1, PDF转csv

2，表格dataframe中的汉字自动转拼音

python抓取pdf中的表格转换为csv表格汉语站名批量变英文（拼音）名相关推荐

最新文章

热门文章