1, PDF转csv

import tabulafrom tabula import read_pdf
from tabulate import tabulate
import pandas as pd
import io

一般情况下,PDF中的表格指的是非图片格式的PDF,否则无法识别

tabula.convert_into('pdf路径.pdf', '输出表名称.csv', output_format="csv", pages = 'all')

pages 也可以选择某一页:

pages = 6 #第6页
pages = "all" #全部页面

2,表格dataframe中的汉字自动转拼音

import pypinyin
'''把汉语改写为拼音'''
df1=pd.read_csv(r'文件路径')
df1.head()

输出为:

循环改变 df1‘’站名‘’ 这一列的汉子为拼音:

pinyin_name = []
first_pinyin = []
for i in df1['站名']:r1=pypinyin.pinyin(i,style=Style.TONE3)  # style控制是否添加拼音的音调r2_=[i[0] for i in r1]r3=r2_[0].capitalize() + ' ' + ''.join(r2_[1:]).capitalize()r4=''.join([i[0].upper() for i in r2_])print(r3, i, sep=' ')pinyin_name.append(r3)first_pinyin.append(r4)
df1['py_site'] = pinyin_name #拼音站名
df1['py_first2'] = first_pinyin #站名拼音的首字母

python抓取pdf中的表格转换为csv表格汉语站名批量变英文(拼音)名相关推荐

  1. python爬取pdf教程_#如何利用Python抓取PDF中的某些内容#python爬取pdf教程

    如何利用Python抓取PDF中的某些内容 学生每天要学习,工作者要工作,家庭主妇每都要务.不论做什么,都有着相应的操作流同样就会有操作技巧.学生运用技巧学习才不会累,学得还会更快更多:工作者掌握技巧 ...

  2. Python抓取网页中的动态序列化数据

    Python抓取网页中的动态序列化数据 动态序列化数据经常应用于前后端分离的页面.或者通过VUE.JS等HTML页面环境,常规的爬虫抓取方法并不能满足数据采集的要求,因此需要其他的方式进行数据的采集. ...

  3. python抓取内存中的网页_『爬虫四步走』手把手教你使用Python抓取并存储网页数据!...

    爬虫是Python的一个重要的应用,使用Python爬虫我们可以轻松的从互联网中抓取我们想要的数据,本文将基于爬取B站视频热搜榜单数据并存储为例,详细介绍Python爬虫的基本流程.如果你还在入门爬虫 ...

  4. python抓取html中特定的数据库,Python抓取网页中内容,正则分析后存入mysql数据库...

    firefox+httpfox可以查看post表单 首先在http://www.renren.com/这个地址输入用户名和密码, 输入用户名和密码之后post到下面这个网址: http://www.r ...

  5. python抓取视频中的人物动作,并生成3D的bvh

    视频中的人物抓取 查看视频时,看到很多人的动作特别潇洒.就想做动作抓取 参考了别人的案例,自己进行布局 特别感谢 作者:StubbornHuang <我的开源项目 – 3DPoseEstimat ...

  6. Python抓取excel中关键字

    在面对几k行甚至上万行的excel数据时,如果只需要找出我们所需的某几行数据,可利用此代码,在设置好excel的路径.excel文件名和关键字之后,即可抓取所需数据并输出至新的excel中. 三个参数 ...

  7. 用python抓取网页中所有pdf文件的笨方法

    进入下载中心: https://www.sensirion.com/en/download-center/ 在网页任意地方点击右键,后选择inspection 右边选择elements 一直向下翻找到 ...

  8. python抓取word中的图片并另存为

    #!/usr/bin/env python # coding:gbkimport os,zipfile,shutildef getimage(docdir):os.chdir(docdir)dirli ...

  9. python获取网页图片_python抓取网页中的图片示例

    python抓取网页中的图片示例 代码如下: #coding:utf8 import re import urllib def getHTML(url): page = urllib.urlopen( ...

最新文章

  1. F5内网大二层负载均衡业务访问故障解析(CISCO OTV+LISP-MTU问题导致)
  2. JS获取标签方法及兼容处理
  3. c++ 协程_用yield实现协程
  4. 为什么unity 安装完模块还是找不到sdk_Unity填坑笔记(四)——移植UWP平台
  5. 第20课 孔融让梨 《小学生C++趣味编程》
  6. Magedu2_3 linux文件目录
  7. Pytorch+MINST 全连接神经网路训练学习
  8. Electron —— Cannot find module ‘index.js’
  9. HTML5的10大优势
  10. datagrivew删除列_c# 如何获取datagrivew 表里面名称为card_id的一列,并把这列里面的元素循环...
  11. java求解一给定数字的二进制表达中的1的个数
  12. echarts官网demo
  13. c语言编程实现scp功能,scp源码浅析
  14. Java中的UTF-8、UTF-16编码字符所占字节数
  15. c语言编译kbhit出现问题,kbhit用C语言
  16. 方差分析介绍(结合COVID-19案例)
  17. epub文件是什么文件?如何用安卓手机打开?
  18. Java调用opencv实现图片去水印
  19. 图网络:从数据处理到DGL模型构建(GCN, GraphSAGE, RGCN)
  20. pomelo mysql_pomelo中使用mysql

热门文章

  1. 【Linux】第十一章 进程信号(概念+产生信号+阻塞信号+捕捉信号)
  2. JSP药店积分管理系统myeclipse开发mysql数据库web结构java编程
  3. 计算机教学中ppt的作用,多媒体课件在教学中的作用
  4. 远程智能网关在塔吊设备的应用
  5. 微信官方平台第三方开发 关于代公众号发起网页授权
  6. 隐私计算头条周刊(9.4-9.10)
  7. 【智驾深谈】特斯拉死亡事故官方洗白,业界被判死缓(万字报告)
  8. 快速云:虚拟主机的基础使用步骤
  9. 互联网日报 | 天猫京东618再创新纪录;字节跳动成立抖音电商部门;全国普速铁路20日起实施电子客票...
  10. 大学生英文求职信 计算机,计算机专业毕业生英文求职信范文