python实现 html表格转Dataframe html2text把请求到的html转化为markdown markdown表格转dataframe
python实现
html转Dataframe
1 html转化为markdown 用来写博客
2 markdown表格转dataframe 更好数据分析
3 dataframe转字典 更好插入mongoDB非关系型数据库
html2text把请求到的html转化为markdown
import html2text
html2text_result = html2text.html2text(response.text).
markdown表格转dataframe 更好数据分析
准确切出markdown的表格
html2text_result = html2text.html2text(response.text).split("\n \n")[1]print(html2text_result)
序号 | 企业名称 | 所在地 | 证书编号 | 资质等级 | 证书状态 |
---|---|---|---|---|---|
581 | 陕西绿色置业有限责任公司 | 陕西省 | 陕建房[2022]1383号 | 二级 | 有效 |
582 | 西安航天城凌翼产业园开发有限公司 | 陕西省 | 陕建房[2022]1396号 | 二级 | 有效 |
583 | 石泉县泉友房地产有限责任公司 | 陕西省 | 陕建房[2022]1377号 | 二级 | 有效 |
584 | 陕西鸿兴泰地产有限公司 | 陕西省 | 陕建房[2022]1374号 | 二级 | 有效 |
585 | 陕西赛高企业发展有限公司 | 陕西省 | 陕建房[2022]1376号 | 二级 | 有效 |
586 | 宝鸡志宏房地产开发有限责任公司 | 陕西省 | 陕建房[2022]1382号 | 二级 | 有效 |
html2text_result=text.split("\n \n")[0].split("企业名称:")[1].strip()
print(html2text_result)
企业名称 | 企业类型 | 申请事项 | 申请内容 | 办结结果 | 公告时间 |
---|---|---|---|---|---|
陕西万众控股集团有限公司 | 房地产企业 | 重新核定 | 二级 | 予以许可 | 2022-09-21 |
陕西安阳丽舍置业集团有限公司 | 房地产企业 | 重新核定 | 二级 | 予以许可 | 2022-09-21 |
白河荣洲建设投资有限公司 | 房地产企业 | 重新核定 | 二级 | 予以许可 | 2022-09-21 |
陕西中建业晟置业有限公司 | 房地产企业 | 新办 | 二级 | 予以许可 | 2022-09-21 |
杨凌明海丰置业有限责任公司 | 房地产企业 | 新办 | 二级 | 予以许可 | 2022-09-21 |
西安浐灞生态区恒隆实业有限公司 | 房地产企业 | 重新核定 | 二级 | 予以许可 | 2022-09-21 |
陕西汉强房地产开发有限公司 | 房地产企业 | 重新核定 | 二级 | 予以许可 | 2022-09-21 |
陕西建工桢州置业有限公司 | 房地产企业 | 新办 | 二级 | 予以许可 | 2022-09-21 |
榆林市佳辰置业有限公司 | 房地产企业 | 重新核定 | 二级 | 予以许可 | 2022-09-21 |
陕西正德康养置业有限公司 | 房地产企业 | 重新核定 | 二级 | 予以许可 | 2022-09-21 |
根据规则切分
类型一
md_table = html2text_resultresult = []for n, line in enumerate(md_table[1:-1].split('\n')):data = {}if n == 0:header = [t.strip() for t in line.split('|')[1:-1]]if n > 1:values = [t.strip() for t in line.split('|')[1:-1]]for col, value in zip(header, values):data[col] = valueresult.append(data)items["imgList"] = dataresult_df = pd.DataFrame(result)
类型二
import pandas as pd
md_table = html2text_result
result = []
for n, line in enumerate(md_table.split('\n')):data = {}if n == 0:header = [t.strip() for t in line.split('|')]#[0:-1]print(header)if n > 1:values = [t.strip() for t in line.split('|')]#[0:-1]for col, value in zip(header, values):data[col] = valueresult.append(data)# items["imgList"] = data
result_df = pd.DataFrame(result)
dataframe转字典
result_df = pd.DataFrame(result)result_df.columns = ["enterpriseName", "regionFullname", "Application_items", "certname","Handling_result","Announcement_time"]result_dict=result_df.to_dict(orient='records')for k in result_dict:dictshanxi = {"legalMan": "-","uniscId": "--","regionFullname": k["regionFullname"],"enterpriseName": k["enterpriseName"],"districtCode": region_name_to_Region_code(k["regionFullname"]),"Handling_result":k["Handling_result"],"Announcement_time": k["Announcement_time"],"Application_items":k["Application_items"],"certList1": [{"certId": "--","pubDate": "--","endDate": "--","certType": "房地产开发","pubDepartment": "陕西省住房和城乡建设厅","certName": k["certname"]}]}
{
“_id”: ObjectId(“632e73cd8d93bb2dd048ca6f”),
“legalMan”: “-”,
“uniscId”: “–”,
“regionFullname”: “房地产企业”,
“enterpriseName”: “西乡县昌鑫房地产开发有限责任公司”,
“districtCode”: “–”,
“Handling_result”: “予以许可”,
“Announcement_time”: “2022-09-23”,
“Application_items”: “重新核定”,
“certList1”: [
{
“certId”: “–”,
“pubDate”: “–”,
“endDate”: “–”,
“certType”: “房地产开发”,
“pubDepartment”: “陕西省住房和城乡建设厅”,
“certName”: “二级”
}
]
}
python实现 html表格转Dataframe html2text把请求到的html转化为markdown markdown表格转dataframe相关推荐
- python使用fpdf生成发票格式的pdf文件包含:文字、图片logo、表格、条形码等;
python使用fpdf生成发票格式的pdf文件包含:文字.图片logo.表格.条形码等: pip install fpdf #python使用fpdf生成发票格式的pdf文件包含:文字.图片logo ...
- python合并word表格单元格_Python实战009:读取Word文档中的表格数据及表格合并问题解决...
同事最近被安排整理资料,主要工作室将文档中的表格数据提取出来并整理层Excel表格供我们FII刀具商城进行资料维护.由于刀具的种类繁多且规格无数,所以要处理的数据量相当的庞大.人工核对整理既费时又费力 ...
- python docx 设置表格字体和格式_python-docx修改已存在的Word文档的表格的字体格式方法...
搞了好几天的表格字体格式,一直想找一种能直接一次性修改表格所有字体格式的方法(函数),但是无论用什么方法都无法修改表格字体的格式,原因应该是已存在的文档本身就具有某种格式限制,制约着里面表格里面字体格 ...
- python可以做表格文档吗_生活中的python-利用python-docx自动生成表格简化工作流程...
因为工作原因,需要经常往两个word模板里填写内容并生成新的word文件,模板大致如下图: 老的工作流程: 打开两个表,在表中对应位置填写个人信息,保存.这样一来,当需要填写的信息比较多的时候,工作就 ...
- python docx 设置表格字体和格式,python-docx修改已存在的Word文档的表格的字体格式方法...
搞了好几天的表格字体格式,一直想找一种能直接一次性修改表格所有字体格式的方法(函数),但是无论用什么方法都无法修改表格字体的格式,原因应该是已存在的文档本身就具有某种格式限制,制约着里面表格里面字体格 ...
- python 处理时间格式:将时间转化为datetime的格式的dataframe时报错
datetime之死亡报错 TypeError: <class 'datetime.time'> is not convertible to datetime 数据如图: PyCharm用 ...
- pyspark dataframe数据连接(join)、转化为pandas dataframe、基于多个字段删除冗余数据
pyspark dataframe数据连接(join).转化为pandas dataframe.基于多个字段删除冗余数据 目录 pyspark dataframe数据连接(join).转化为panda ...
- pandas将dataframe原有的数据列名称转化为整数数值列名称(convert dataframe column labelsl into integers)
pandas将dataframe原有的数据列名称转化为整数数值列名称(convert dataframe column labelsl into integers) 目录 pandas将datafra ...
- pandas使用iteritems函数迭代地查看dataframe中的每个数据列(iterate over each column of a dataframe)
pandas使用iteritems函数迭代地查看dataframe中的每个数据列(iterate over each column of a dataframe) 目录 pandas使用iterite ...
最新文章
- Per Johansson:经济学中自然实验和准实验 | 周日直播·因果科学读书会
- Only Available on April 1st
- jQuery基础---filter()和find()
- 51单片机多任务操作系统的原理与实现
- matlab通过“ideal_lp设计理想高通滤波器_常见低通、高通、带通三种滤波器的工作原理...
- Skywalking-05:在Skywalking RocketBot上添加监控图表
- 常用正则表达式 (转)
- 尚硅谷大数据技术之Flume
- 机器学习实战 基于_资料 |《机器学习实战:基于 Scikit-Learn、Keras 和 TensorFlow(第二版)》...
- 如何快速调出软键盘_怎样打开电脑软键盘,打开软键盘快捷键
- Emulex着眼数据中心LAN与SAN的聚合
- PageOffice 在线打开 word 文件实现痕迹保留、键盘批注、手写批注
- 记微信小程序动态表单实现
- python绘制三维地形shade()参数_python中的Matplot库和Gdal库绘制富士山三维地形图-参考了虾神的喜马拉雅山...
- VB中LCASE与UCASE
- 成功案例 | 助力贵州省国家税务局从VMware无缝迁移至国产化安超云平台
- js中的设计模式之中介者模式
- Linux 的 sendfile
- SAP-QM中途取消检验类型+质检变成非限制
- WindowsMessage