python实现

html转Dataframe
1 html转化为markdown 用来写博客
2 markdown表格转dataframe 更好数据分析
3 dataframe转字典 更好插入mongoDB非关系型数据库

html2text把请求到的html转化为markdown

import html2text
html2text_result = html2text.html2text(response.text).

markdown表格转dataframe 更好数据分析

准确切出markdown的表格

 html2text_result = html2text.html2text(response.text).split("\n  \n")[1]print(html2text_result)
序号 企业名称 所在地 证书编号 资质等级 证书状态
581 陕西绿色置业有限责任公司 陕西省 陕建房[2022]1383号 二级 有效
582 西安航天城凌翼产业园开发有限公司 陕西省 陕建房[2022]1396号 二级 有效
583 石泉县泉友房地产有限责任公司 陕西省 陕建房[2022]1377号 二级 有效
584 陕西鸿兴泰地产有限公司 陕西省 陕建房[2022]1374号 二级 有效
585 陕西赛高企业发展有限公司 陕西省 陕建房[2022]1376号 二级 有效
586 宝鸡志宏房地产开发有限责任公司 陕西省 陕建房[2022]1382号 二级 有效
html2text_result=text.split("\n  \n")[0].split("企业名称:")[1].strip()
print(html2text_result)
企业名称 企业类型 申请事项 申请内容 办结结果 公告时间
陕西万众控股集团有限公司 房地产企业 重新核定 二级 予以许可 2022-09-21
陕西安阳丽舍置业集团有限公司 房地产企业 重新核定 二级 予以许可 2022-09-21
白河荣洲建设投资有限公司 房地产企业 重新核定 二级 予以许可 2022-09-21
陕西中建业晟置业有限公司 房地产企业 新办 二级 予以许可 2022-09-21
杨凌明海丰置业有限责任公司 房地产企业 新办 二级 予以许可 2022-09-21
西安浐灞生态区恒隆实业有限公司 房地产企业 重新核定 二级 予以许可 2022-09-21
陕西汉强房地产开发有限公司 房地产企业 重新核定 二级 予以许可 2022-09-21
陕西建工桢州置业有限公司 房地产企业 新办 二级 予以许可 2022-09-21
榆林市佳辰置业有限公司 房地产企业 重新核定 二级 予以许可 2022-09-21
陕西正德康养置业有限公司 房地产企业 重新核定 二级 予以许可 2022-09-21

根据规则切分

类型一

 md_table = html2text_resultresult = []for n, line in enumerate(md_table[1:-1].split('\n')):data = {}if n == 0:header = [t.strip() for t in line.split('|')[1:-1]]if n > 1:values = [t.strip() for t in line.split('|')[1:-1]]for col, value in zip(header, values):data[col] = valueresult.append(data)items["imgList"] = dataresult_df = pd.DataFrame(result)

类型二

import pandas as pd
md_table = html2text_result
result = []
for n, line in enumerate(md_table.split('\n')):data = {}if n == 0:header = [t.strip() for t in line.split('|')]#[0:-1]print(header)if n > 1:values = [t.strip() for t in line.split('|')]#[0:-1]for col, value in zip(header, values):data[col] = valueresult.append(data)# items["imgList"] = data
result_df = pd.DataFrame(result)

dataframe转字典

        result_df = pd.DataFrame(result)result_df.columns = ["enterpriseName", "regionFullname", "Application_items", "certname","Handling_result","Announcement_time"]result_dict=result_df.to_dict(orient='records')for k in result_dict:dictshanxi = {"legalMan": "-","uniscId": "--","regionFullname": k["regionFullname"],"enterpriseName": k["enterpriseName"],"districtCode": region_name_to_Region_code(k["regionFullname"]),"Handling_result":k["Handling_result"],"Announcement_time": k["Announcement_time"],"Application_items":k["Application_items"],"certList1": [{"certId": "--","pubDate": "--","endDate": "--","certType": "房地产开发","pubDepartment": "陕西省住房和城乡建设厅","certName": k["certname"]}]}

{
“_id”: ObjectId(“632e73cd8d93bb2dd048ca6f”),
“legalMan”: “-”,
“uniscId”: “–”,
“regionFullname”: “房地产企业”,
“enterpriseName”: “西乡县昌鑫房地产开发有限责任公司”,
“districtCode”: “–”,
“Handling_result”: “予以许可”,
“Announcement_time”: “2022-09-23”,
“Application_items”: “重新核定”,
“certList1”: [
{
“certId”: “–”,
“pubDate”: “–”,
“endDate”: “–”,
“certType”: “房地产开发”,
“pubDepartment”: “陕西省住房和城乡建设厅”,
“certName”: “二级”
}
]
}

python实现 html表格转Dataframe html2text把请求到的html转化为markdown markdown表格转dataframe相关推荐

  1. python使用fpdf生成发票格式的pdf文件包含:文字、图片logo、表格、条形码等;

    python使用fpdf生成发票格式的pdf文件包含:文字.图片logo.表格.条形码等: pip install fpdf #python使用fpdf生成发票格式的pdf文件包含:文字.图片logo ...

  2. python合并word表格单元格_Python实战009:读取Word文档中的表格数据及表格合并问题解决...

    同事最近被安排整理资料,主要工作室将文档中的表格数据提取出来并整理层Excel表格供我们FII刀具商城进行资料维护.由于刀具的种类繁多且规格无数,所以要处理的数据量相当的庞大.人工核对整理既费时又费力 ...

  3. python docx 设置表格字体和格式_python-docx修改已存在的Word文档的表格的字体格式方法...

    搞了好几天的表格字体格式,一直想找一种能直接一次性修改表格所有字体格式的方法(函数),但是无论用什么方法都无法修改表格字体的格式,原因应该是已存在的文档本身就具有某种格式限制,制约着里面表格里面字体格 ...

  4. python可以做表格文档吗_生活中的python-利用python-docx自动生成表格简化工作流程...

    因为工作原因,需要经常往两个word模板里填写内容并生成新的word文件,模板大致如下图: 老的工作流程: 打开两个表,在表中对应位置填写个人信息,保存.这样一来,当需要填写的信息比较多的时候,工作就 ...

  5. python docx 设置表格字体和格式,python-docx修改已存在的Word文档的表格的字体格式方法...

    搞了好几天的表格字体格式,一直想找一种能直接一次性修改表格所有字体格式的方法(函数),但是无论用什么方法都无法修改表格字体的格式,原因应该是已存在的文档本身就具有某种格式限制,制约着里面表格里面字体格 ...

  6. python 处理时间格式:将时间转化为datetime的格式的dataframe时报错

    datetime之死亡报错 TypeError: <class 'datetime.time'> is not convertible to datetime 数据如图: PyCharm用 ...

  7. pyspark dataframe数据连接(join)、转化为pandas dataframe、基于多个字段删除冗余数据

    pyspark dataframe数据连接(join).转化为pandas dataframe.基于多个字段删除冗余数据 目录 pyspark dataframe数据连接(join).转化为panda ...

  8. pandas将dataframe原有的数据列名称转化为整数数值列名称(convert dataframe column labelsl into integers)

    pandas将dataframe原有的数据列名称转化为整数数值列名称(convert dataframe column labelsl into integers) 目录 pandas将datafra ...

  9. pandas使用iteritems函数迭代地查看dataframe中的每个数据列(iterate over each column of a dataframe)

    pandas使用iteritems函数迭代地查看dataframe中的每个数据列(iterate over each column of a dataframe) 目录 pandas使用iterite ...

最新文章

  1. Per Johansson:经济学中自然实验和准实验 | 周日直播·因果科学读书会
  2. Only Available on April 1st
  3. jQuery基础---filter()和find()
  4. 51单片机多任务操作系统的原理与实现
  5. matlab通过“ideal_lp设计理想高通滤波器_常见低通、高通、带通三种滤波器的工作原理...
  6. Skywalking-05:在Skywalking RocketBot上添加监控图表
  7. 常用正则表达式 (转)
  8. 尚硅谷大数据技术之Flume
  9. 机器学习实战 基于_资料 |《机器学习实战:基于 Scikit-Learn、Keras 和 TensorFlow(第二版)》...
  10. 如何快速调出软键盘_怎样打开电脑软键盘,打开软键盘快捷键
  11. Emulex着眼数据中心LAN与SAN的聚合
  12. PageOffice 在线打开 word 文件实现痕迹保留、键盘批注、手写批注
  13. 记微信小程序动态表单实现
  14. python绘制三维地形shade()参数_python中的Matplot库和Gdal库绘制富士山三维地形图-参考了虾神的喜马拉雅山...
  15. VB中LCASE与UCASE
  16. 成功案例 | 助力贵州省国家税务局从VMware无缝迁移至国产化安超云平台
  17. js中的设计模式之中介者模式
  18. Linux 的 sendfile
  19. SAP-QM中途取消检验类型+质检变成非限制
  20. WindowsMessage

热门文章

  1. 江西师范大学计算机考研资料汇总
  2. 软件内每日提醒功能,可整合到工程中
  3. 黑苹果hidp显示不清楚_macOS开启HiDPI外接2K显示器(解决字体发虚问题)
  4. 2015华为机试题整理
  5. 视频直播技术——编码和封装
  6. 大部分工业机器人都采用二级计算机控制,焊接机器人示教器解读.ppt
  7. html页面实现登录验证码功能(纯前端)
  8. 魔金(1)——螺丝锁、笼中取刺、蛇口逃生
  9. ad域搭建文件共享服务器搭建,实战演练AD域搭建文件共享服务器方法
  10. 【AI 人工智能】大型语言模型的实现技术原理与应用