上一节学习了如何解析网页,说白了就是怎么将一个html文件中的信息提取出来,当然这需要有一定的html基础,这样对于一些标签的使用更加的容易和方便一些。解析来要学习的内容就是上节提到的比较常用而且比较重要的一个东西:正则表达式。然后讲一下如何将数据存储到excel表格当中。

目录

  • 一、正则表达式
    • 代码测试
  • 二、保存数据
    • 代码测试
  • 总结

一、正则表达式

正则表达式简单来说就是:判断一个字符串是否符合一定的标准,当然这个标准就是我们想要爬取到的信息。利用正则表达式将我们想要提取的信息样式表达出来,然后直接匹配爬取即可!

代码测试

首先需要引入一个包:re,然后创建一个标准,和目标字符串进行比对。

当然比较常见的正则表达式都可以在网上查到,只需要知道用法,会写一些基本的正则表达式即可。

# 正则表达式:字符串模式(判断字符串是否符合一定的标准)import re
# 创建模式对象
pat = re.compile("AA")  # 此处的AA,是正则表达式,用来去验证其他表达式
m = pat.search("CBAA")  # search字符串被校验的内容# 简写(没有模式对象)
m = re.search("asd", "ffasd")
print(m)print(re.findall("a", "ASDaDFDAa"))   # 前面是正则表达式,后面是要校验的字符串print(re.findall("[A-Z]", "ASDaDFDAa"))   # 找大写字母print(re.findall("[A-Z]+", "ASDaDFDAaS"))   # 把连起来的大写字母找出来print(re.sub("a", "A", "abcdcasd"))  # 找到a用A替换(在第三个字符串中)# 建议在正则表达式中,被比较的字符串前面加上r,不用担心转义字符的问题
a = r"\aabd-\'"
print(a)

二、保存数据

爬取到了数据之后,我们如果想要将数据保存起来也有很多种方法,比如excel表,数据库等等,这里我先学习了比较简单的一种方法,就是存入excel表格当中,存入数据库后面再学习。

代码测试

这里首先也需要引入一个包:xlwt,然后先创建一个workbok对象,在这个对象下面创建一个sheet工作表,利用write函数将对应矩阵位置的数据写入即可,最后进行save保存。

下面我写了一个九九乘法表,作为一个实例。

import xlwtworkbook = xlwt.Workbook(encoding="utf-8")  # 创建workbook对象
worksheet = workbook.add_sheet('sheet1')  # 创建工作表for i in range(1, 10):for j in range(1, 10):if i >= j:worksheet.write(i-1, j-1, "%d * %d = %d"%(i, j, i*j))workbook.save('student.xls')

总结

从爬取网页,到后面数据的解析,再到数据的保存,基本的内容已经学习完了,那么接下来就是对我们想要的数据进行爬取并且保存了。下一篇我将会对豆瓣电影Top250的一些电影信息进行爬取并且保存。

Python爬虫:正则表达式的应用以及数据保存到excel表相关推荐

  1. python爬虫: 爬取boss网站数据 保存到mysql

    爬取boss数据并保存到mysql boss的反爬虫控制尤其恶心 cookies大概用3次左右就不能用了 所以爬取不了太多东西 只可用来学习 等学习完逆向爬虫课程 再来挑战挑战 example.py ...

  2. Scrapy中将数据保存到Excel和MySQL中

    目录标题 1. Excel 1.1 openpyxl 1.1.1 代码说明 1.1.2 注意 1.2 pandas 1.2.1 代码说明 1.2.2 常见错误 1.3 openpyxl和pandas对 ...

  3. Python--爬虫爬取的数据保存到excel

    Python–爬虫爬取的数据保存到excel 文章目录 Python--爬虫爬取的数据保存到excel 一.excel表格存储 二.python3.9没有自带的xlwt模块和xlrd,需要自行下载 三 ...

  4. 【Arduino串口数据保存到excel中常用三种方法】

    [Arduino串口数据保存到excel中常用三种方法] 1. 前言 2. 利用excel自带Data Streamer读取 2.1 启用 Data Streamer 加载项 2.2 刷写代码并将微控 ...

  5. 将爬取的数据保存到Excel表格

    第一步.导入模块 import xlwt # 导入写入excel需要的包 第二步.定义函数,将爬取好的数据保存到excel文件中,下面以保存python的关键词为例,介绍详细流程. def write ...

  6. JAVA中将数据保存到EXCEL文件

    java后端将数据库中数据或前端传来的数据保存到EXCEL文件中.代码中有详细注解. 依赖包 <dependency><groupId>org.apache.poi</g ...

  7. 如何将网页内容保存到计算机中,如何将网站导出excel表格数据-如何把网页数据保存到EXCEL...

    网页上的表格数据怎么复制到excel 1.打开excel表格. 2.打开菜单"数据->"导入外部数据"->"新建 Web 查询",在&qu ...

  8. 将DataTable中的数据保存到Excel

    如何快速将DataTable中的数据保存到Excel 遇到的问题 ① 保存到Excel的时间比较长,用户体验差 ② 保存失败(原因:Excel程序打开:或前一次调用Excel线程没有关闭,等) 开发环 ...

  9. python 发票信息提取_Python提取发票内容保存到Excel.md

    Python提取PDF发票内容保存到Excel --- 摘要:这篇文章介绍如何把发票内容提取出来保存到Excel中.文章分为两个部分,第一部分程序用法,第二部分介绍代码. --- 作者:yooongc ...

最新文章

  1. GridView中HyperLinkField的链接使用JavaScript问题
  2. 使用wsimport生成本地调用代码
  3. xss绕过字符过滤_XSS过滤器绕过总结
  4. 17.IDA-基本块的定义
  5. PAT(乙级)1009
  6. Vim自动补全神器:YouCompleteMe
  7. 2020字符串的插入(C++,stringchar*)
  8. python itchat 无法登录_项目分享|5步教你用Python制作朋友圈个性签名
  9. Win-MASM64汇编语言-NEG指令
  10. sql 183. 从不订购的客户
  11. napa与matlab,纳帕谷产区Napa Valley|酒斛网 - 与数十万葡萄酒爱好者一起发现美酒,分享微醺的乐趣...
  12. 00后程序员摸爬滚打近一年,为学弟学妹们总结出了以下 7 条人生建议(建议收藏)
  13. python基础教程 ppt_Python基础教程第2章ppt
  14. CCIE一年后的心语
  15. 计算机网络之Dos、DDos攻击
  16. ffmpeg C代码音频解码
  17. HNOI2006 潘多拉的盒子
  18. 做软件的也得注意休息啊
  19. 两个矩阵的相加和相乘
  20. linux专题一之文件归档和压缩(tar、file、zip)

热门文章

  1. 删除 R 中的列中的重复行
  2. ExcelWriter BigExcelWriter 指定列宽
  3. 苹果手机看电流判断故障
  4. Flutter 绘制波浪移动动画效果,曲线和折线图
  5. 读懂华为新影像文化倡导“人人都是摄影大师”
  6. MySQL数据库入门-新手常见问题答疑
  7. mysql optimize原理_MySQL数据库入门:表的Optimize 优化
  8. 合并两个list 并去重
  9. Perl语言创始人-Larry Wall
  10. Towards Unsupervised Text Classification Leveraging Experts and Word Embeddings