注:本文仅列举的实例,基础知识网上一搜一大把,这里不赘述了。

1. Python爬虫中的使用

这里面使用比较简单,作为入门用的,比如爬取首页的侧边栏的链接与对应名字:

import re

Import requests

def test__re():

response = requests.get('https://www..net/')

pat = r'

(.*?)'

rst_lst = re.compile(pat).findall(response.text)

print(rst_lst)

可以看出,findall返回是一个列表类型,每一个内容项是一个元祖。

2. JS表单验证

此处对经常提交的3个内容 账号、密码、邮箱这三个进行示例

在此处,我们设定账号仅为字母与数字,而密码为任意字符,邮箱为一般规范。

在JS里面,正则使用//括起来。

账号: 8-16位的有效字符

密码: 6-18位的任意字符

邮箱:

function doSubmit(){

var name = document.re_test.uname.value;

if (name.match(/^\w{8,16}$/) == null){

alert("必须为8-16位的字母或数字!");

return false;

}

var upass = document.re_test.upass.value;

if (upass.match(/^.{6,18}$/) == null){

alert("必须为6-18的任意字符!");

return false;

}

var email = document.re_test.email.value;

if (email.match(/^\w+@\w+(\.\w+){1,3}$/) == null){

alert("email error");

return false;

}

alert("验证通过!")

return true;

}

需要注意的是,在email中,后面可能出现多次“.” 比如 hehe@126.com.cn ,所以这次运行出现1-3次。

3. 在mysql中使用正则表达式

在user表单中,寻找仅含有2个小写字母的name

Mysql> select * from user where name regexp ‘^[a-z]{2}$’

在user表单中,寻找仅含有2个小写字母和2位数字的name

Mysql> select * from user where name regexp ‘^[a-z]{2}[0-9]{3}$’

注意:^$符合必须加上,否则为包含关系(亲可以自己测试下)

4. 数据清洗建模

我们从网上爬取了大量的数据后,需要获取有益的信息,如图中Out[3]中,从路线信息中我们需要获取旅行项目的天数信息以及价格信息,而从酒店新中我们要获得酒店分数和酒店类型。

假设我们获取的信息保存在*.csv 文件中(文后提供几条数据用于测试)

其中一条CSV信息为:

出发地,目的地,路线信息,酒店信息

杭州,丽江,"机酒自由行

丽江5日自由行,入住丽江添富太和休闲度假酒店+接送机,品古城文化,享至尊服务,良辰美景,一网打尽!spa/按摩5天4晚|天天出发|飞机|舒适游1888起/人","4.4分 高档型"

获取这些信息如In[7]所示,可以知道正则表达式还是比较容易获取的,我们把获取的新的信息生成新的字段,如图out[7]所示

怎么样,正则使用领域还是挺广泛的吧,希望这篇博文能拓宽你对正则表达式的视野;

附几条 CSV 参考信息:

出发地,目的地,路线信息,酒店信息

杭州,丽江,"机酒自由行

丽江5日自由行,入住丽江添富太和休闲度假酒店+接送机,品古城文化,享至尊服务,良辰美景,一网打尽!

spa/按摩

5天4晚|天天出发|飞机|舒适游

1888起/人","4.4分

高档型"

杭州,丽江,"机酒自由行

丽江6日自由行,入住丽江添富太和休闲度假酒店+接送机,品古城文化,享至尊服务,良辰美景,一网打尽!

6天5晚|天天出发|飞机|舒适游

1872起/人","4.4分

高档型"

杭州,丽江,"机酒自由行

丽江+香格里拉 丽江+香格里拉6日自由行,机票+特色客栈,丽江往返+接机

特色客栈

6天5晚|天天出发|飞机|经济游

1517起/人","4.4分

经济型"

杭州,丽江,"机酒自由行

丽江+大理 丽江、大理双城6天自由行,3晚丽江特色客栈,2晚大理洱海边客栈,赠送丽江接机服务,行程自己做主,悠闲假期,彩云之南!

海边客栈特色客栈

6天5晚|天天出发|飞机|经济游

1612起/人","4.4分

经济型"

杭州,丽江,"机酒自由行

丽江5日自由行,入住丽江听心祥和院+接送机

5天4晚|天天出发|飞机|舒适游

1740起/人","4.7分

高档型"

杭州,丽江,"机酒自由行

丽江+泸沽湖6日自由行,机票+特色客栈,丽江往返+接机

特色客栈

6天5晚|天天出发|飞机|经济游

1669起/人","4.4分

经济型"

杭州,丽江,"机酒自由行

丽江+大理 丽江、大理6天5晚自由行,丽江进大理出,不走回头路

6天5晚|飞机|经济游

1703起/人","4.4分

经济型"

爬虫mysql数据清洗_正则表达式在Python爬虫、JavaScript、MySQL数据库、数据清洗建模等方面的使用实例...相关推荐

  1. python爬虫获取方法_小白学python爬虫:2.获得数据

    在上一篇文章我我们已经完成了对网页的分析,包括了:在源码中数据的定位:获取方法(xpath).那么在获得数据之前我们考虑的则是如何获取源码. 接下来我们将学习如何从服务器获得源码. #写在前面&quo ...

  2. python爬虫论坛代码_如何使用Python爬虫 抓取论坛关键字出现频率!

    前言: 之前学习了用python爬虫的基本知识,现在计划用爬虫去做一些实际的数据统计功能.由于前段时间演员的诞生带火了几个年轻的实力派演员,想用爬虫程序搜索某论坛中对于某些演员的讨论热度,并按照日期统 ...

  3. python3爬虫项目代码_三个python爬虫项目实例代码

    这篇文章主要介绍了三个python爬虫项目实例代码,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 爬取内涵段子: #encoding=utf-8 i ...

  4. python爬虫网络中断_如何解决Python爬虫中的网络掉线问题?

    在学校里的时候,除了上课,还有一大幸福的事情,就是用着学校的网线网络.当然玩的时候很开心,就是没事关键词时刻掉链子.时不时地网络掉线让人非常恼火,什么团战在梦游啊,看剧卡住不动了,相信能引起很多小伙伴 ...

  5. python爬虫未来发展趋势_什么是Python爬虫?有什么应用空间?-未来数据科技关于礼的诗句...

    网友评论: 网络爬虫为一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成.传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面 ...

  6. python爬虫实际应用_如何使用python爬虫论坛?

    除了之前跟大家讲述过的视频.音乐以及时事新闻,关于爬虫可以做的事情有很多很多,像论坛也是其中之一,应用最火的内容,之前给大家罗列的爬虫实际内容有很多,但是还是希望将每个实际内容都跟大家说一下.让大家在 ...

  7. python爬虫经典段子_玩转python爬虫之爬取糗事百科段子

    大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...

  8. python爬虫登录网站_主流网站 Python 爬虫模拟登陆方法汇总

    欢迎关注我的公众号:高级农民工,博客:高级农民工,阅读体验更好. 摘要:介绍微信.知乎.新浪等一众主流网站的模拟登陆爬取方法. 网络上有形形色色的网站,不同类型的网站爬虫策略不同,难易程度也不一样.从 ...

  9. python抓取网页电话号码_利用正则表达式编写python 爬虫,抓取网页电话号码!...

    利用正则表达式编写python 爬虫,抓取网页联系我们电话号码!这里以九奥科技(www.jiuaoo.com)为例,抓取'联系我们'里面的电话号码,并输出. #!/usrweilie/bin/pyth ...

最新文章

  1. 微软职位内部推荐-Senior Software Engineer II-Search
  2. Android 动态生成 EditTest
  3. 基于visual Studio2013解决面试题之1002公共子串
  4. 手持gps坐标转换参数求解方法及在excel中的实现_怎么在GIS office 软件中批量导入坐标点位...
  5. 【华为云技术分享】【Python算法】分类与预测——支持向量机
  6. win10动态壁纸怎么设置_电脑怎么设置动态桌面
  7. 在linux安装docker以及docker的常用命令(一)
  8. 数据库学生信息管理系统
  9. MySQL 每周总结(4周)
  10. Endnote X6大客户版破解版+新功能介绍+视频介绍
  11. 不管怎么换相,电机始终反转 。这是怎么回事?
  12. 显著目标检测的研究思路
  13. 2017 东北四省赛热身赛 C
  14. 第二章第十六题(几何:六边形面积)(Geometry: area of a hexagon)
  15. 沐风:了不起的便利店
  16. 约瑟夫环 有15个人围成一圈,按顺序淘汰
  17. Kettle 通俗易懂讲明白值映射
  18. 淘宝搜索技术代码你知多少
  19. JS一个元素怎么绑定多个事件
  20. 寻宝机器人电路板焊接_寻宝活动——组装机器人

热门文章

  1. python-docx 实现分栏
  2. python课程设计的主要任务_清华大学出版社-图书详情-《Python课程设计-微课视频版》...
  3. HVR数据复制软件部署之(一)--HUB端部署
  4. 多多客开源版,微信开放平台的小程序SaaS 系统,基于doodoo.js,vue.js
  5. Java实现万年历/日历
  6. VMware虚拟机IP地址不分配
  7. neo4j-admin 海量数据入库教程研究
  8. 台电 平板电脑 html,匠心新旗舰 台电T20平板电脑正式发布
  9. 计算机配件如何买到新品正品,组装电脑:朋友网上买硬件去电脑店组装,这配置怎么看怎么别扭...
  10. xgboost 逻辑回归:objective参数(reg:logistic,binary:logistic,binary:logitraw,)对比分析