爬虫mysql数据清洗_正则表达式在Python爬虫、JavaScript、MySQL数据库、数据清洗建模等方面的使用实例...
注:本文仅列举的实例,基础知识网上一搜一大把,这里不赘述了。
1. Python爬虫中的使用
这里面使用比较简单,作为入门用的,比如爬取首页的侧边栏的链接与对应名字:
import re
Import requests
def test__re():
response = requests.get('https://www..net/')
pat = r'
(.*?)'
rst_lst = re.compile(pat).findall(response.text)
print(rst_lst)
可以看出,findall返回是一个列表类型,每一个内容项是一个元祖。
2. JS表单验证
此处对经常提交的3个内容 账号、密码、邮箱这三个进行示例
在此处,我们设定账号仅为字母与数字,而密码为任意字符,邮箱为一般规范。
在JS里面,正则使用//括起来。
账号: 8-16位的有效字符
密码: 6-18位的任意字符
邮箱:
function doSubmit(){
var name = document.re_test.uname.value;
if (name.match(/^\w{8,16}$/) == null){
alert("必须为8-16位的字母或数字!");
return false;
}
var upass = document.re_test.upass.value;
if (upass.match(/^.{6,18}$/) == null){
alert("必须为6-18的任意字符!");
return false;
}
var email = document.re_test.email.value;
if (email.match(/^\w+@\w+(\.\w+){1,3}$/) == null){
alert("email error");
return false;
}
alert("验证通过!")
return true;
}
需要注意的是,在email中,后面可能出现多次“.” 比如 hehe@126.com.cn ,所以这次运行出现1-3次。
3. 在mysql中使用正则表达式
在user表单中,寻找仅含有2个小写字母的name
Mysql> select * from user where name regexp ‘^[a-z]{2}$’
在user表单中,寻找仅含有2个小写字母和2位数字的name
Mysql> select * from user where name regexp ‘^[a-z]{2}[0-9]{3}$’
注意:^$符合必须加上,否则为包含关系(亲可以自己测试下)
4. 数据清洗建模
我们从网上爬取了大量的数据后,需要获取有益的信息,如图中Out[3]中,从路线信息中我们需要获取旅行项目的天数信息以及价格信息,而从酒店新中我们要获得酒店分数和酒店类型。
假设我们获取的信息保存在*.csv 文件中(文后提供几条数据用于测试)
其中一条CSV信息为:
出发地,目的地,路线信息,酒店信息
杭州,丽江,"机酒自由行
丽江5日自由行,入住丽江添富太和休闲度假酒店+接送机,品古城文化,享至尊服务,良辰美景,一网打尽!spa/按摩5天4晚|天天出发|飞机|舒适游1888起/人","4.4分 高档型"
获取这些信息如In[7]所示,可以知道正则表达式还是比较容易获取的,我们把获取的新的信息生成新的字段,如图out[7]所示
怎么样,正则使用领域还是挺广泛的吧,希望这篇博文能拓宽你对正则表达式的视野;
附几条 CSV 参考信息:
出发地,目的地,路线信息,酒店信息
杭州,丽江,"机酒自由行
丽江5日自由行,入住丽江添富太和休闲度假酒店+接送机,品古城文化,享至尊服务,良辰美景,一网打尽!
spa/按摩
5天4晚|天天出发|飞机|舒适游
1888起/人","4.4分
高档型"
杭州,丽江,"机酒自由行
丽江6日自由行,入住丽江添富太和休闲度假酒店+接送机,品古城文化,享至尊服务,良辰美景,一网打尽!
6天5晚|天天出发|飞机|舒适游
1872起/人","4.4分
高档型"
杭州,丽江,"机酒自由行
丽江+香格里拉 丽江+香格里拉6日自由行,机票+特色客栈,丽江往返+接机
特色客栈
6天5晚|天天出发|飞机|经济游
1517起/人","4.4分
经济型"
杭州,丽江,"机酒自由行
丽江+大理 丽江、大理双城6天自由行,3晚丽江特色客栈,2晚大理洱海边客栈,赠送丽江接机服务,行程自己做主,悠闲假期,彩云之南!
海边客栈特色客栈
6天5晚|天天出发|飞机|经济游
1612起/人","4.4分
经济型"
杭州,丽江,"机酒自由行
丽江5日自由行,入住丽江听心祥和院+接送机
5天4晚|天天出发|飞机|舒适游
1740起/人","4.7分
高档型"
杭州,丽江,"机酒自由行
丽江+泸沽湖6日自由行,机票+特色客栈,丽江往返+接机
特色客栈
6天5晚|天天出发|飞机|经济游
1669起/人","4.4分
经济型"
杭州,丽江,"机酒自由行
丽江+大理 丽江、大理6天5晚自由行,丽江进大理出,不走回头路
6天5晚|飞机|经济游
1703起/人","4.4分
经济型"
爬虫mysql数据清洗_正则表达式在Python爬虫、JavaScript、MySQL数据库、数据清洗建模等方面的使用实例...相关推荐
- python爬虫获取方法_小白学python爬虫:2.获得数据
在上一篇文章我我们已经完成了对网页的分析,包括了:在源码中数据的定位:获取方法(xpath).那么在获得数据之前我们考虑的则是如何获取源码. 接下来我们将学习如何从服务器获得源码. #写在前面&quo ...
- python爬虫论坛代码_如何使用Python爬虫 抓取论坛关键字出现频率!
前言: 之前学习了用python爬虫的基本知识,现在计划用爬虫去做一些实际的数据统计功能.由于前段时间演员的诞生带火了几个年轻的实力派演员,想用爬虫程序搜索某论坛中对于某些演员的讨论热度,并按照日期统 ...
- python3爬虫项目代码_三个python爬虫项目实例代码
这篇文章主要介绍了三个python爬虫项目实例代码,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 爬取内涵段子: #encoding=utf-8 i ...
- python爬虫网络中断_如何解决Python爬虫中的网络掉线问题?
在学校里的时候,除了上课,还有一大幸福的事情,就是用着学校的网线网络.当然玩的时候很开心,就是没事关键词时刻掉链子.时不时地网络掉线让人非常恼火,什么团战在梦游啊,看剧卡住不动了,相信能引起很多小伙伴 ...
- python爬虫未来发展趋势_什么是Python爬虫?有什么应用空间?-未来数据科技关于礼的诗句...
网友评论: 网络爬虫为一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成.传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面 ...
- python爬虫实际应用_如何使用python爬虫论坛?
除了之前跟大家讲述过的视频.音乐以及时事新闻,关于爬虫可以做的事情有很多很多,像论坛也是其中之一,应用最火的内容,之前给大家罗列的爬虫实际内容有很多,但是还是希望将每个实际内容都跟大家说一下.让大家在 ...
- python爬虫经典段子_玩转python爬虫之爬取糗事百科段子
大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...
- python爬虫登录网站_主流网站 Python 爬虫模拟登陆方法汇总
欢迎关注我的公众号:高级农民工,博客:高级农民工,阅读体验更好. 摘要:介绍微信.知乎.新浪等一众主流网站的模拟登陆爬取方法. 网络上有形形色色的网站,不同类型的网站爬虫策略不同,难易程度也不一样.从 ...
- python抓取网页电话号码_利用正则表达式编写python 爬虫,抓取网页电话号码!...
利用正则表达式编写python 爬虫,抓取网页联系我们电话号码!这里以九奥科技(www.jiuaoo.com)为例,抓取'联系我们'里面的电话号码,并输出. #!/usrweilie/bin/pyth ...
最新文章
- 微软职位内部推荐-Senior Software Engineer II-Search
- Android 动态生成 EditTest
- 基于visual Studio2013解决面试题之1002公共子串
- 手持gps坐标转换参数求解方法及在excel中的实现_怎么在GIS office 软件中批量导入坐标点位...
- 【华为云技术分享】【Python算法】分类与预测——支持向量机
- win10动态壁纸怎么设置_电脑怎么设置动态桌面
- 在linux安装docker以及docker的常用命令(一)
- 数据库学生信息管理系统
- MySQL 每周总结(4周)
- Endnote X6大客户版破解版+新功能介绍+视频介绍
- 不管怎么换相,电机始终反转 。这是怎么回事?
- 显著目标检测的研究思路
- 2017 东北四省赛热身赛 C
- 第二章第十六题(几何:六边形面积)(Geometry: area of a hexagon)
- 沐风:了不起的便利店
- 约瑟夫环 有15个人围成一圈,按顺序淘汰
- Kettle 通俗易懂讲明白值映射
- 淘宝搜索技术代码你知多少
- JS一个元素怎么绑定多个事件
- 寻宝机器人电路板焊接_寻宝活动——组装机器人
热门文章
- python-docx 实现分栏
- python课程设计的主要任务_清华大学出版社-图书详情-《Python课程设计-微课视频版》...
- HVR数据复制软件部署之(一)--HUB端部署
- 多多客开源版,微信开放平台的小程序SaaS 系统,基于doodoo.js,vue.js
- Java实现万年历/日历
- VMware虚拟机IP地址不分配
- neo4j-admin 海量数据入库教程研究
- 台电 平板电脑 html,匠心新旗舰 台电T20平板电脑正式发布
- 计算机配件如何买到新品正品,组装电脑:朋友网上买硬件去电脑店组装,这配置怎么看怎么别扭...
- xgboost 逻辑回归:objective参数(reg:logistic,binary:logistic,binary:logitraw,)对比分析