上一次小白已经得到了一个任劳任怨的网络小爬虫,要是不搞一波小事情似乎对不太起这个小爬虫,于是乎小白又鼓捣鼓捣参考各方大神的资料以倒排索引为基础原理设计了一个简答的搜索引擎。

之前的爬虫只是得到了网页的源码而没有做任何处理,乃是一个一次性的小爬虫,所以小白用正则表达式对网页内容进行匹配得到其中的网址,之后小爬虫就可以利用这个自生自灭至死方休的帮我们爬取网页拉,这里不得不提一下beautifulsoup和正则表达式了,据说beautifulsoup模块是一个网页爬取提取的利器,只可惜小宝在做完之后才听得大名万分遗憾没能试用一番,但是正则表达时小白可是切身的研究了一丢丢,熟练了(强行熟练)也是非常的好用,比如提取网页源码的网址:

    link_list = re.findall(r"(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\')", html)
    这一句就提出个七七八八来,当然这么粗糙鱼目混珠的情况也是少不了的,但是还是非常好用的,虽然看起来很复杂但是只要掌握了(?<)、(?=)、.、+、?这几种符号的用法小白觉得就可以解决大部分问题了,哦这里还有提一句,正则表达式似乎不支持嵌套的情形,大概形如“找到所有前面三个字符满足条件A的字符a,条件A是这三个字符前面的内容满足条件B”巴拉巴拉,好吧感觉说的好乱让我们暂且跳过这个话题。提取处理的匹配如果用findall是存储在列表中的,这样我们就可以在一个网页列表中一直加入新找到的链接一直重复爬取,小白这里自认为能力有限,所以就从提取中的网页链接爬取了100个网页做一个轻装版。这里提个醒,由于之前html链接提取的很粗糙,所以可能把各种形如网页链接的css文件路径、图片路径什么乱七八糟的给爬下来,不过我们这里就统一当作网页链接在一个try·except模块中进行connection,不是链接的就会出现异常我们只要捕获跳过就又可以愉快的继续了~~。
    有了爬取下来的网页内容下面就应该是得到其中真正呈现在网页中的东西了。写过网页的同学们都应该知道网页内容一般都在<p><\p>之中,title和链接什么的也有对应的标签,运用正则表单式理论上可以分离出来,不过小白亲身时间发现只匹配一次效果非常不好,匹配的内容的确包括想要的内容,但是因为标签一般都是嵌套的嘛而且小白技术毕竟也不好正则表达式可能表述的也有问题,所以总是会将内容嵌套在标签中返回,这里就有一个比较笨的方法供大家参考,咳咳,既然一次不能得到,那么就对内容进行再匹配,咳咳,经过了三层匹配外加一些小技巧终于是勉强匹配出来了,这里代码过于丑陋就不再贴出来了咳咳。

菜鸟成长记----做一个简易的搜索引擎相关推荐

  1. python发音机器人_只需三步,菜鸟也能用Python做一个简易版Siri

    原标题:只需三步,菜鸟也能用Python做一个简易版Siri 当下,各个手机厂商都陆续的推出了属于自己的智能手机机器人,像是苹果的Siri,小米的小爱,还有等等.这些智能机器人不仅仅方便了我们对于手机 ...

  2. 怎么用线程刷新 tkinter 进度条_tkinter做一个简易提词板(2)

    书接上文 花果山美男子:tkinter做一个简易提词板​zhuanlan.zhihu.com 上回说到,文字的动态效果还可以用after方法和StringVar来实现,今天我们就用它们来重新制作提词板 ...

  3. 使用vue-cli+element-ui+expsess+mysql做一个简易的登录功能

    使用vue-cli+element-ui+expsess+mysql做一个简易的登录功能 1使用webpack下载vue模板 vue init webpack aaa(aaa为项目名称) cd到aaa ...

  4. 用JS做一个简易的时间显示动态效果

    用JS做一个简易的时间显示动态效果 运行效果 代码 <!DOCTYPE html> <html lang="en"><head><meta ...

  5. 【新手向】Python做一个简易登录注册GUI界面(无事件绑定)

    Python做一个简易登录注册GUI界面 一,效果展示 (1)运行结果: (2)点击登录: 注:只有用户名:123 密码123456 会提示登录成功. 登录成功示范: 登录失败示范: (3)点击注册 ...

  6. 第三章:做一个简易登陆界面

    一.内容 做一个简易的登陆界面,包含: 1.有账号输入和密码输入 2.有登陆和取消按钮 3.密码要带有屏蔽功能 4.通过取消按钮讲一点槽函数的运用 二.创建工程(初次做这个小例程,附带上建工程的步骤) ...

  7. 用layui做一个简易的登录注册页面

    用layui做一个简易的登录注册页面 1.首先在主页绑定一个点击事件,点击登录按钮就可以弹出一个弹出窗,一般商场登录页面不会跳转一个新页面,因为如果进入一个新页面,登录后需要跳转会原来的页面,这样会导 ...

  8. 做一个简易计算器(VB版)

    今天小编来带大家用VB做一个简易计算器 废话不多说,下面就是具体步骤了 1.创建控件组的方法首先创建一个命令按钮,调整其大小(觉得合适就行),名称为Command1,Caption 属性为数字 0 : ...

  9. 如何用idea做一个简易的网页登录界面

    在上一节课的内容基础上做一个简易的网页登录界面--18级软工1班03 打开idea后打开上一节课的工程文件(一般在打开idea软件的同时,idea会默认打开上一次的文件)并在左边列表的main文件夹下 ...

最新文章

  1. 可视化深入理解损失函数与梯度下降 | 技术头条
  2. c3p0、dbcp、druid三大连接池对比
  3. 双数组 实现 Trie
  4. 次梯度法matlab代码,实例:连续化次梯度法解 LASSO 问题
  5. python 提取最小外接矩形_python给人脸带上口罩(简单版)
  6. Unity3D吐槽2--AnimationEvent
  7. ubuntu16下安装mongodb 3.6
  8. 学习python3(一)
  9. 如何保证kafka消息的可靠性传递?
  10. c语言错误码2,平方根2.我做过C语言的一些错误
  11. Activity 过渡动画 — 让切换更加炫酷
  12. 链路聚合的介绍以及配置
  13. IDEA的Mybatis插件
  14. arcgis中python计算面积的表达式_Python计算任意多边形面积算法
  15. 分布式 | DBLE docker 部署遇到的简单问题修复过程
  16. 企业网络安全区域划分的原则和方法
  17. 支付宝php40247,支付宝APP支付 显示 系统繁忙 请稍后再试 ALI40247
  18. 大数据智能营销系统的作用
  19. c 抓取ajax异步数据,用requests.post提交表单抓取异步ajax信息失败
  20. 机器学习12-支持向量机的数学上定义

热门文章

  1. oracle 删除po查询,Oracle EBS:PO 常用的查询及Tips
  2. 盛(Shèng)姓源出考
  3. hot~《国家网络安全应急预案》你知道么。
  4. Java实现 word.excel等文档在线预览
  5. 【源码分享】jquery+css实现侧边导航栏
  6. 《电气工程制图与读图》
  7. Cypress入门-(一)如何安装Cypress
  8. 美团点评面试20190515
  9. Maven Pom文件标签详解
  10. 大宋王朝王国的命运——何辉著