Python爬虫获取某个网页所有的a标签中的超链接网址

安装BeautifulSoup

管理员身份运行命令行,然后命令行中输入以下命令:

pip install beautifulsoup4

爬虫核心代码如下:

# -*- coding:utf-8 -*-

# python 3.7

#引入系统类库

import sys

# 使用文档解析类库

from bs4 import BeautifulSoup

# 使用网络请求类库

import urllib.request

# 输入网址

html_doc = "https://www.lmcjl.com/"

if len(sys.argv)>1:

website=sys.argv[1]

if(website is not None):

html_doc= sys.argv[1]

# 获取请求

req = urllib.request.Request(html_doc)

# 打开页面

webpage = urllib.request.urlopen(req)

# 读取页面内容

html = webpage.read()

# 解析成文档对象

soup = BeautifulSoup(html, 'html.parser') #文档对象

# 非法URL 1

invalidLink1='#'

# 非法URL 2

invalidLink2='javascript:void(0)'

# 集合

python爬取网页某一个a标签_Python爬虫获取某个网页所有的a标签中的超链接网址...相关推荐

  1. python爬取豆瓣电影top250的代码_Python爬虫——爬取豆瓣电影Top250代码实例

    利用python爬取豆瓣电影Top250的相关信息,包括电影详情链接,图片链接,影片中文名,影片外国名,评分,评价数,概况,导演,主演,年份,地区,类别这12项内容,然后将爬取的信息写入Excel表中 ...

  2. python爬取js加载的数据_Python爬虫:爬取JS加载数据的网页

    比如简书: Paste_Image.png 我们来写个程序,爬取简书网站随便一个作者的所有文章,再对其所有文章进行分词统计 程序运行统计的结果见文章: 我统计了彭小六简书360篇文章中使用的词语 需要 ...

  3. 用python爬取今日头条上的图片_Python爬虫:抓取今日头条图集

    今天我们来爬取今日头条图集,老司机以街拍为例. 运行平台: Windows Python版本: Python3.6 IDE: Sublime Text 其他工具: Chrome浏览器 1.网页分析 从 ...

  4. python爬取boss直聘招聘信息_Python爬虫实战-抓取boss直聘招聘信息

    Python Python开发 Python语言 Python爬虫实战-抓取boss直聘招聘信息 实战内容:爬取boss直聘的岗位信息,存储在数据库,最后通过可视化展示出来 PS注意:很多人学Pyth ...

  5. python爬取58同城所有租房信息_python爬虫:找房助手V1.0-爬取58同城租房信息

    #!/usr/bin/python # -*- encoding:utf-8 -*-importrequests frombs4 importBeautifulSoup frommultiproces ...

  6. python爬取电影网站存储于数据库_python爬虫 猫眼电影和电影天堂数据csv和mysql存储过程解析...

    字符串常用方法 # 去掉左右空格 'hello world'.strip() # 'hello world' # 按指定字符切割 'hello world'.split(' ') # ['hello' ...

  7. python爬取js加载的数据_Python爬虫学习,记一次抓包获取js,从js函数中取数据的过程...

    昨天有小伙伴找我,新浪新闻的国内新闻页,其他部分都是静态网页可以抓到,但是在左下方的最新新闻部分,不是静态网页,也没有json数据,让我帮忙抓一下.大概看了下,是js加载的,而且数据在js函数中,很有 ...

  8. python爬取微博热搜写入数据库_python爬虫爬取微博热搜

    [实例简介] [实例截图] [核心代码] import requests                #数据抓取库 from lxml import etree         #数据解析库 imp ...

  9. python爬取豆瓣电影top250的名字_Python爬虫-爬取豆瓣电影Top250

    小菜鸟一枚,这是第五个爬虫吧,记录一下 #!usr/bin/env python3 # -*- coding:utf-8-*- import requests from bs4 import Beau ...

最新文章

  1. 线段树 (经典题目合集)
  2. 资源推荐 | TensorFlow电子书《FIRST CONTACT WITH TENSORFLOW》
  3. OkHttp ResponseBody没有关闭造成的内存泄漏
  4. MySQL数据库模式(SQL_MODE)中的STRICT_TRANS_TABLES和STRICT_ALL_TABLES
  5. 网络爬虫--12.【XPath实战】获取百度贴吧中的图片
  6. python2 爬虫value_53. Python 爬虫(2)
  7. 数据库中多对多的关系设计
  8. 用glew,glfw,FreeImage实现opengl学习笔记6坐标变换
  9. Cookie简明小册
  10. 完美解决苹果电脑mac终端无法输入大写T的问题
  11. 英读廊——为什么打印机不使用RGB颜色体系而是CMYK体系
  12. Win7报错:Explorer.EXE不支持此接口的解决办法
  13. 学长教你学C-day9-C语言循环结构与选择结构
  14. 【第一组】第十六次冲刺例会纪要
  15. matlab矩阵求逆的模块,matlab矩阵求逆矩阵
  16. Android uiautomatorviewer无法启动
  17. win7添加ftp到计算机,技术编辑帮你win7系统FTP地址添加到资源管理器的收藏夹下的设置步骤...
  18. 如何预估项目的完成时间
  19. 关于ADS的二次谐波和高次谐波牵引
  20. Lucene学习——IKAnalyzer中文分词(一)

热门文章

  1. 基于cydia Hook在线热修复补丁方案
  2. linux管道方式分页显示,linux命令中分页等管道符的使用
  3. zsh如何运行conda | zsh anconda | zsh终端下配置aonconda环境 | zsh: command not found: conda
  4. Linux MQ中间件/var/mqm文件系统结构与错误日志分析
  5. android 照片转视频教程,手机一张照片制作视频教程 安卓手机怎么将照片制作成视频?...
  6. flex 1061: 调用可能未定义的方法 unloadAndStop错误解决
  7. linux sort 算法_linux 文件大小排序
  8. 使用VBA 合并相同单元格
  9. 产品量产 要用到脱机烧录器
  10. K8s集群RBAC认证授权详解