python爬取网页某一个a标签_Python爬虫获取某个网页所有的a标签中的超链接网址...
Python爬虫获取某个网页所有的a标签中的超链接网址
安装BeautifulSoup
管理员身份运行命令行,然后命令行中输入以下命令:
pip install beautifulsoup4
爬虫核心代码如下:
# -*- coding:utf-8 -*-
# python 3.7
#引入系统类库
import sys
# 使用文档解析类库
from bs4 import BeautifulSoup
# 使用网络请求类库
import urllib.request
# 输入网址
html_doc = "https://www.lmcjl.com/"
if len(sys.argv)>1:
website=sys.argv[1]
if(website is not None):
html_doc= sys.argv[1]
# 获取请求
req = urllib.request.Request(html_doc)
# 打开页面
webpage = urllib.request.urlopen(req)
# 读取页面内容
html = webpage.read()
# 解析成文档对象
soup = BeautifulSoup(html, 'html.parser') #文档对象
# 非法URL 1
invalidLink1='#'
# 非法URL 2
invalidLink2='javascript:void(0)'
# 集合
python爬取网页某一个a标签_Python爬虫获取某个网页所有的a标签中的超链接网址...相关推荐
- python爬取豆瓣电影top250的代码_Python爬虫——爬取豆瓣电影Top250代码实例
利用python爬取豆瓣电影Top250的相关信息,包括电影详情链接,图片链接,影片中文名,影片外国名,评分,评价数,概况,导演,主演,年份,地区,类别这12项内容,然后将爬取的信息写入Excel表中 ...
- python爬取js加载的数据_Python爬虫:爬取JS加载数据的网页
比如简书: Paste_Image.png 我们来写个程序,爬取简书网站随便一个作者的所有文章,再对其所有文章进行分词统计 程序运行统计的结果见文章: 我统计了彭小六简书360篇文章中使用的词语 需要 ...
- 用python爬取今日头条上的图片_Python爬虫:抓取今日头条图集
今天我们来爬取今日头条图集,老司机以街拍为例. 运行平台: Windows Python版本: Python3.6 IDE: Sublime Text 其他工具: Chrome浏览器 1.网页分析 从 ...
- python爬取boss直聘招聘信息_Python爬虫实战-抓取boss直聘招聘信息
Python Python开发 Python语言 Python爬虫实战-抓取boss直聘招聘信息 实战内容:爬取boss直聘的岗位信息,存储在数据库,最后通过可视化展示出来 PS注意:很多人学Pyth ...
- python爬取58同城所有租房信息_python爬虫:找房助手V1.0-爬取58同城租房信息
#!/usr/bin/python # -*- encoding:utf-8 -*-importrequests frombs4 importBeautifulSoup frommultiproces ...
- python爬取电影网站存储于数据库_python爬虫 猫眼电影和电影天堂数据csv和mysql存储过程解析...
字符串常用方法 # 去掉左右空格 'hello world'.strip() # 'hello world' # 按指定字符切割 'hello world'.split(' ') # ['hello' ...
- python爬取js加载的数据_Python爬虫学习,记一次抓包获取js,从js函数中取数据的过程...
昨天有小伙伴找我,新浪新闻的国内新闻页,其他部分都是静态网页可以抓到,但是在左下方的最新新闻部分,不是静态网页,也没有json数据,让我帮忙抓一下.大概看了下,是js加载的,而且数据在js函数中,很有 ...
- python爬取微博热搜写入数据库_python爬虫爬取微博热搜
[实例简介] [实例截图] [核心代码] import requests #数据抓取库 from lxml import etree #数据解析库 imp ...
- python爬取豆瓣电影top250的名字_Python爬虫-爬取豆瓣电影Top250
小菜鸟一枚,这是第五个爬虫吧,记录一下 #!usr/bin/env python3 # -*- coding:utf-8-*- import requests from bs4 import Beau ...
最新文章
- 线段树 (经典题目合集)
- 资源推荐 | TensorFlow电子书《FIRST CONTACT WITH TENSORFLOW》
- OkHttp ResponseBody没有关闭造成的内存泄漏
- MySQL数据库模式(SQL_MODE)中的STRICT_TRANS_TABLES和STRICT_ALL_TABLES
- 网络爬虫--12.【XPath实战】获取百度贴吧中的图片
- python2 爬虫value_53. Python 爬虫(2)
- 数据库中多对多的关系设计
- 用glew,glfw,FreeImage实现opengl学习笔记6坐标变换
- Cookie简明小册
- 完美解决苹果电脑mac终端无法输入大写T的问题
- 英读廊——为什么打印机不使用RGB颜色体系而是CMYK体系
- Win7报错:Explorer.EXE不支持此接口的解决办法
- 学长教你学C-day9-C语言循环结构与选择结构
- 【第一组】第十六次冲刺例会纪要
- matlab矩阵求逆的模块,matlab矩阵求逆矩阵
- Android uiautomatorviewer无法启动
- win7添加ftp到计算机,技术编辑帮你win7系统FTP地址添加到资源管理器的收藏夹下的设置步骤...
- 如何预估项目的完成时间
- 关于ADS的二次谐波和高次谐波牵引
- Lucene学习——IKAnalyzer中文分词(一)
热门文章
- 基于cydia Hook在线热修复补丁方案
- linux管道方式分页显示,linux命令中分页等管道符的使用
- zsh如何运行conda | zsh anconda | zsh终端下配置aonconda环境 | zsh: command not found: conda
- Linux MQ中间件/var/mqm文件系统结构与错误日志分析
- android 照片转视频教程,手机一张照片制作视频教程 安卓手机怎么将照片制作成视频?...
- flex 1061: 调用可能未定义的方法 unloadAndStop错误解决
- linux sort 算法_linux 文件大小排序
- 使用VBA 合并相同单元格
- 产品量产 要用到脱机烧录器
- K8s集群RBAC认证授权详解