这个代码是通过交互式的输入完成对贴吧信息的爬虫,并且把数据写进电脑里。初学者可借鉴一下

# encoding:utf-8
import urllib
from urllib import request
import time
import ssl
ssl._create_default_https_context = ssl._create_unverified_contextheader = {"User-Agent": "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.117 Mobile Safari/537.36"}def loadpage(url, filename):   # 加载贴吧页函数print("正在下载:",filename)req = request.Request(url, headers=header)rep = request.urlopen(req)data = rep.read()return datadef writepage(filename, html):  # 把数据写入电脑的函数print("正在写入:", filename)file_path = "/Users/bc2qsy/Documents/html/"+filename  # 前面的字符串是你要存储的路径fd = open(file_path, "wb")fd.write(html)print(filename, "完成")print("---------------------------")def tiebaspider(url, begin, end):for page in range(begin, end+1):pn = (page-1)*50fullurl = url+"&pn="+str(pn)filename = "第"+str(page)+"页.html"html = loadpage(fullurl,filename)writepage(filename, html)if __name__ == '__main__':kw = input("请输入吧名:")   # a这里是你要搜索的贴吧名 可输入python ,java也可以是中文begin_data = int(input("请输入起始页:"))  # 这两行是你要下载的页数end_data = int(input("请输入结尾页:"))url_data = "https://tieba.baidu.com/f?"key = urllib.parse.urlencode({"kw": kw})  # 这里是路径的解析url = url_data+keytiebaspider(url, begin_data, end_data)time.sleep(10)

基于python的爬虫贴吧的代码相关推荐

  1. python中的doc_基于Python获取docx/doc文件内容代码解析

    这篇文章主要介绍了基于Python获取docx/doc文件内容代码解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 整体思路: 下载文件并修改后缀 ...

  2. python扫雷的代码及原理_基于Python实现的扫雷游戏实例代码

    摘要:这篇Python开发技术栏目下的"基于Python实现的扫雷游戏实例代码",介绍的技术点是"Python实现.Python.实例代码.扫雷游戏.扫雷.游戏" ...

  3. python名片识别_基于Python的名片识别接口调用代码实例

    基于Python的名片识别接口调用代码实例 代码描述:基于Python的名片识别接口调用代码实例 #!/usr/bin/python # -*- coding: utf-8 -*- import js ...

  4. 名片识别信息分类python_基于Python的名片识别接口调用代码实例.doc

    基于Python的名片识别接口调用代码实例 代码描述:基于Python的名片识别接口调用代码实例 #!/usr/bin/python # -*- coding: utf-8 -*- import js ...

  5. python短信接口_基于 python 的短信接口调用代码示例模板

    阅信短信验证码平台最近会从新梳理基于不同语言的短信接口调用代码示例,是为了迎合市面上现在流行的各个语言代码实现,也是为了能够更好的服务满足客户的不同层次的需求. 下面的代码是基于 python 的短信 ...

  6. python编码尺寸_基于Python批量生成指定尺寸缩略图代码实例

    这篇文章主要介绍了基于Python批量生成指定尺寸缩略图代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 最近我们商城上架的应用越来越丰富了. ...

  7. 基于python网络爬虫的个性化音乐播放器

    前言 当前很多人在闲暇时喜欢听音乐,那么基于这种现象,我也是肝了几个小时完成了基于python的个性化音乐播放器,现在分享给你们. 开发组件 python3.5 以上版本就行 tkinter (pyt ...

  8. 基于python网络爬虫的设计和思考

    1.爬虫技术 网 络 爬 虫, 又 称 网 页 蜘 蛛(webspider),是一个功能强大的能够自动提取网页信息的程序,它模仿浏览器访问网络资源,从而获取用户需要的信息,它可以为搜索引擎从万维网上下 ...

  9. 基于python的爬虫系统金融数据_基于Python的互联网金融数据采集

    基于Python的互联网金融数据采集 □文/王 蕾1安英博1刘佳杰2 [提要] 互联网金融数据中潜藏着未知的知识价值,但也存在着巨量的数据冗余.通过Python可以进行互联网金融数据的获取.解析.提取 ...

最新文章

  1. [从0到1编写服务器]准备知识
  2. 基于JavaWeb实现学校网站开发
  3. Android-- FragmentStatePagerAdapter分页
  4. sqlserver日志文件缩小
  5. [导入]《交互设计之路——让高科技产品回归人性》读书笔记(一)
  6. 中移动完成透镜天线远距覆盖和降本增效试点
  7. 提示未检测到 oracle,Oracle RAC [INS-40406] 未检测到现有的 Oracle Grid Infrastructure 软件...
  8. 为什么大厂都在造车?原因找到了
  9. quartz框架_定时任务调度框架Quartz
  10. 帮你深度探寻Spring循环依赖源码实现!面经解析
  11. 运行js提示库没有注册错误8002801d的解决办法
  12. Docker部署Ghost
  13. 适合初学者的PASCAL VOC2012数据集的下载及简单讲解
  14. 用Calibre去除Kindle电子书的DRM版权限制
  15. 项目管理工具的选型(jira,teambition,worktitle,tower,trello,云效,禅道)和禅道的基本介绍...
  16. 高效能人士的七个习惯
  17. 吉木萨尔县文化旅游策划案——天山圣地,武侠之都!
  18. java正则表达式双引号_java正则表达式去掉双引号
  19. 测试吃鸡fps软件,GTX1050Ti吃鸡足矣 2017热销游戏本吃鸡横评
  20. linux系统连接校园无线网卡,Linux连接校园网

热门文章

  1. 自尊存在的意义和自我效能------《社会心理学》读书感悟
  2. 三种常见的http content-type详解
  3. Word文件转为PDF格式后为什么字体会有改变?
  4. 字符串函数Mid()
  5. 自定义view(画一个LOL能力图表)
  6. 个人如何利用Python爬虫技术赚Q,原来这么简单
  7. log4cplus的配置文件使用及问题解决
  8. Toward a unified information framework for cell atlas assembly论文笔记
  9. 选一条路,坚持走下去 | 专访芮臻赟润咨询创始人 Margaret Yao
  10. C++ Map取值的坑