内涵段子正则爬取:

"""
内涵段子爬虫
https://www.neihan8.com/article/index.html"""
from  urllib import request,parse
from  urllib import error
import chardet
from lxml import etree
import csv,string,re
import csv
def neihanba(url,beginPage, endPage):for page in range(beginPage, endPage):pn = pageif pn <= 1:fullurl = url + "index.html"else:fullurl = url + "index_%s"%pn + ".html"headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36"}req = request.Request(fullurl, headers=headers)try:response = request.urlopen(req)resHtml = response.read()resHtml = resHtml.decode("utf-8", 'ignore')# 笑话标题title = r'<h3><a .*?>(.*?)</a></h3>'title_pattern = re.compile(title,re.I | re.S | re.M)joketitle = title_pattern.findall(resHtml)# 笑话内容content = r'<div class="desc">.*?(.*?)</div>'content_pattern = re.compile(content, re.I | re.S | re.M)jokecontent = content_pattern.findall(resHtml)for m in range(1,len(jokecontent)):k = jokecontent[m]filename = './data1/neihanba' + '.csv'with open(filename, 'a', encoding='utf-8') as file:wr = csv.writer(file)wr.writerow([joketitle,jokecontent])# 笑话urljokeurl = r'<h3><a href="(.*?)" .*?>.*?</a></h3>'url_patter = re.compile(jokeurl, re.I | re.S | re.M)jurl = url_patter.findall(resHtml)for i in jurl:jokefullurl = "https://www.neihan8.com" + iresponse = request.urlopen(jokefullurl)resHtml = response.read()resHtml = resHtml.decode("utf-8", 'ignore')# 笑话标题jokecontitle = r'<h1 class="title">(.*?)</h1>'jokecontitle_pattern = re.compile(jokecontitle, re.I | re.S | re.M)jokecontitle_content = jokecontitle_pattern.findall(resHtml)for a in jokecontitle_content:joke_content_title = a# 笑话内容jokecontent1 = r'<p>(.*?)</p>'joke_pattern = re.compile(jokecontent1, re.I | re.S | re.M)joke_content = joke_pattern.findall(resHtml)for s in range(len(joke_content)-2):openjoke_content = joke_content[s]filename = './data1/neihanba1' + '.csv'with open(filename, 'a', encoding='utf-8') as file:wr = csv.writer(file)wr.writerow([openjoke_content])except error.URLError as e:print(e)if __name__ == "__main__":proxy = {"http": "118.31.220.3:8080"}proxy_support = request.ProxyHandler(proxy)opener = request.build_opener(proxy_support)request.install_opener(opener)beginPage = int(input("请输入起始页:"))endPage = int(input("请输入终止页:"))url = "https://www.neihan8.com/article/"neihanba(url, beginPage, endPage)

对内涵段子正则的提取相关推荐

  1. 正则例子---爬取内涵段子

    正则例子,爬取内涵段子 # coding=utf-8 import requests import re import jsonclass Neihan:def __init__(self):self ...

  2. 使用urllib2简单爬取并保存内涵吧内涵段子指定分页的的描述信息

    对 内涵8的内涵段子 爬取每个分页上面显示的描述信息,按回车键继续对下一页进行爬取,输入quit退出爬取. 思路: 1. 爬取每个页面的源码 2. 对源码进行处理(使用正则),获取指定信息 3. 保存 ...

  3. python3利用正则表达式爬取内涵段子

    似乎正则在爬虫中用的不是很广泛,但是也是基本功需要我们去掌握. 先将内涵段子网页爬取下来,之后利用正则进行匹配,匹配完成后将匹配的段子写入文本文档内.代码如下: # -*- coding:utf-8 ...

  4. 内涵段子爬取及re匹配

    案例:使用正则表达式的爬虫 现在拥有了正则表达式这把神兵利器,我们就可以进行对爬取到的全部网页源代码进行筛选了. 下面我们一起尝试一下爬取内涵段子网站: http://www.neihan8.com/ ...

  5. 30 爬虫 - 爬取内涵段子网站案例

    现在拥有了正则表达式这把神兵利器,我们就可以进行对爬取到的全部网页源代码进行筛选了. 下面我们一起尝试一下爬取内涵段子网站: http://www.neihan8.com/article/list_5 ...

  6. python多线程爬取段子_Python爬虫实例-多线程爬虫糗事百科搞笑内涵段子

    学习爬虫,其乐无穷! 今天给大家带来一个爬虫案例,爬取糗事百科搞笑内涵段子. 爬取糗事百科段⼦,假设⻚⾯的 URL 是:http://www.qiushibaike.com/8hr/page/1 一. ...

  7. python 正则之提取字符串中的汉字,数字,字母

    python 正则之提取字符串中的汉字,数字,字母 #\d 匹配一个数字字符.等价于 [0-9] #\D 匹配一个非数字字符.等价于 [^0-9]#过滤字符串中的英文与符号,保留汉字 import r ...

  8. 从内涵段子到皮皮虾,娱乐App为何不能一鱼两吃?

    文|ihahe 来源 | 螳螂财经(ID:TanglangFin) 郭德纲在说到语言类节目困境的时候,用唱歌跟说相声做了个对比,他说歌星可以用一首歌挣一辈子的钱,笑星却不行.在相声里一个包袱只能丢一次 ...

  9. 写号是什么意思_内涵段子暗号馒头是什么意思 该怎么接回答对话大全

    最近小编在看段子的时候,发现一些有意思的新段子,并且并不怎么理解,那么内涵段子暗号馒头什么意思,段子里面馒头什么意思呢?莫慌快随小编一起一探究竟吧. 内涵段子暗号馒头什么意思 段子里面馒头什么意思 其 ...

最新文章

  1. Codeforces 1246D/1225F Tree Factory (构造)
  2. package org.apache.hadoop.conf does not exist解决
  3. 微信公众号接口添加菜单时错误(errcode:40017 invalid button type)
  4. tomcat限制用域名访问 禁止 ip访问
  5. LeetCode 531. 孤独像素 I
  6. Silverlight Blend动画设计系列十二:三角函数(Trigonometry)动画之自由旋转(Free-form rotation)...
  7. javapanel根据内部组件_java gui中怎么用jpanel实现组件的绝对定位
  8. ReflectionPad2d--利用输入边界的反射来填充输入张量
  9. 戴尔服务器哪1顶型号好,戴尔PowerEdge R730xd新一代服务器评测
  10. bootstrap table分页limit计算pageIndex和pageSize
  11. rhel5编译安装2.6.29.2内核
  12. 使用磁性霍尔传感器实现门锁报警
  13. word2010自动弹出信息检索解决方法
  14. PHP面试要点---mysql
  15. 3d设计计算机配置,专业设计师选什么电脑配置?2018年专业3D建模渲染电脑配置推荐(2)...
  16. 商家转账到零钱快速开通方法
  17. Mac下的Kali虚拟机的安装
  18. 计算机除尘 注意事项,电脑除尘要注意
  19. Kaptcha工具和手动实现验证码功能
  20. 多普达 699之不完全新手须知

热门文章

  1. 微信小程序销毁某一注册函数_教你如何删除、关闭、注销微信小程序
  2. 五道口宅男 - Category: Android
  3. 一篇好文,以在迷茫时阅读
  4. 傅里叶变换—信号观测时长和频率分辨率
  5. kubebuilder实践笔记(4) - 编写简单的业务逻辑
  6. 如何成为一位 hacker?
  7. 前端开发规范,你真的了解吗?一起来学习一下前端开发规范,让你的代码高级起来!
  8. 气传导耳机是什么意思?气传导耳机原理是什么?
  9. 【案例实践】高光谱遥感数值建模技术及在植被、水体、土壤信息提取领域应用实践技术
  10. 【知识点】eCall是什么?