哎呀呀,先一步一步的来吧,我们知道要先登录才能查看全部的信息。好吧先去注册,记住账号和密码。

2、注册好了之后,先解决登录问题,可以看到有两个登录的地方,编号1、2.
打开网页,f12,先看看登录节点在哪里


看看第一个登录节点,登录节点和注册节点,名称一样的,但是登录在注册之前,第二个登录在注册之后。在定位节点的时候,1号的登录节点比较好找。因此查看属性,用xpath定位。

import time
from selenium import webdriver
browser  =  webdriver.Firefox()
# 先模拟登录
url = 'http://www.dxy.cn/bbs/thread/626626#626626/'   #丁香医生
browser.get(url)
time.sleep(3)
browser.maximize_window()#打开网页窗口
time.sleep(4)
denglu = browser.find_element_by_xpath('//div[@class="nav_account"]/a')  #找到第一个a节点
denglu.click()  #点击进入到登录网站
time.sleep(2)
dl = browser.find_element_by_xpath('//a/i[@class="wechat__ico ico_pc"]')
dl.click()#这里进入电脑版登录界面
time.sleep(2)     


3、模拟登录,准备好账号和密码


找到节点。打开f12,点击那个左上方那个箭头,在把鼠标移到“手机账号邮箱登录位置”点击一下,网页就会自动定位到 那个代码位置。我们看到属性为“username”。
同样的方法找到其他节点。

input= browser.find_element_by_name("username")  #找到账号输入的地方
input.send_keys("17353239795")
password = browser.find_element_by_name("password")#密码输入框
password.send_keys('wq1255462268')
login_em = browser.find_element_by_class_name("button")#登录按钮
login_em.click()
time.sleep(4)

到这里需要验证码 ,

实战大项目:模拟登录丁香园,并抓取论坛页面所有的人员基本信息与回复帖子内容----登录第一步相关推荐

  1. 模拟登录丁香园,并抓取论坛页面所有的人员基本信息与回复帖子内容

    丁香园直通车抓取页面链接 一.首先利用selenium登录网站,此部分重点: 1.切换到账号密码表单登录,我采用了利用style将display值变为block,代码如下: js1 = 'docume ...

  2. 实战大项目:模拟登录丁香园,并抓取论坛页面所有的人员基本信息与回复帖子内容----爬取第二步

    接着上一步模拟登录操作.学了两天的session 了没有搞定登录.还是回到selenium模拟登录爬取.但是验证码这一块,没有搞定,在文中用的人工辅助登录成功.代码太丑,实在是无言面对同行. impo ...

  3. Day7-模拟登录丁香园,爬取所有用户基本信息和回复内容

    最后一天了,趁着周末把DataWhale爬虫7天训练最后的task做出来了. 前几天的学习,从学习http,post和get两种请求方法开始,到学习简单urllib和requests请求一个网页进行简 ...

  4. python爬虫(四)——模拟登录丁香园

    实战 实战小项目:模拟登录丁香园,抓取论坛页面人员基本信息与回复帖子.丁香园论坛:http://www.dxy.cn/bbs/thread/626626#626626 思路 首先把登陆方式由扫码切换为 ...

  5. 爬虫入门学习(八)模拟登录丁香园论坛爬取用户信息

    爬虫入门学习(八)实战大项目模拟登录丁香园爬取信息 1 目标 2 思路 3 主要的技术点 3.1 模拟登录 3.2 抓取用户个人主页 4 完整代码 5 项目后期拓展 1 目标 模拟登录丁香园,并抓取页 ...

  6. python3爬虫——模拟登录丁香园并提取信息

    上一篇:模拟登录QQ邮箱 ps:在进行模拟登录时,输入账号密码后,会弹出验证码,目前还没有解决模拟验证,所以本教程需要进行人工验证. 代码: from selenium import webdrive ...

  7. python3爬虫模拟登录_python3爬虫——模拟登录丁香园并提取信息

    上一篇:模拟登录QQ邮箱 ps:在进行模拟登录时,输入账号密码后,会弹出验证码,目前还没有解决模拟验证,所以本教程需要进行人工验证. 代码: from selenium import webdrive ...

  8. 爬虫实战,抓取论坛帖子内容

    本文主要内容:以最短的时间写一个最简单的爬虫,可以抓取论坛的帖子标题和帖子内容. 本文受众:没写过爬虫的萌新. 入门 0.准备工作 需要准备的东西: Python.scrapy.一个IDE或者随便什么 ...

  9. 【Python3网络爬虫开发实战】3-基本库的使用-4抓取猫眼电影排行

    本节中,我们利用requests库和正则表达式来抓取猫眼电影TOP100的相关内容.requests比urllib使用更加方便,而且目前我们还没有系统学习HTML解析库,所以这里就选用正则表达式来作为 ...

最新文章

  1. RESTful Web Services初探
  2. netty 进程挂起_这可能是目前最透彻的Netty原理架构解析
  3. Linux学习总结 (未完待续...)
  4. python内置函数源码_如何查看python内置函数源码
  5. flatmap和map的区别!
  6. .NET跨平台之旅:将QPS 100左右的ASP.NET Core站点部署到Linux服务器上
  7. Spring MVC:MySQL和Hibernate的安全性
  8. 继云计算巨头失火事件后,微软决定送数据中心去“泡澡”!
  9. 如何为复杂页面实现过渡页面
  10. python邮件收发
  11. 电子设计大赛音频信号分析仪
  12. 如何用unity做一个合成图片的程序
  13. 斯伦贝谢宣布2020年第三季度业绩
  14. 61_ZYNQ7020开发板_SD/QSPI方式启动_ax_peta
  15. 不对齐 谷歌浏览器_谷歌浏览器input上下不对齐兼容解决办法
  16. CMDN Club #19: Windows 8 Dev BootCamp - Win8开发知识与产品实践
  17. [NOIP2001 普及组] 最大公约数和最小公倍数题解
  18. js实现轮播图(简单滚动轮播)
  19. 一份完整的SEO方案包含哪些内容
  20. 客制化键盘编程_装机单推荐 篇二:垃圾佬的第一个客制化键盘---gk64升级版

热门文章

  1. 补码和原码的转化过程
  2. 移动端调试工具weinre的安装、使用与问题
  3. 物联网卡可以应用在哪些领域
  4. 最全知乎专栏合集:爬取11088个知乎专栏,打破发现壁垒(编程、python、爬虫、数据分析..)
  5. python 两种提取pdf中图片的包
  6. Hotelling‘s T2表
  7. Java计算1到100阶乘和
  8. 公安情报大数据分析研判平台建设解决方案,情报信息平台建设
  9. python文件解压
  10. Qt设计师类setupUi报内存错误可能原因