爬虫-用xpath爬取豆瓣图书的短评

Xpath的安装：

1.使用pip安装 $ pip install lxml

2.下载whl文件 $ pip install "文件名"

Xpath的使用

导入lxml——>返回xml结构——>寻找数据

from lxml import etreeurl = ""s = etree.HTML(url)print(s.xpath())

1.获取文本内容用text()

2.获取注释用comment()

3.获取其他任何属性用@xx，如

@href
@src
@value

4.想获取某个标签下的所有文本(包括子标签下的文本)，使用string

5.starts-with 匹配字符串前面相等

6.contains 匹配任何位置相等

下面用xpth爬取豆瓣读书

分析网站：

爬取的是豆瓣读书网中图书的短评，网站地址：豆瓣读书短评

打开浏览器开发者模式，按住Ctrl+Shirt+C然后点击第一条评论。

浏览器会自己找到我们所点击的地方，然后右键Copy——>Copy XPath。

结果：//*[@id="comments"]/ul/li[1]/div[2]/p/span

import requests
from lxml import etree
url = "https://book.douban.com/subject/25924253/comments/
resp = requests.get(url).text
print(s.xpath('//*[@id="comments"]/ul/li[1]/div[2]/p/span/text()'))

下面我们爬取这一页所有的短评，先copy Xpath上几个，看看有什么规律

第一个短评：//*[@id="comments"]/ul/li[1]/div[2]/p/span

第二个短评：//*[@id="comments"]/ul/li[2]/div[2]/p/span

第三个短评：//*[@id="comments"]/ul/li[3]/div[2]/p/span

很容易发现li[]随着短评数目增加而增加，此时只需要改成//*[@id="comments"]/ul/li/div[2]/p/span就行了

import requests
from lxml import etree
url = "https://book.douban.com/subject/25924253/comments/"
resp = requests.get(url).text
s = etree.HTML(resp)
print(s.xpath('//*[@id="comments"]/ul/li/div[2]/p/span/text()'))

发现是不是很容易呢？如果要爬取多页的短评呢？此时点击下一页看看网址有什么变化。

第一页网址：https://book.douban.com/subject/25924253/comments/

第二页网址：https://book.douban.com/subject/25924253/comments/hot?p=2

第三页网址：https://book.douban.com/subject/25924253/comments/hot?p=3

发现后面的p的取值决定第几页，这下就好办了。

import requests
from lxml import etree
for i in range(1,10):url = "https://book.douban.com/subject/25924253/comments/hot?p={}".format(i)resp = requests.get(url).texts = etree.HTML(resp)print(s.xpath('//*[@id="comments"]/ul/li/div[2]/p/span/text()'))

很容易就爬取到了，也可以写入txt文本中，这里就不写了。