爬虫日记

2021-1-19

一、配置pip和python的环境

报错一:

 from bs4 import BeautifulSoupwith open('D:/Coding/pycharm/jike/2021-1-18/html1/Untitled-1.html','r') as wb_data:Soup = BeautifulSoup(wb_data,'xlml')print(Soup)
其实这里还有一个错误,就是‘xlml’我也是错的,应该是‘lxml’才对,这里下一步也是有问题的。
报错:
UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0xab in position 83: illegal multibyte sequence

报错二:

from bs4 import BeautifulSoupwith open('D:/Coding/pycharm/jike/2021-1-18/html1/Untitled-1.html','r') as wb_data:Soup = BeautifulSoup(wb_data,'xlml')print(Soup)

Couldn’t find a tree builder with the features you requested: xlml. Do you need to install a parser library?

这时我根据网络的教程想安装lxml但是提示我无法读取pip和python,所以我继续查到了相应的解决方法。
对照CSDN中的方法在“编辑系统环境变量”里给path新增了pip.exe和python.exe的路径就OK啦。

因为我用的是Anaconda里的python3.7,所以虽然理论上3.4以上的版本就自带了pip.exe,但我还是有点慌,不过用查找功能其实也可以找到。

二、给pip安装lxml

C:\Users\xxx>pip install lxml
Requirement already satisfied: lxml in d:\anacondanew\lib\site-packages (4.2.5)
You are using pip version 10.0.1, however version 20.3.3 is available.
You should consider upgrading via the 'python -m pip install --upgrade pip' command.

这里根据提示给pip升了级

C:\Users\xxx>python -m pip install --upgrade pipCollecting pipUsing cached https://files.pythonhosted.org/packages/54/eb/4a3642e971f404d69d4f6fa3885559d67562801b99d7592487f1ecc4e017/pip-20.3.3-py2.py3-none-any.whlInstalling collected packages: pipFound existing installation: pip 10.0.1Uninstalling pip-10.0.1:Successfully uninstalled pip-10.0.1Successfully installed pip-20.3.3C:\Users\仲天韵>pip install lxml
Requirement already satisfied: lxml in d:\anacondanew\lib\site-packages (4.2.5)

三、实现网站信息的爬取。(无分类)

配置环境变量之后确实可以在cmd中输入pip和python,看到他们的版本、路径等信息,但是还是报错,没有办法实现信息的爬取,格式化打印出网页内容。

所以我只能按照他人博客中的做法,进行修改,改的地方为两处:

一个是在打开html文件的时候进行编码方式的控制,encoding=‘utf-8’,
另一个是将‘lxml’改成了‘html.parser’
from bs4 import BeautifulSoupwith open('D:/Coding/pycharm/jike/2021-1-18/html1/Untitled-1.html','r',encoding='utf-8') as wb_data:Soup = BeautifulSoup(wb_data,'html.parser')print(Soup)

小结

这次初步的探索我也去询问了师哥师姐,发现其实本质上我的问题并没有得到解决,'lxml’和’html.parser’应该是两种都可行的办法,但是我却没有能够完全实现。

爬虫日记之01编辑系统环境变量相关推荐

  1. Windows 10 系统设置系统环境变量和用户环境变量

    系统环境变量对整个系统有效 用户环境变量只对当前用户有效 方法一: 1.首先选中桌面此电脑图标,右键选择属性.如果桌面没有此电脑图标,打开方式http://blog.csdn.net/qq_29129 ...

  2. python爬虫日记01

    PYTHON爬虫日记01 记录自己的学习爬虫日记 选用python作为编程语言 1.环境准备 python3.6+ mysql pycharm 2.思路 以爬取猫眼top100为目标 ​ 1.分析ur ...

  3. JDK的安装与系统环境变量的配置

    一.下载JDK 用户进入到Java SE的下载网页后,根据自己所用的操作系统(Windows.Linux)和位数(32位.64位)选择不同的链接进行下载.本例是在Windows系统的32位机器上开发的 ...

  4. Windows:系统环境变量配置提示系统环境变量太大的问题三种解决方案亲测可用

    系统环境变量配置 解决方案1: 解决方案2: 解决方案3: 解决方案1: 1.在系统环境变量中新建路径"path1" 2.在系统环境原来的path下新建路径包含上面的路径" ...

  5. windows 全局变量_如何在Windows中使用全局系统环境变量

    windows 全局变量 Any system administrator who spends a good bit of time in the command prompt or batch s ...

  6. 安装包卸载时如何删除安装时写在系统环境变量中的内容

    在用InstallShield制作安装包时,有时我们会在脚本中通过操作注册表,配置系统环境变量,比如在Path中追加,但卸载时如何清除追加的路径变量,一直有些模糊. 今天受网友启发,在InstallS ...

  7. k2p华硕系统怎么设置_Linux怎么设置系统环境变量之export命令详解

    请关注本头条号,每天坚持更新原创干货技术文章. 如需学习视频,请在微信搜索公众号"智传网优"直接开始自助视频学习 1. Linux export命令简介 Linux export命 ...

  8. windows中mysql添加环境变量_windows 下添加mysql到系统环境变量

    如何将MySQL添加到系统环境变量呢? 答: 在桌面选择"这台电脑"的图标,右键-->属性-->点击"高级系统设置"-->点击"环境 ...

  9. 联想笔记本java环境变量_联想ThinkPad笔记本如何添加系统环境变量?

    在Win10系统中如果想要设置环境变量,该怎么设置环境变量呢?下面我们就来看看详细的教程. 1.右键点击桌面上的此电脑的图标,在弹出菜单中选择"属性"的菜单. 2.在打开的系统窗口 ...

最新文章

  1. Python——Entry、Text控件
  2. 2012 BI市场(一)
  3. 关于mysql和oracle错误的有_关于MySQL与Oracle的区别
  4. 补丁发布工具1.5.5
  5. 爬虫python 新闻,Python爬虫实例--爬取人民网新闻
  6. JavaScript中一个对象如何继承另外一个对象
  7. 剖析 Apache 顶级项目 SkyWalking 的源码 ,看看它有什么好?
  8. 20181213-python1119作业郭恩赐
  9. 如何让微博营销更具效力
  10. php二分查找法实例
  11. pb9.0.3 8836补丁包_英语单数/复数名词傻傻分不清楚?3种不规则形态一次性搞懂!...
  12. SVN下载及语言包安装
  13. STM32L151C8T6笔记2:RTC唤醒的STOP模式
  14. Shell脚本实现判断一个数是否为质数
  15. TV新媒体电商发展遇瓶颈
  16. php:php时区的三种设置方式
  17. android 蒲公英 类似平台,Jenkins之android APP打包上传蒲公英平台
  18. 加勒比海盗1英文剧本
  19. android 新闻功能列表,android listview实现新闻列表展示效果
  20. 判断网络是否使用代理服务器

热门文章

  1. 素数定理nefu117
  2. C++11: 枚举类ostream
  3. MySQL:介于普通读和锁定读的加锁方式,linux视频格式转换
  4. Linux小小白入门教程(十四):查看进程ID
  5. ExtJS config 使用
  6. Appnium:从自动化抢菜工具中学到的
  7. FreeMarker入门 生成xml模板
  8. 【狂神说Java】POI技术详解
  9. jQuery滑块拼图验证插件
  10. Mybatis 逆向工程代码