coding:utf-8

import requests
import json
from lxml import etree
import sys
“”"
根据药品国字号爬取www.yaofangwang.com上的药品名称
有些药品名称商业网站上没有需要在www.nmpa.gov.cn上手动搜索,进口药品要选择进口目录查找
执行:
python3 file.py 多条或者单条药品的国字号,用英文逗号隔开
python3 file.py Z10910055,Z45021680,H20010217,Z20010131,Z10920002
在终端输出:
Z10910055 枫蓼肠胃康颗粒

Z10920002 活血止痛胶囊

“”"

def get_drug_name(drug_number=None):
“”"
drug_number:国药准字号
https://www.yaofangwang.com/search.html?keyword=H20013003&price=1
return:药品名称
“”"
url = ‘https://www.yaofangwang.com/search.html?keyword=’+drug_number+‘&price=1’
From_data={
“User-Agent”: “Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36”
}
response = requests.post(url,data=From_data)
# print(response)
content = response.text
# print(content)
# 使用xpath取名字
# //*[@id=“wrap”]/div[1]/ul/li[1]/div/a[1]/img

html = etree.HTML(content)
# print(etree.tostring(html.xpath("//li[@class='item-inactive']")[0]))
drug_name = html.xpath('//*[@id="wrap"]/div[1]/ul/li[1]/div/a[2]')
if not drug_name:print(drug_number,' ',)return ''# print(drug_name[0].text)
drug_name = drug_name[0].textclear = ''
for i in drug_name:if i == '-':breakclear += i
drug_name = ''
for i in clear.split(' '):if len(drug_name) < len(i):drug_name = iprint(drug_number,drug_name )
return drug_name

if name==‘main’:

for i in sys.argv[1].split(','):if len(i)<1:continueget_drug_name(i)

【爬虫】根据国药准字号爬取药名相关推荐

  1. Jsoup:用Java也可以爬虫,怎么使用Java进行爬虫,用Java爬取网页数据,使用Jsoup爬取数据,爬虫举例:京东搜索

    Jsoup:用Java也可以爬虫,怎么使用Java进行爬虫,用Java爬取网页数据,使用Jsoup爬取数据,爬虫举例:京东搜索 一.资源 为什么接下来的代码中要使用el.getElementsByTa ...

  2. python爬取图片教程-推荐|Python 爬虫系列教程一爬取批量百度图片

    Python 爬虫系列教程一爬取批量百度图片https://blog.csdn.net/qq_40774175/article/details/81273198# -*- coding: utf-8 ...

  3. Scrapy爬虫(6)爬取银行理财产品并存入MongoDB(共12w+数据)

      本次Scrapy爬虫的目标是爬取"融360"网站上所有银行理财产品的信息,并存入MongoDB中.网页的截图如下,全部数据共12多万条.   我们不再过多介绍Scrapy的创建 ...

  4. 爬虫篇——代理IP爬取备用及存储

    爬虫篇--代理IP爬取备用及存储 代码 代码 本文通过抓取免费的高匿IP代理,将其写入列表并保存为json格式文件,且将代码进行了封装,方便以后抓取数据时动态的更新handle的IP地址,从一方面避免 ...

  5. scrapy获取a标签的连接_python爬虫——基于scrapy框架爬取网易新闻内容

    python爬虫--基于scrapy框架爬取网易新闻内容 1.需求[前期准备] 2.分析及代码实现(1)获取五大板块详情页url(2)解析每个板块(3)解析每个模块里的标题中详情页信息 点击此处,获取 ...

  6. java爬虫的2种爬取方式(HTTP||Socket)简单Demo(一)

    转载自 java爬虫的2种爬取方式(HTTP||Socket)简单Demo(一) 最近在找java的小项目自己写着玩,但是找不到合适的,于是写开始学一点爬虫,自己也是感觉爬虫比较有趣.这里自己找了一个 ...

  7. python爬去百度百科词条_Python爬虫入门学习实践——爬取小说

    本学期开始接触python,python是一种面向对象的.解释型的.通用的.开源的脚本编程语言,我觉得python最大的优点就是简单易用,学习起来比较上手,对代码格式的要求没有那么严格,这种风格使得我 ...

  8. python爬虫对炒股有没有用_使用python爬虫实现网络股票信息爬取的demo

    实例如下所示: import requests from bs4 import BeautifulSoup import traceback import re def getHTMLText(url ...

  9. 爬虫项目三:爬取选课信息

    爬虫项目三:爬取whut-jwc选课信息 项目实现:主要获得通识选修.个性选课.英语体育选课的课程信息 核心: 1.实现网页登陆 2.爬取课程信息 一.网页信息登陆 from selenium imp ...

最新文章

  1. 无线红外探测器02-硬件设计
  2. android 带记忆功能的播放器源码,Android实现阅读进度记忆功能
  3. 字节一实习生求助:晚上九点半在公司打游戏,被领导发现后开除,将来找工作会背调出来吗?...
  4. IDA分析shellcode导入windows结构体
  5. 怎么导出费用科目凭证明细_公司做账:小规模公司怎么做账?
  6. C++Bitonic Sort双调排序/比并排序的实现算法(附完整源码)
  7. (转)WEB2.0的单手定则
  8. firefox2.0的拖放式搜索怎么不行了?是设置问题吗?
  9. 项目中git远程地址修改
  10. 高瓴投资,顶配创业团队,dora 诚招前端 / Flutter
  11. 如何抢占云栖大会C位?史上最强强强攻略来了
  12. Visual Studio 安装OpenCV及问题总结
  13. h3c服务器r690修改启动顺序,H3C UIS R690 G2服务器 CPU快速入门-6W101
  14. 到底什么方法 训练1000个样本,就能完成400万条评论分类!
  15. 天锐绿盾教您如何管控外接设备
  16. XeCJK 使用系统字体
  17. MDI Jade6的安装(含ocx控件的安装、PDF索引建立、修改注册表)
  18. 本科学计算机大学学金融工程,2020年金融工程专业排名
  19. 元宇宙都市传说02:《头号玩家》的隐喻
  20. quartus ii 增量编译

热门文章

  1. 最完美打开三星a9 liteusb调试模式的步骤
  2. 网站安全检测之图片验证码
  3. windows XP 设置桌面大图标
  4. rabbitmq消息队列入门到整合springboot(篇幅较长内容详细)
  5. 常用的数据采集工具有哪些-免费获取数据信息的工具有哪些
  6. 苹果整治垃圾短信用户叫好
  7. 泰山OFFICE技术讲座:三种文字方向,不同高度+不同对齐的效果对比
  8. unity制作人物残影-绘制的方法
  9. python 摄像头录视频_Python实现树莓派摄像头持续录像并传送到主机
  10. 鸿蒙HarmonyOS与安卓Android的全面对比