【爬虫】根据国药准字号爬取药名
coding:utf-8
import requests
import json
from lxml import etree
import sys
“”"
根据药品国字号爬取www.yaofangwang.com上的药品名称
有些药品名称商业网站上没有需要在www.nmpa.gov.cn上手动搜索,进口药品要选择进口目录查找
执行:
python3 file.py 多条或者单条药品的国字号,用英文逗号隔开
python3 file.py Z10910055,Z45021680,H20010217,Z20010131,Z10920002
在终端输出:
Z10910055 枫蓼肠胃康颗粒
…
Z10920002 活血止痛胶囊
“”"
def get_drug_name(drug_number=None):
“”"
drug_number:国药准字号
https://www.yaofangwang.com/search.html?keyword=H20013003&price=1
return:药品名称
“”"
url = ‘https://www.yaofangwang.com/search.html?keyword=’+drug_number+‘&price=1’
From_data={
“User-Agent”: “Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36”
}
response = requests.post(url,data=From_data)
# print(response)
content = response.text
# print(content)
# 使用xpath取名字
# //*[@id=“wrap”]/div[1]/ul/li[1]/div/a[1]/img
html = etree.HTML(content)
# print(etree.tostring(html.xpath("//li[@class='item-inactive']")[0]))
drug_name = html.xpath('//*[@id="wrap"]/div[1]/ul/li[1]/div/a[2]')
if not drug_name:print(drug_number,' ',)return ''# print(drug_name[0].text)
drug_name = drug_name[0].textclear = ''
for i in drug_name:if i == '-':breakclear += i
drug_name = ''
for i in clear.split(' '):if len(drug_name) < len(i):drug_name = iprint(drug_number,drug_name )
return drug_name
if name==‘main’:
for i in sys.argv[1].split(','):if len(i)<1:continueget_drug_name(i)
【爬虫】根据国药准字号爬取药名相关推荐
- Jsoup:用Java也可以爬虫,怎么使用Java进行爬虫,用Java爬取网页数据,使用Jsoup爬取数据,爬虫举例:京东搜索
Jsoup:用Java也可以爬虫,怎么使用Java进行爬虫,用Java爬取网页数据,使用Jsoup爬取数据,爬虫举例:京东搜索 一.资源 为什么接下来的代码中要使用el.getElementsByTa ...
- python爬取图片教程-推荐|Python 爬虫系列教程一爬取批量百度图片
Python 爬虫系列教程一爬取批量百度图片https://blog.csdn.net/qq_40774175/article/details/81273198# -*- coding: utf-8 ...
- Scrapy爬虫(6)爬取银行理财产品并存入MongoDB(共12w+数据)
本次Scrapy爬虫的目标是爬取"融360"网站上所有银行理财产品的信息,并存入MongoDB中.网页的截图如下,全部数据共12多万条. 我们不再过多介绍Scrapy的创建 ...
- 爬虫篇——代理IP爬取备用及存储
爬虫篇--代理IP爬取备用及存储 代码 代码 本文通过抓取免费的高匿IP代理,将其写入列表并保存为json格式文件,且将代码进行了封装,方便以后抓取数据时动态的更新handle的IP地址,从一方面避免 ...
- scrapy获取a标签的连接_python爬虫——基于scrapy框架爬取网易新闻内容
python爬虫--基于scrapy框架爬取网易新闻内容 1.需求[前期准备] 2.分析及代码实现(1)获取五大板块详情页url(2)解析每个板块(3)解析每个模块里的标题中详情页信息 点击此处,获取 ...
- java爬虫的2种爬取方式(HTTP||Socket)简单Demo(一)
转载自 java爬虫的2种爬取方式(HTTP||Socket)简单Demo(一) 最近在找java的小项目自己写着玩,但是找不到合适的,于是写开始学一点爬虫,自己也是感觉爬虫比较有趣.这里自己找了一个 ...
- python爬去百度百科词条_Python爬虫入门学习实践——爬取小说
本学期开始接触python,python是一种面向对象的.解释型的.通用的.开源的脚本编程语言,我觉得python最大的优点就是简单易用,学习起来比较上手,对代码格式的要求没有那么严格,这种风格使得我 ...
- python爬虫对炒股有没有用_使用python爬虫实现网络股票信息爬取的demo
实例如下所示: import requests from bs4 import BeautifulSoup import traceback import re def getHTMLText(url ...
- 爬虫项目三:爬取选课信息
爬虫项目三:爬取whut-jwc选课信息 项目实现:主要获得通识选修.个性选课.英语体育选课的课程信息 核心: 1.实现网页登陆 2.爬取课程信息 一.网页信息登陆 from selenium imp ...
最新文章
- 无线红外探测器02-硬件设计
- android 带记忆功能的播放器源码,Android实现阅读进度记忆功能
- 字节一实习生求助:晚上九点半在公司打游戏,被领导发现后开除,将来找工作会背调出来吗?...
- IDA分析shellcode导入windows结构体
- 怎么导出费用科目凭证明细_公司做账:小规模公司怎么做账?
- C++Bitonic Sort双调排序/比并排序的实现算法(附完整源码)
- (转)WEB2.0的单手定则
- firefox2.0的拖放式搜索怎么不行了?是设置问题吗?
- 项目中git远程地址修改
- 高瓴投资,顶配创业团队,dora 诚招前端 / Flutter
- 如何抢占云栖大会C位?史上最强强强攻略来了
- Visual Studio 安装OpenCV及问题总结
- h3c服务器r690修改启动顺序,H3C UIS R690 G2服务器 CPU快速入门-6W101
- 到底什么方法 训练1000个样本,就能完成400万条评论分类!
- 天锐绿盾教您如何管控外接设备
- XeCJK 使用系统字体
- MDI Jade6的安装(含ocx控件的安装、PDF索引建立、修改注册表)
- 本科学计算机大学学金融工程,2020年金融工程专业排名
- 元宇宙都市传说02:《头号玩家》的隐喻
- quartus ii 增量编译