coding:utf-8

import requests
import json
from lxml import etree
import sys
“”"
根据药品国字号爬取www.yaofangwang.com上的药品名称
有些药品名称商业网站上没有需要在www.nmpa.gov.cn上手动搜索,进口药品要选择进口目录查找
执行：
python3 file.py 多条或者单条药品的国字号，用英文逗号隔开
python3 file.py Z10910055,Z45021680,H20010217,Z20010131,Z10920002
在终端输出：
Z10910055 枫蓼肠胃康颗粒
…
Z10920002 活血止痛胶囊

“”"

def get_drug_name(drug_number=None):
“”"
drug_number:国药准字号
https://www.yaofangwang.com/search.html?keyword=H20013003&price=1
return：药品名称
“”"
url = ‘https://www.yaofangwang.com/search.html?keyword=’+drug_number+‘&price=1’
From_data={
“User-Agent”: “Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36”
}
response = requests.post(url,data=From_data)
# print(response)
content = response.text
# print(content)
# 使用xpath取名字
# //*[@id=“wrap”]/div[1]/ul/li[1]/div/a[1]/img

html = etree.HTML(content)
# print(etree.tostring(html.xpath("//li[@class='item-inactive']")[0]))
drug_name = html.xpath('//*[@id="wrap"]/div[1]/ul/li[1]/div/a[2]')
if not drug_name:print(drug_number,' ',)return ''# print(drug_name[0].text)
drug_name = drug_name[0].textclear = ''
for i in drug_name:if i == '-':breakclear += i
drug_name = ''
for i in clear.split(' '):if len(drug_name) < len(i):drug_name = iprint(drug_number,drug_name )
return drug_name

if name==‘main’:

for i in sys.argv[1].split(','):if len(i)<1:continueget_drug_name(i)

【爬虫】根据国药准字号爬取药名相关推荐

Jsoup：用Java也可以爬虫，怎么使用Java进行爬虫，用Java爬取网页数据，使用Jsoup爬取数据，爬虫举例：京东搜索
Jsoup:用Java也可以爬虫,怎么使用Java进行爬虫,用Java爬取网页数据,使用Jsoup爬取数据,爬虫举例:京东搜索一.资源为什么接下来的代码中要使用el.getElementsByTa ...
python爬取图片教程-推荐|Python 爬虫系列教程一爬取批量百度图片
Python 爬虫系列教程一爬取批量百度图片https://blog.csdn.net/qq_40774175/article/details/81273198# -*- coding: utf-8 ...
Scrapy爬虫（6）爬取银行理财产品并存入MongoDB（共12w+数据）
本次Scrapy爬虫的目标是爬取"融360"网站上所有银行理财产品的信息,并存入MongoDB中.网页的截图如下,全部数据共12多万条. 我们不再过多介绍Scrapy的创建 ...
爬虫篇——代理IP爬取备用及存储
爬虫篇--代理IP爬取备用及存储代码代码本文通过抓取免费的高匿IP代理,将其写入列表并保存为json格式文件,且将代码进行了封装,方便以后抓取数据时动态的更新handle的IP地址,从一方面避免 ...
scrapy获取a标签的连接_python爬虫——基于scrapy框架爬取网易新闻内容
python爬虫--基于scrapy框架爬取网易新闻内容 1.需求[前期准备] 2.分析及代码实现(1)获取五大板块详情页url(2)解析每个板块(3)解析每个模块里的标题中详情页信息点击此处,获取 ...
java爬虫的2种爬取方式（HTTP||Socket）简单Demo(一)
转载自 java爬虫的2种爬取方式(HTTP||Socket)简单Demo(一) 最近在找java的小项目自己写着玩,但是找不到合适的,于是写开始学一点爬虫,自己也是感觉爬虫比较有趣.这里自己找了一个 ...
python爬去百度百科词条_Python爬虫入门学习实践——爬取小说
本学期开始接触python,python是一种面向对象的.解释型的.通用的.开源的脚本编程语言,我觉得python最大的优点就是简单易用,学习起来比较上手,对代码格式的要求没有那么严格,这种风格使得我 ...
python爬虫对炒股有没有用_使用python爬虫实现网络股票信息爬取的demo
实例如下所示: import requests from bs4 import BeautifulSoup import traceback import re def getHTMLText(url ...
爬虫项目三：爬取选课信息
爬虫项目三:爬取whut-jwc选课信息项目实现:主要获得通识选修.个性选课.英语体育选课的课程信息核心: 1.实现网页登陆 2.爬取课程信息一.网页信息登陆 from selenium imp ...

【爬虫】根据国药准字号爬取药名

coding:utf-8

【爬虫】根据国药准字号爬取药名相关推荐

最新文章

热门文章