教大家用python爬取猫眼数据，破解里面的字体woff最新

爬取数据不难，恶心的是各网站的各种反爬技术，替换字体，精灵图，数据加密等等，猫眼就是用到字体替换，简单来说就是字体映射，

首先先导入库，没有先pip安装

from fontTools.ttLib import TTFont

作用是把woff字体文件转成xml文件，

woff字体文件在猫眼页面css哪里

html页面位置

@font-face {
font-family: stonefont;
src: url('//vfile.meituan.net/colorstone/83d4dbb88976ee21d2cb2620b6051da23168.eot');
src: url('//vfile.meituan.net/colorstone/83d4dbb88976ee21d2cb2620b6051da23168.eot?#iefix') format('embedded-opentype'),
url('//vfile.meituan.net/colorstone/636dfb48d34fec199c62eb80acb2830b2080.woff') format('woff');
}

.stonefont {
font-family: stonefont;

font=TTFont('./猫眼2084_new.woff')#读取woff文件
# font.saveXML('./m.xml')#转成xml

xml文件打开如下图

先找出数字的规律，然后再提取数据再替换就行了，那么问题又来了，猫眼每次刷新页面对应数字的位置又不一样，那之前找出来的规律是不是没有了？所以还需要进一步的处理，

第一次获取字体的规律

dict={}

num = [6, 2, 9, 0, 1, 8, 4, 3, 7, 5]
list=font.getGlyphOrder()[2:]

for n,p in zip(list,num):dict[n]=p

先把第一次获取的字体规律对应好合成一个字典，

然后再通过

getGlyphNames()对象的方法对应起来就行了

看代码吧

font=TTFont('./猫眼2084_new.woff')#读取woff文件
# font.saveXML('./m.xml')#转成xml
num = [6, 2, 9, 0, 1, 8, 4, 3, 7, 5]
list=font.getGlyphOrder()[2:]
print(list)
for n,p in zip(list,num):dict[n]=p
print(dict)
font1 = TTFont('./猫眼222字体.woff')  # 读取新的woff文件
# font1.saveXML('./m999.xml')  # 转成xml
ff_list=font1.getGlyphNames()#返回一个对象
ff_news=font1.getGlyphOrder()
for fo in ff_news:fo2=font1['glyf'][fo]for fff1 in list:fo3=font['glyf'][fff1]if fo2==fo3:print(fo,dict[fff1])

关系对应起来了

那么剩下来把提取的字体替换就行了

因为

显示是&#x

所以把字符uni替换成&#x

这就用到字符串方法了replace（）

效果如图

好了，还有天眼网站的反爬也挺恶心，只要找到字体的规律就可以了

教大家用python爬取猫眼数据，破解里面的字体woff最新相关推荐

python爬百度翻译-教大家用python爬取百度翻译，超简单
一,首先导入urllib里面的request和parse:这里导入parse主要字符转码 from urllib import request,parse 二,爬取别人的网站最好加入伪装,也就是浏览器 ...
python爬取并翻译_教大家用python爬取百度翻译，超简单-Go语言中文社区
一,首先导入urllib里面的request和parse:这里导入parse主要字符转码 from urllib import request,parse 二,爬取别人的网站最好加入伪装,也就是浏览器 ...
教你用python爬取网站数据
编码问题因为涉及到中文,所以必然地涉及到了编码的问题,这一次借这个机会算是彻底搞清楚了. 问题要从文字的编码讲起.原本的英文编码只有0~255,刚好是8位1个字节.为了表示各种不同的语言,自然要进行 ...
实战｜手把手教你用Python爬取存储数据，还能自动在Excel中可视化
来源 | 早起Python 大家好,在之前我们讲过如何用Python构建一个带有GUI的爬虫小程序,很多本文将迎合热点,延续上次的NBA爬虫GUI,探讨如何爬取虎扑NBA官网数据,并且将数据写入Exc ...
钱袋子往哪走？教你用Python爬取基金数据
年关将至,钱袋子往哪走? 有人买了定期存款,3年,年利率:3.987. 按存50w计算 0.0385 50万,3年息:6万,月息:1666.72元 0.039785 50万,3年息:6.21万,月息: ...
带着大家用Python爬取小红书，完完整整的全过程
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 以下文章来源于Python进击者 ,作者kuls Python爬虫.数据分析.网站开发等案例 ...
利用python爬取猫眼电影，分析《大侦探皮卡丘》|凹凸数读
利用python爬取猫眼电影,分析<大侦探皮卡丘>,看看当皮卡丘长出绒毛,"丑拒"还是"真香"都在猫眼短评里了. 本文首发于微信公众号<凹凸数 ...
python爬取资料怎么样_手把手教你Python爬取新房数据
原标题:手把手教你Python爬取新房数据项目背景新房数据,对于房地产置业者来说是买房的重要参考依据,对于房地产开发商来说,也是分析竞争对手项目的绝佳途径,对于房地产代理来说,是踩盘前的重要准备. ...
python爬取猫眼电影数据
每天一点点,记录学习每一步近期爬虫项目: 1:python 爬取菜鸟教程python100题,百度贴吧图片反爬虫下载,批量下载 2:python爬虫爬取百度贴吧图片,requests方法 3:pyt ...

教大家用python爬取猫眼数据，破解里面的字体woff最新

教大家用python爬取猫眼数据，破解里面的字体woff最新相关推荐

最新文章

热门文章