代理IP反爬虫实践操作详解!反爬虫的策略我们了解得多,但是面对不同网站的不同策略,光有理论知识是不足以成功的。我们需要多看一些实操案例,来进行学习,这样在我们应用起来的时候,才能够自己应对。代理IP下面分享一个实践案例给大家参考。
方法:CSS/HTML混淆干扰限制(前端限制)
前端通过CSS或者HTML标签进行干扰混淆关键数据,破解需要抽样分析,找到规则,然后替换成正确的数据
1、font-face,自定义字体干扰
如列子:汽车X家论帖子,猫X电影电影评分
<!--css-->
<!--找到://k3.autoimg.cn/g13/M05/D3/23/wKjByloAOg6AXB-hAADOwImCtp047..ttf-->
<style>
@font-face {font-family: 'myfont';src: url('//k2.autoimg.cn/g13/M08/D5/DD/wKgH41oAOg6AMyIvAADPhhJcHCg43..eot');src: url('//k3.autoimg.cn/g13/M08/D5/DD/wKgH41oAOg6AMyIvAADPhhJcHCg43..eot?#iefix') format('embedded-opentype'),url('//k3.autoimg.cn/g13/M05/D3/23/wKjByloAOg6AXB-hAADOwImCtp047..ttf') format('woff');}
</style>
<!--html-->
<!--会员招募中-->
<div> Mercedes C+ 会员招募<span style='font-family: myfont;'></span></div>
<!--
从html中获取【html中文编码】=
然后解析ttf文件得到【ttf中文编码】列表
匹配发现【ttf中文编码】=uniF159可以与【html中文编码】=匹配,在第7个,第7个中文就是"中"
(抽样分析会发现ttf中中文位置是固定的,中文编码是动态变化的,所以只要映射出【ttf中文编码】索引就可以知道中文字符了)
-->
破解思路:
找到ttf字体文件地址,然后下载下来,使用font解析模块包对ttf文件进行解析,可以解析出一个字体编码的集合,与dom里的文字编码进行映射,然后根据编码在ttf里的序号进行映射出中文。
可以使用FontForge/FontCreator工具打开ttf文件进行分析。
这一种情况的解答思路你记住了吗?对症下药才能够让爬虫效果发挥得更好哦。