代理IP反爬虫实践操作详解-大鲸vps

　　代理IP反爬虫实践操作详解!反爬虫的策略我们了解得多，但是面对不同网站的不同策略，光有理论知识是不足以成功的。我们需要多看一些实操案例，来进行学习，这样在我们应用起来的时候，才能够自己应对。代理IP下面分享一个实践案例给大家参考。

　　方法：CSS/HTML混淆干扰限制(前端限制)

　　前端通过CSS或者HTML标签进行干扰混淆关键数据，破解需要抽样分析，找到规则，然后替换成正确的数据

　　1、font-face，自定义字体干扰

　　如列子：汽车X家论帖子，猫X电影电影评分

　　<style>

　　@font-face {font-family: 'myfont';src: url('//k2.autoimg.cn/g13/M08/D5/DD/wKgH41oAOg6AMyIvAADPhhJcHCg43..eot');src: url('//k3.autoimg.cn/g13/M08/D5/DD/wKgH41oAOg6AMyIvAADPhhJcHCg43..eot?#iefix') format('embedded-opentype'),url('//k3.autoimg.cn/g13/M05/D3/23/wKjByloAOg6AXB-hAADOwImCtp047..ttf') format('woff');}

　　</style>

　　<div> Mercedes C+ 会员招募<span style='font-family: myfont;'></span></div>

<!--

　　从html中获取【html中文编码】=&#xf159

　　然后解析ttf文件得到【ttf中文编码】列表

　　匹配发现【ttf中文编码】=uniF159可以与【html中文编码】=&#xf159匹配，在第7个，第7个中文就是"中"

　　(抽样分析会发现ttf中中文位置是固定的，中文编码是动态变化的，所以只要映射出【ttf中文编码】索引就可以知道中文字符了)

　　-->

　　破解思路：

　　找到ttf字体文件地址，然后下载下来，使用font解析模块包对ttf文件进行解析，可以解析出一个字体编码的集合，与dom里的文字编码进行映射，然后根据编码在ttf里的序号进行映射出中文。