当前位置:首页 > 代理服务器 >

代理IP反爬虫实践操作详解

时间:2020-07-28 17:43       来源: 大鲸vps 浏览

  代理IP反爬虫实践操作详解!反爬虫的策略我们了解得多,但是面对不同网站的不同策略,光有理论知识是不足以成功的。我们需要多看一些实操案例,来进行学习,这样在我们应用起来的时候,才能够自己应对。代理IP下面分享一个实践案例给大家参考。

代理IP反爬虫实践操作详解

  方法:CSS/HTML混淆干扰限制(前端限制)

  前端通过CSS或者HTML标签进行干扰混淆关键数据,破解需要抽样分析,找到规则,然后替换成正确的数据

  1、font-face,自定义字体干扰

  如列子:汽车X家论帖子,猫X电影电影评分

  <!--css-->

  <!--找到://k3.autoimg.cn/g13/M05/D3/23/wKjByloAOg6AXB-hAADOwImCtp047..ttf-->

  <style>

  @font-face {font-family: 'myfont';src: url('//k2.autoimg.cn/g13/M08/D5/DD/wKgH41oAOg6AMyIvAADPhhJcHCg43..eot');src: url('//k3.autoimg.cn/g13/M08/D5/DD/wKgH41oAOg6AMyIvAADPhhJcHCg43..eot?#iefix') format('embedded-opentype'),url('//k3.autoimg.cn/g13/M05/D3/23/wKjByloAOg6AXB-hAADOwImCtp047..ttf') format('woff');}

  </style>

  <!--html-->

  <!--会员招募中-->

  <div> Mercedes C+ 会员招募<span style='font-family: myfont;'></span></div>

  <!--

  从html中获取【html中文编码】=&#xf159

  然后解析ttf文件得到【ttf中文编码】列表

  匹配发现【ttf中文编码】=uniF159可以与【html中文编码】=&#xf159匹配,在第7个,第7个中文就是"中"

  (抽样分析会发现ttf中中文位置是固定的,中文编码是动态变化的,所以只要映射出【ttf中文编码】索引就可以知道中文字符了)

  -->

  破解思路:

  找到ttf字体文件地址,然后下载下来,使用font解析模块包对ttf文件进行解析,可以解析出一个字体编码的集合,与dom里的文字编码进行映射,然后根据编码在ttf里的序号进行映射出中文。

  可以使用FontForge/FontCreator工具打开ttf文件进行分析。

  这一种情况的解答思路你记住了吗?对症下药才能够让爬虫效果发挥得更好哦。

« 上一篇:高质量代理ip价格一定就高吗
» 下一篇:没有了