网络资讯

目标网络完善的客服机制,能快速解决您的疑问。


html标签干扰爬虫破解方法

2019-10-08 10:26:00   来源:   点击:
  不同的网站采用不一样的反爬虫方法,这个时候就需要我们爬虫工程师去进行好好研究了。针对每一种不同的方案,我们都能够找到一个突破口,这样才是爬虫的正确姿态。代理IP下面跟大家说说html标签干扰怎么破。

 

html标签干扰爬虫破解方法

 

  html标签干扰

 

  通过在重要数据的标签里加入一些有的没的隐藏内容的标签,干扰数据的获取。

 

  如例子:xxIP代理平台

 

  <!--html-->

  <td class="ip">

  <p style="display:none;">2</p>

  <span>2</span>

  <span style="display:inline-block;"></span>

  <div style="display: inline-block;">02</div>

  <p style="display:none;">.1</p>

  <span>.1</span>

  <div style="display:inline-block;"></div>

  <span style="display:inline-block;"></span>

  <div style="display:inline-block;">09</div>

  <span style="display: inline-block;">.</span>

  <span style="display:inline-block;">23</span>

  <p style="display:none;">7</p>

  <span>7</span>

  <p style="display:none;"></p>

  <span></span>

  <span style="display: inline-block;">.</span>

  <div style="display: inline-block;"></div>

  <p style="display:none;">3</p>

  <span>3</span>

  <div style="display: inline-block;">5</div>:

  <span class="port GEA">80</span>

  </td>

  <!--js-->

  <script>

  $(".ip:eq(0)>*:hidden").remove()

  $(".ip:eq(0)").text()

  </script>

  <!--

  输出:202.109.237.35:80

 

  通过移除干扰标签里有display:none隐藏标签,然后再获取text就不会有干扰的内容了

 

  -->

  破解思路:

 

  过滤掉干扰混淆的HTML标签,或者只读取有效数据的HTML标签的内容。

 

  以上就是具体的操作方案,动态ip,自建200+机房,数万拨号线路,提供企业级HTTP代理服务,IP覆盖全国200+城市,高匿名代理IP帮助你保护个人隐私。无论是网络爬虫、互联网营销、投票打榜都可以使用。

上一篇:Python切换代理IP的方法
下一篇:2种对代理服务器防御的方式


关闭
18076763811
动态IP