巨潮网站爬虫程序修改

巨潮网站爬虫程序修改大概是16年写出的巨潮网站信息的爬虫程序。在昨天的程序日志里显示已经不能正常请求到数据了。程序报错是:地址被重定向了20次,程序直接退出。后来查到论坛中有人提到:“多半是重定向又回到原来的页面了.”网站做了一点反爬处理?之前的请求如下:程序最开始写的时候没有写header信息,在原来

大家好,欢迎来到IT知识分享网。

大概是16年写出的巨潮网站信息的爬虫程序。在昨天的程序日志里显示已经不能正常请求到数据了。

程序报错是:

java.net.ProtocolException: Server redirected too many  times (20)

  

地址被重定向了20次,程序直接退出。

后来查到论坛中有人提到:

     “多半是重定向又回到原来的页面了.  ”

网站做了一点反爬处理?

 

之前的请求如下:

POST
http://www.cninfo.com.cn/cninfo-new/announcement/query

POST参数:
column=szse&&columnTitle=历史公告查询&pageNum=1&pageSize=30&tabName=fulltext&seDate=2018-01-10 ~ 2018-01-11
Content-Type:application/x-www-form-urlencoded

  

程序最开始写的时候没有写header信息,在原来的url请求函数中设置了UA属性

conn.setRequestProperty("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36");

  

程序再跑起来,还是最初的错误。到在线POST工具上去发送一次请求看什么情况:

巨潮网站爬虫程序修改

提交后结果:

第一次正常返回了JSON(没有截到图),

第二次:

巨潮网站爬虫程序修改

 

已经不是UA的问题了。

 

之后看到http://blog.csdn.net/qq_34670293/article/details/78041059 给出的解决方案

在请求之前加上一行代码

CookieHandler.setDefault(new CookieManager(null, CookiePolicy.ACCEPT_ALL));

  

 请求成功了。

具体类使用方法和作用还在研究。

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/34288.html

(0)

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

关注微信