腾讯分分彩组三规律 > 分类信息 >

Python菜鸟怎么爬天眼查类型的企业信息

2018-07-05 22:33

  楼主是搞java开发的,目前在ERP行业某大型公司做客户化开发。某天突发奇想可以找一下当地在营的企业信息,最好是按照特定的条件找到所有的信息,这样公司的销售开单会不会好点,老板会不会给涨工资啊,想想还有点小激动,说干就干。

  第一步,先找企业信息,想通过当地的工商或者国家企业信息公示系统获得,之后发现,这也无从下手啊。

  之后在逛百度的时候,看到了天眼查,脑袋突然惊醒,此前曾用到过此类网站查过,之前公司(就是我给干黄的那家公司)怎么忘了啊,好了进行下一环节,分析天眼查。(关于天眼查百度有详细说明)

  经过简单的注册,登录,布拉布拉的不赘述了;按照条件找到所要企业信息,如下图(部分信息)

  此前稍微研究过爬虫,想从java方式入手,总感觉不是自己想要,正好网上接触了Python,所以想用它尝试一下。

  准备Python环境,包括下载、安装、IDE(JetBrainsPyCharm)、pip工具包配置(用来下载相关工具包)等等,环境终于搭好了(如果需要可以后期把这部分单独发表)

  新建项目(名字随便demo命名为tianyancha),红框一定要选择啊,否则后期导包会报错的,之后点击create

  该类型天眼查的网站需要登录才能查询,所以此类爬虫需要携带cookies信息(当然有其他方式,还未研究)进行爬,此类信息需要google浏览器进行分析(有前台编程基础很好理解)获得到相关信息。选择所要爬的页面,在浏览器按F12进入调试模式,之后找到‘Network’栏,刷新网页,在时间点范围选择到最左边刚开始的位置,之后找到浏览器调用的文件选中,查看其header信息,里面有所需要的cookies信息;如下图