爬虫对服务器 CPU,内存和网速的影响
来源:浮华 时间:2021-08-23 10:34:25阅读:0
这儿介绍网络爬虫对服务器的影响,主要是给新手同学们普及化一下网络爬虫的基本知识。
在大家写网络爬虫的情况下,最先会想起开线程同步,假如使用的语言表达是Python,很悲剧,由于Python存在GIL,在任何时刻,CPU内只有一条进程在运作,可是Python的线程同步也可以提升网络爬虫的速率,而且大家用python的线程同步去写网络爬虫的情况下,速率并挺快,它是为什么呢?由于网络爬虫是偏重于io的,网络IO和磁盘io是网络爬虫的较大短板,如今CPU的响应速度迅速,相对于要求而言,CPU的速率更快。网络要求需要等候另一方服务器的响应,这一全过程较慢。而免费下载到数据信息后往自身数据库插进数据信息需要等候自身的硬盘响应。那麼是否有一个更强的方式完成网络爬虫的高并发免费下载呢?
回答是:有,大家可以使用第三方的架构,例如使用多线程架构gevent,tornado等,或是是Python的多进程 多线程方式,可以极大地提升大家的网络速度。
直接黏贴二张照片,第一种是耗费CPU和运行内存和带宽,第二张照片是多进程使用。
第一种照片
第二种照片
在抓取某一网站的情况下,与此同时打开了64个过程,而且是多线程的方式,网络速度稳定在700k上下,由于企业运维给网络速度限制了,不太可能加快网速了,随后是运行内存耗费是87%,运行内存是12G,CPU耗费是100%,CPU耗费为什么那么高呢?主要是数据信息分析需要耗费CPU和过程转换也需要耗费CPU。一个网页页面的尺寸应当在10k到20k中间,粗略地统计分析一下,一分钟能免费下载1750个网页页面,包含数据信息的免费下载,分析和进库整个全过程。这一网络速度是1750*一个小时相当于105000,换句话说一个小时是能免费下载十万个网页页面。
这一速率如何?我认为这一网络速度是十分的慢,为什么,由于这一网站地址他封ip了,需要根据代理商去浏览她们的服务器,这也是十分用时的一个全过程,只有根据ip池去解决,ip池里边维护保养了1000上下合理ip,而且有专业的服务项目去做认证,可以随时随地提取一个ip去爬取总体目标网站。理想化的情况是一分钟爬取3000条数据信息,一天24小时爬取五百万上下个网页页面数据信息。
小伙伴们是否很诧异?网络百分之九十的流量全是网络爬虫给奉献的,网络爬虫给总体目标网站导致了很大的工作压力,为了更好地避免给总体目标网站导致毁坏,不建议打开太多的高并发。
微云网络专业提供python爬虫ip代理商服务器,干万ip库,随意转换;十七年的IDC领域服务项目工作经验;有着全世界超出120个国家地域的数据中心!详詢微云网络在线客服电话400-0289-798。
声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:shawn.lee@vecloud.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。
本站原创内容未经允许不得转载,或转载时需注明出处:https://news.kd010.com/fwqjs/2244.html
TAG标签:爬虫服务器