帮助中心

现在我们可以通过python语言写出爬虫程序来实现页面抓取、定时启动更新、定时发邮件提醒功能。虽然python的爬虫程序可以在本地运行,但是如果是要爬取数十万页面的内容,电脑不能一直开机,本地网络质量不稳定的情况下,使用服务器来运行爬虫程序是最佳的选择。不过现在的服务器类型那么多,性能及价格不一,那么选择什么样的服务器更适合作为爬虫服务器来使用呢?首先我们需要对爬虫程序所需要的资源以及服务器配置来

当前位置: 首页  >> 新闻中心  >> 帮助中心  >> 查看详情

对于需要长期运行的python爬虫程序选择什么样的服务器来运行比较好

浏览量:1113 时间:2023-08-16 05:34:05

现在我们可以通过python语言写出爬虫程序来实现页面抓取、定时启动更新、定时发邮件提醒功能。虽然python的爬虫程序可以在本地运行,但是如果是要爬取数十万页面的内容,电脑不能一直开机,本地网络质量不稳定的情况下,使用服务器来运行爬虫程序是最佳的选择。不过现在的服务器类型那么多,性能及价格不一,那么选择什么样的服务器更适合作为爬虫服务器来使用呢?

首先我们需要对爬虫程序所需要的资源以及服务器配置来确定配置参数:

序列号 CPU RAM HDD 带宽 售价(美元) 免费试用
香港服务器1 E5-2620 32G 1T HDD 50M/无限流量 $196.00 立即申请
香港服务器2 E5-2650 32G 1T HDD 50M/无限流量 $256.00 立即申请
香港服务器3 E5-2680 32G 1T HDD 50M/无限流量 $316.00 立即申请
香港服务器4 E5-2690 32G 1T HDD 50M/无限流量 $336.00 立即申请
香港服务器5 E5-2697 32G 1T HDD 50M/无限流量 $376.00 立即申请
香港服务器6 E5-2620*2 32G 1T HDD 50M/无限流量 $376.00 立即申请
香港服务器7 E5-2650*2 32G 1T HDD 50M/无限流量 $436.00 立即申请
香港服务器8 E5-2680*2 32G 1T HDD 50M/无限流量 $476.00 立即申请
香港服务器9 E5-2690*2 32G 1T HDD 50M/无限流量 $556.00 立即申请
香港服务器10 E5-2697*2 32G 1T HDD 50M/无限流量 $596.00 立即申请
香港服务器11 E5-2680v4*2 32G 1T HDD 50M/无限流量 $696.00 立即申请
香港服务器12 E5-2698v4*2 32G 1T HDD 50M/无限流量 $796.00 立即申请

假如页面爬取总数是30万左右,接下来需要确定的是:页面每天都需要爬一遍还是说每天只爬其中某一部分即可。

这里我们以最大上限来假设,每天爬30万页面,而且已经考虑了目标的反爬机制、代理池等等所需的条件都已经准备完成,那么需要测算的就是单位时间单核多线程的正常工作效率是多少,也就是爬虫程序能爬多少页面。

在网速不限的情况下,单位内存及CPU最高使用率下能够爬多少个页面,设为N。如果是在额定网速下,内存及CPU有闲置资源时能够爬多少个页面,设为M。

若基于M/N的爬取速度,都能满足每天爬30w的需求,就可以用固定网速下的网速,不限网速的硬件配置。

这里可以先选择弹性云,用最小配置测试,若不满足需求,逐渐增加配置。不过在逐渐升级配置的过程中我们也要考虑相应云服务器配置的成本,因为当云服务器的性能达到一定程度之后,云服务器租用的价格就会大大超过独立服务器,这时候我们就需要使用独立服务器了,而且独立服务器还可以选择多IP的站群服务器,防止爬虫IP过于单一而被屏蔽。

24小时服务器机房客服
帮助中心
  • 24H在线
  • Tg纸飞机