Cluster,把多核用起来

引子

众所周知,虽然Node的底层有一个IO线程池,但其应用层默认是单线程运行的,对于多核CPU环境来说,是一种资源的浪费。

所幸Node提供了child_process 模块,让开发者得以开多个进程,实现每个进程各自利用一个CPU,以实现多核的利用。

child_process 模块[……]

阅读全文

开源爬虫框架Scrapy

听说Scrapy其实有一段时间了,但只到最近才开始尝试,因为要熟悉整个工具链 (Linux/Python/Vim/Redis…)。

这个框架的特点是结构很清晰。下图为官方文档的架构图,准确的描述了Scrapy内部各组件及数据流。

Scrapy Architecture

Scrapy提供了一个Engine,它的作用是[……]

阅读全文