网络爬虫简介

网络爬虫是什么

根据一般定义：

网络爬虫，是一种按照一定规则，自动地浏览万维网信息地程序或者脚本。

由上述定义可知，网络爬虫是一种程序或者脚本，用于自动化地访问万维网地信息。提取关键信息可知网络爬虫地特性为：

超文本传输协议，是万维网的数据通信的基础。爬虫可以基于此协议，通过统一资源标识符（URL）来获取万维网上的信息。

HTTP协议有两个特点，能够被爬虫利用：

正是基于上述两点，爬虫才能更容易地、准确快速地获取信息。

“万维网”是一个由许多超文本互相链接组成的系统。由于其“互相链接”的特性，我们可以通过一个 URL 标识的资源找到另一个（或者多个）资源。

“万维网”中的超文本通过互相链接，组成了一个网状结构。而网络爬虫，能通过一个资源寻找到另一个资源，并循环下去。就如同一个爬虫在“万维网”的网状结构中穿行，这也是“爬虫”名称的由来。

爬虫基本结构

基于上图，一个简单的爬虫，应该具有下述四点核心功能：

爬虫无论如何优化，都是为了更好地执行上述四个功能。后续地优化，也都将以这四个功能为基础。