爬虫（爬虫是什么）

导读大家好，小皮来为大家解答以上问题。爬虫，爬虫是什么这个很多人还不清楚，现在一起跟着小编来瞧瞧吧！ 1、网络爬虫(Web crawler，又称网...

大家好，小皮来为大家解答以上问题。爬虫，爬虫是什么这个很多人还不清楚，现在一起跟着小编来瞧瞧吧！

1、网络爬虫(Web crawler，又称网络蜘蛛、网络机器人，在FOAF社区中更多的是指网络追踪器)是按照一定的规则自动抓取万维网信息的程序或脚本。它们广泛应用于互联网搜索引擎或其他类似网站中，能够自动收集所有能够访问的页面，从而获取或更新这些网站的内容和检索方法。

2、从功能上讲，爬虫一般分为三个部分：数据采集、处理和存储。

3、网络爬虫系统的功能是下载网页数据，为搜索引擎系统提供数据源。许多大型网络搜索引擎系统都是基于网络数据收集的搜索引擎系统，可见网络爬虫在搜索引擎中的重要性。

4、在网络爬虫的系统框架中，主进程由控制器、解析器和资源库组成。

5、控制器的主要工作是在多线程中给每个爬虫线程分配任务；解析器的主要工作是下载网页并进行处理，包括JS脚本标签、CSS代码内容、空格字符、HTML标签等等。

6、资源库用于存储下载的web资源，这些资源通常存储在大型数据库中并建立索引。

关于爬虫，爬虫是什么的介绍到此结束，希望对大家有所帮助。