Python爬虫基础之爬虫的分类知识总结

一、通用爬虫

通用网络爬虫是搜索引擎抓取系统(Baidu、Google、Sogou等)的一个重要组成部分。主要目的是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。为搜索引擎提供搜索支持。

第一步

搜索引擎去成千上万个网站抓取数据。

第二步

搜索引擎通过爬虫爬取到的网页，将数据存入原始页面数据库(也就是文档库)。其中的页面数据与用户浏览器得到的HTML是完全—样的。

第三步

二、搜索引擎的局限性

搜索引擎抓取的是整个网页，不是具体详细的信息。
搜索引擎无法提供针对具体某个客户需求的搜索结果。

聚焦爬虫

针对通用爬虫的这些情况，聚焦爬虫技术得以广泛使用。聚焦爬虫，是"面向特定主题需求"的一种网络爬虫程序，它与通用搜索引擎爬虫的区别在于：聚焦爬虫在实施网页抓取时会对内容进行处理筛选，尽量保证只抓取与需求相关的网页数据。

三、Robots协议

robots是网站跟爬虫间的协议，用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限，也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。当一个搜索蜘蛛访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在，所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。——百度百科

Robots协议也叫爬虫协议、机器人协议等，全称是“网络爬虫排除标准”(Robots ExclusionProtocol)，网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取，例如:

四、请求与相应

网络通信由两部分组成:客户端请求消息与服务器响应消息

浏览器发送HTTP请求的过程：

2.浏览器分析Response中的HTML，发现其中引用了很多其他文件，比如Images文件，CSS文件，JS文件。浏览器会自动再次发送Request去获取图片，CSS文件，或者JS文件。

3.当所有的文件都下载成功后，网页会根据HTML语法结构，完整的显示出来了。

实际上我们通过学习爬虫技术爬取数据，也是向服务器请求数据,获取服务器响应数据的过程。

到此这篇关于Python爬虫基础之爬虫的分类知识总结的文章就介绍到这了,更多相关Python爬虫的分类内容请搜索本网站以前的文章或继续浏览下面的相关文章希望大家以后多多支持本网站！

您可能感兴趣的文章:

Python爬虫数据的分类及json数据使用小结
python爬虫scrapy图书分类实例讲解
Python爬虫实现的根据分类爬取豆瓣电影信息功能示例
Python异步爬虫实现原理与知识总结
Python爬虫之线程池的使用
python基础之爬虫入门
python爬虫请求库httpx和parsel解析库的使用测评
Python爬虫之爬取最新更新的小说网站
用Python爬虫激活成功教程滑动验证码的案例解析

Python爬虫基础之爬虫的分类知识总结

目录

一、通用爬虫

二、搜索引擎的局限性

三、Robots协议

四、请求与相应

2023年最新react面试题总结大全(附详细答案)

python实现自动更换ip的方法

Python中的for循环示例详解

可爱松鼠微信头像图片

Ghost安装器怎么安装Win10-Ghost安装器下安装Win10专业版系统详细图文教程

VUE3使用JSON编辑器的详细图文教程

iphone X如何关闭后台？苹果iphone X关闭软件后台方法介绍

Uint 和 int 的区别解析

Headshot插件如何使用-Headshot插件使用教程

Filecoin(FIL)是什么币？如何挖掘Filecoin

PHP中strpos、strstr和stripos、stristr函数分析

JavaScript生成UUID的五种方法详解

小红书电脑端注册教程，轻松上手小红书

JSON.parse损坏大数字的原因解析及解决方案

原生javascript的简单弹幕插件MyukiDanMu

剑网3 95版本苍云到现阶段攻略

宝可梦剑盾怎么刷努力值刷努力值方法一览

GTA5全收集要素一览 GTA5收集地图大全

王者荣耀如何修改重复昵称-王者荣耀修改重复昵称教程

realme真我V30值得入手吗 realme真我V30详细评测

Python爬虫基础之爬虫的分类知识总结

目录

一、通用爬虫

二、搜索引擎的局限性

三、Robots协议

四、请求与相应

2023年最新react面试题总结大全(附详细答案)

python实现自动更换ip的方法

Python中的for循环示例详解

可爱松鼠微信头像图片

Ghost安装器怎么安装Win10-Ghost安装器下安装Win10专业版系统详细图文教程

VUE3使用JSON编辑器的详细图文教程

iphone X如何关闭后台？苹果iphone X关闭软件后台方法介绍

Uint 和 int 的区别解析

Headshot插件如何使用-Headshot插件使用教程

Filecoin(FIL)是什么币？如何挖掘Filecoin

PHP中strpos、strstr和stripos、stristr函数分析

JavaScript生成UUID的五种方法详解

小红书电脑端注册教程，轻松上手小红书

JSON.parse损坏大数字的原因解析及解决方案

原生javascript的简单弹幕插件MyukiDanMu

剑网3 95版本苍云到现阶段攻略

宝可梦剑盾怎么刷努力值 刷努力值方法一览

GTA5全收集要素一览 GTA5收集地图大全

王者荣耀如何修改重复昵称-王者荣耀修改重复昵称教程

realme真我V30值得入手吗 realme真我V30详细评测

宝可梦剑盾怎么刷努力值刷努力值方法一览