Playwright 什么是网络爬虫？

用过电脑的同学，应该对百度和谷歌这两大搜索引擎都不漠生。

通过百度和谷歌，输入关键词，几乎可以搜索到任何你想要的资料。那么，百度和谷歌是如何做到包罗万象，应有尽有的呢？

实际上，百度和谷歌就是这个世界上两个最大的爬虫公司，没有之一！

因为我们的互联网是由一个个站点组成的，站点之间相互联系，组成了整个互联网这张大网。而网络爬虫就在这些站点之间来回爬，发现有用的信息，就记录下来，这样我们就可以搜索得到了。所以，爬虫也被叫做网络蜘蛛、网络机器人，我觉得还是蛮贴切的。

百度和谷歌实力雄厚，可以养得起世界上最大的爬虫。可以说，可以爬取这个世界上允许爬取的内容。但对于我们个人或者非搜索引擎公司来说，就没有这个必要了。很多时候，我们可能只需要对互联网网上的一二个网站，或一类信息进行爬取、收录，然后展示给用户，就能获取可观的经济报酬。

比如，一家公司在与另一家公司签订合同时，可能很想知道对方公司的注册资金、资质、风险、社会纠纷等信息。那么有些公司就从网络上专门爬取这类信息，然后将信息打包售卖出去。像企查查、天眼查就是这类公司。

记得十几年前，我还在上大学那会，网络上的歌曲和图片资源并不是那么丰富。想找到一个高质量的歌曲或者图片网站是比较难的。有头脑的站长，就从网络上收集歌曲和图片，然后建立一个网站，供网友下载和查看。当然，下载可能是收费的，也有免费下载然后靠广告维持收入的。那些年，大家还没有太强的版权意识，现在上这类网站越来越少了。

那假如我是一个站长，想建立这样一个网站，我首先就需要从网络上爬取需要的歌曲、图片数据。一般来说，我会在百度里搜索歌曲、图片的关键词，找到一家网站，然后打开，找到我需要的歌曲，点击下载，将歌曲文件保存到本地磁盘，最后，将这些歌曲文件进行整理，形成网站上可供查看的数据，这样网友就能看到了。

可如果我想下载的文件成千上万，靠着两只手一个个点击下载保存整理，效率实在是太低了，而且也非常枯燥不是吗。

这个时候，如果有个工具，能帮我一遍遍的重复刚才的工作，岂不是省心省时省力！

很幸运，网络爬虫就可以帮忙完成这类事件。

点此免费加入Python网络爬虫学习交流QQ群：428518750

干货分享、技术提升、面试笔试、学习交流，欢迎关注公众号：xuesql。QQ学习交流群：209942678。