文献综述
文 献 综 述1.1研究背景与意义网络信息资源的迅猛增长使得传统搜索引擎已经无法满足人们对有用信息获取的要求,作为搜索引擎的基础和重要组成部分,网络爬虫的作用显得尤为重要。
网络爬虫一般用于搜索引擎,其中很大的推动力是来自各种个人、中小型爬虫。
一些低质量的爬虫主要表现为不遵守Robots 协议、爬行策略未优化、分布式的架构。
随着大数据应用越来越广泛,很多人想研究大数据但需要充足的数据,网络爬虫也变得更有价值。
所以,随着大数据应用的发展,爬虫的使用是不可避免的,并且使用范围会越来越广泛。
近年来,许多创业公司因其发展需要大量的数据。
目前爬虫技术效率较高的就是基于Python 的爬虫技术,它不仅爬取速度快,而且Python 语言的简洁性大大地提高了完成爬取程序的时间,使其可以随着不同的主题网站分析构造URL 并去重。
并且网络爬虫采用多线程技术,将具备更强大的抓取能力。
爬虫在互联网网站上按一定规则去获取所需要的信息。
剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付
