大数据技术_ 基础理论 之 互联网大数据处理方法

1 互联网信息抓取 1.1概述 互联网信息自动抓取,最常见且有效的方式是使用网络爬虫。 爬虫可以被分为两类: 一类叫作“通用爬虫”; 另一类叫作“聚焦爬虫”。 目前成熟的网络爬虫有很多,其中不乏Googlebot、百度蜘蛛这样的广分布式多服务器多线程的商业爬虫和GNU Wget、Apache Nutch这样的灵活方便的开源爬虫搜索引擎。 1.2Nutch爬虫 1.3案例:招聘网站信息抓取 1.4案
相关文章
相关标签/搜索