本节我们先讲一下网络爬虫的概念,再讲一下网络爬虫的分类,期间会插入我个人的一些见解。
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。
对于我们来说,爬虫需要我们自己写,可以下载的我们眼里最有价值的数据。
通常我们会把收集到的数据进行数据分析:
数据表明:用户购买最多的商品是 100-200 RMB,最理想的定位应是 200 元以内却特别高端的物品。
数据表明:男性最后选择的总是外表好看的,这可能伤了您的心。
获取数据背后的结论(需要一些心理学知识才能推出来),还真须有大量随机的数据;而且爬取的数据要尽量随机、大规模,这样能够排除一切主观的干扰因素。
如果爬虫技术特别 NB,也可以直接去销售数据:
1) http://chinadatatrading.com/ 是销售数据的平台之一。