文 献 综 述
摘 要:
文章分析了当前互联网迅速发展背景下,对于网上意见观点进行挖掘分析的重要意义,说明了一些常用的自然语言处理概念和观点挖掘方法。提出了针对电商评论进行抓取和观点挖掘的一种可行的方法和技术思路。
关键字:电商 爬虫 自然语言处理 观点挖掘
1 背景:
随着互联网的迅速普及,网上论坛和社区以及各种平台不断产生并集聚了大量有价值的观点,无论是关于产品、政策,还是其他方面,人们习惯在互联网上发表自己的看法和观点,并利用商品的评论来帮助自己在网购时进行决策,与此同时,针对这些评论的分析也将对商家或生产者发挥越来越重要的作用,它不光能帮助人们改进产品,及时发现问题,也能帮助设计者发掘消费者的潜在需求,创造更大的市场。
2 电商信息抓取:
商品基本信息获取:不同的电商网站本身采用的前端技术不同,主流的电商平台(如天猫,淘宝,京东,亚马逊)的页面的加载都是通过JavaScript异步加载实现的,这就需要用js渲染器来获取页面上的信息。在python语言框架下,使用Selenium配合phantomjs可以解决这个问题,虽然对CPU和内存的需求有较大提升,但是在实际应用中并不需要大量进行渲染,所以并不需要特殊的计算资源和网络条件。
评论API分析:商品评论往往也是通过异步加载获取的,这里就可以利用到厂家本身提供的API接口获取数据,在浏览器监视窗口分析请求动态,可以找到评论的API接口url,对其进行分析得出参数含义,即可以利用它来方便获取需要的商品的评论信息。
并行技术:关于多线程、多进程的使用,虽然在抓取的时候,可以用并行技术提高访问效率,但有些网站会对于这种行为进行限制,比如阻止该IP在一定时间内的访问。所以在使用并行技术时一定要注意控制并发量和间隔时间。
