背景和现状
唯品会作为国内发展迅速的大型电商之一,在微博、微信、贴吧、app应用市场等各大网络渠道上,每天会有大量关于唯品会的用户交流、评论、反馈等舆情信息产生。而这些舆情信息中,往往包含着对公司的各种建议、用户心声、体验反馈等有用信息。因此,收集并分析用户的评论反馈,对于企业了解用户的心声和需求、提升用户体验、提高运营效率等方面将有较大的帮助,同时也是产品制定需求的重要参考依据。不过,目前的用户反馈、评论收集、评论分析工作存在着如下主要问题:
- 各个渠道的用户反馈评论信息分散、琐碎,不利于收集,人工爬取评论的速度较慢,成本较高;
- 评论的数量很多且非结构化,分类及语义分析依靠人工效率低下;
- 预警的速度较慢,出现问题无法及时预警,等到发现时,损失已造成;
- 无法对线上舆情形成长期有效的监控,可读性不好,用户体验差。
而互联网舆情监控系统可以很好地解决上述问题,它利用爬虫、搜索引擎、文本挖掘等技术,通过对网络上相关的信息自动采集处理、智能聚类分类、统计分析等,实现各方对自己相关网络舆情监督管理的需要,最终及时形成舆情分析报告、舆情预警等信息,为相关人员全面掌握舆情动态、了解用户心声、调整制定方针政策,提供分析依据。
总体介绍
目前,市面上有腾讯企鹅风讯、百度舆情、七麦数据等舆情监控系统,这些系统能对市面的上的主流应用app,通过分布式爬虫抓取各大应用市场、主流论坛、微博等渠道的用户评论,并对爬取到的信息进行汇总、智能分类、报表输出等。这些舆情分析系统能简化运营、产品对用户口碑的收集工作,在提供专业的运营质量分析的同时,节省了项目人力。市面上的这些系统虽然能为我们提供一些分析和参考数据,但是也存在一定的局限性,如数据来源有限(一般只能提供微博、app应用市场、论坛等渠道的用户评论信息)、无法实现定制化需求等,因此非常有必要开发属于唯品会自己的舆情监控系统,实现丰富的数据来源、各种定制化的功能需求等。
当前唯品会舆情系统评论数据订阅来源主要有各大App应用市场用户评论、微信公众号评论和唯品会内部的客服留言。在获取这三部分数据后,会做持久化存储,用于后期的文本挖掘分析,如图1所示。