互联网+时代的来临,移动互联网技术的快速发展,并且在各个领域中应用,为其他行业的发展提供了技术支持。随时随地发布新闻、了解咨询、关注国计民生以及发表个人观点和看法成为新常态。 舆情的发生、发展、演化及传播等特点发生着翻天覆地的变化,与之相应的舆情监测、分析和决策方法日益成为公司部门关注的焦点。利用信息技术、舆情监测等方面理念、理论及方法对网络舆情的演化发展进行了大量研究,提出面向大数据的网络舆情监测:发现舆情主题,分析情感倾向,设计主题,传播趋势;采用数据挖掘技术在事前、事中和事后分三个阶段对舆情进行分析,对其风险进行评价,预测其发展趋势,及时提出预警。 由此可见,时代在进步,技术在发展, 工作模式、工作方法的革新势在必行。过去在网络舆情处置中采用过“遮、掩、封、堵、删”等极端手段,随着“大数据+移动互联网”的蓬勃发展,这些方法和手段往往会使问题复杂化,增加问题的神秘感,激发民众的好奇心,给敌对势力以大肆渲染和炒作的借口。不如敞开胸怀,正视问题,走入民众,主动发声,参与互动, 利用大数据,依靠新技术,“治理+智理”,在解决问题过程中不断提升解决问题的能力。 提出面向大数据的舆情监测、分析和决策新理念,新方法。按照图1的逻辑流图展开,面向大数据,分数据流和控制流两方面。以数据流将舆情的处理分为三个部分,舆情监测,舆情分析和舆情决策。 网络舆情监测的数据是决策者进行数据分析和决策处置的基础。依靠新兴信息技术多角度广泛采集舆情数据,建立和完善舆情数据库、知识库和案例库。 舆情监测的总体思路由事件驱动向数据驱动转变。 有舆情事件发生,针对事件监测舆情的演化,从中发现潜在的舆情风险和工作中的不足。按照图2所示流程展开监测。 涉警舆情数据主要来自三个方面: (1)内部舆情集散地:官方微博、微信公众号、门户网站及政务网等。 (2)外部舆情集散地:微信、微博、论坛、 贴吧以及新闻媒体等网站。 (3)自媒体发言人:头条号、百家号、微信公众号等自媒体号。 舆情监测分两个方法: 被动舆情监测:事件已发生,根据舆情动态,监测词,通过舆情监测系统对舆情集散地,发现热点,提取主题,分析情感倾向。 主动舆情监测:事件未发生,设计并抛出舆情主题,引发讨论,将被动化为主动。 网络舆情数据多为非结构性的多元异构数据。舆情监测的步骤为数据采集→数据预处理→数据存储。信息检索和分析要求建立关键词倒排索引;文本处理需要进行切分词处理,建立词库;语义分析要求建立语义语料库,词性标注库;情感倾向性分析需要建立情感词库等。而案例数据库是进行舆情分析和决策的基础; 通过知识挖掘建立的知识库,舆情分析方法库和舆情决策方法库是舆情智能决策的基础。 将抓来的网页进行粗略处理或者不处理直接保存在本地,用非关系型数据库进行管理,如NoSQL数据库 HBbase,采用的文件系统随之需改为分布式文件系统, 如HDFS。数据存储模式的改变,导致数据处理手段和方法随之改变,大数据对数据处理分析的扩展性、可靠性及时性要求不断提高,需采用各种先进的大数据处理技 术。考虑到采集平台的存储计算能力、可扩展性以及后期维护的方便性,可采用当前流行的开源分布式采集、 存储、计算和处理框架,如建设基于Hadoop的分布式计算平台,可管理不同类型的数据,包括分布式文件系 统HDFS、并行编程框架MapReduce、内存流式计算引擎 Spark、大数据引擎Pig等。 针对事前、事中及事后的网络舆情大数据,其分析流程为:统计、计数→聚类、分类→学习、识别→回归、预测。舆情大数据分析需结合统计方法、机器学习方法以及人工智能算法进行数据挖掘和知识发现,给出各个阶段的舆情风险评价,提供互动查询、图表可视化和分析报表服务,为决策提供参考,具体流程可参考图3。 (一)中文分词和词频统计 舆情分析的核心是自然语言处理,主体是文本数据挖掘,中文分词统计是网络舆情大数据分析的基础,是热点发现,建立倒排索引的关键技术,比如可以对同一时段舆情主题进行分词统计,当前热点便一目了然。对同一主题一个时段内的关注量进行统计可以发现本主题的热度变化。以“雅思”为关键词进行搜索,2019年1 月22日—2月14日为监测时段,时段内出现了一个大的热度波动。继续统计与之相关度高的搜索词频如图。 进一步了解热词相关度,反映了雅思及其相关关键词之间的紧密程度,关键词“报名”“雅思报名官网”“官网”反映出网民时段内对学习雅思、报名等参与较多。 除了数字显示外还可以将词频以词云的形式更为直观地显示,根据1data监测系统,利用pagerank改编的算法,绘制的有关“雅思”的词云。 词云以不同大小和形状非常直观地显示关键词的词频,给人以强烈的视觉冲击。 (二)情感倾向性分析 首先对抓取的舆情数据进行分词处理,然后结合情感语料数据库和情感分析算法对切分后的语料进行情感计算、分析,并进行情感标注。通过聚类和分类得出个体情感倾向和群体情感倾向,以便进一步发现个体情感异常和群体情感异动,以便及时采取措施,疏导负面舆情。根据1data监测系统,利用情感深度学习模式,绘制的有关“雅思”的情感分布图如下 (三)舆情风险评价 对网络信息发布者进行用户画像,包括年龄、性别、地域、使用终端等信息,用户画像便于对高舆情风险人群进行动态跟踪监视;建立风险评价指标体系、风险评价模型,根据动态舆情数据,对事前舆情隐患风险、事中舆情恶化风险以及事后舆情衍生风险进行评价,并适时给出舆情风险预警。 (四)趋势分析预测 通过对采集到的时序网络舆情数据运用线性回归分析、决策树回归分析、隐马尔可夫预测、深度学习等方法进行回归预测分析,可给出网络舆情的演变趋势,为风险预警和处置决策提供参考。 (五)大数据分析工具 EXCEL内置的财务统计函数可以做一些统计分析, 如计数、相关性分析、线性回归等,如果能灵活应用 VBA可以大大扩充Excel的统计分析功能;SPSS、SAS是专业的统计分析、数据挖掘工具,功能强大,接口丰富, 编程简单,但成本高昂,不便集成到网络舆情系统中; Matlab是通用的数学数值计算、模拟仿真软件,其统计 分析、机器学习及人工智能方面有很丰富的函数支持, 而且可视化效果也很好,是算法研究的有力工具;R语言是专业的开源大数据统计分析工具,有非常丰富的数据挖掘包,而且方便与第三方函数库和算法库集成,可视化也是其一大优势,是网络舆情大数据分析的首选工具;Python作为一门胶水式的开源编程语言,近年来以其编程简单、功能强大受到各行业青睐,其有很强大的数据挖掘、机器学习和人工智能工具包,而且升级速度很快,是网络舆情大数据分析的理想选择。 (一)舆情专家决策 一是充分利用大数据技术和人工智能技术,做好对重点网站、重点人群的舆情监测,及时发现问题,评价风险,提出预警。同时,积极参与到各焦点话题的讨论中,发帖子、发微博、发微信、写文章、写段子,引导舆论导向,为网络注入正能量;二是充分利用移动互联网平台,进行网络民意调研,改变过去走街串巷式的、专门问卷式的调研,学会从网民对各类事件、各种话题所发表的图、文、声、像等多媒体意见的分析中挖掘提炼对观点、情感和态度。 (二)舆情智能决策 海量异构舆情数据为舆情智能决策的知识挖掘提供了丰富的资源,以机器学习技术为核心的舆情智能决策是未来工作的重要发展趋势。网络舆情智能决策的逻辑框图如下,是决策支持系统和专家系统的合体,建设各种各样的知识库是智能决策的基础,各类机器学习方法是智能决策的主要手段。 网络舆情智能决策支持系统结构框图 建立知识库,采用搜索引擎技术建立理论、政策及相关法律智能咨询系统,提供便民服务。按照预设,到指定舆情集散地、重点人物微博、微信采集多媒体数据,识别舆情主题,分析情感倾向,建立主题识别知识库、情感识别知识库、决策模型库,决策知识库,最终实现政策解读专家系统,机器人聊天交流系统,决策建议推送系统。其中决策建议推送可以结合微信公众号、以及电子邮件等多种方式展开。一、大数据舆情背景
二、面向大数据的舆情监测
三、面向大数据的舆情分析
四、面向大数据的舆情决策