随着互联网技术和应用的普及和发展,新闻、论坛、博客、微博客、视频网站等舆情产生速度、传播渠道等均呈现出爆炸式快速增长的态势,据初步统计,2009年以来,互联网网上具有负面影响的舆情数量同比增长了近 2倍以上。目前主要存在以下问题拯待解决: 1)网络舆情监测导控工作几乎完全是通过人工的方式开展的,手工发现关注网站的局部性、时间上的滞后性与信息发布的随意性、随时性之间的矛盾日益严重。 2)缺乏舆情信息综合分析,导致分析关联能力不足。例如,特定舆情事件在新闻、论坛、微博、博客等不同来源上的关联分析。 3)各分支在舆情信息的管理上缺乏统一的信息报送、舆情导控任务下发等业务流程的信息化工具支撑。 4)目前,舆情导控体系中缺乏可量化的考核数据作为各级领导年底评分的依据; 在经过多次现场充分调研的基础上,提出建设舆情综合导控系统的规划,制定一个统一的元数据标准和数据交换接口规范,作为舆情分析研判和考核统计的元数据,从而对互联网上传播的舆情信息进行准确查找、归类、排重、分析、研判、导控和核查,实现对互联网上各类海量数据快速分析处理,更加准确的掌握各类舆情信息传播的数量、范围、趋势、影响等情况,最终形成一套科学、全面、高效地掌握网上舆情监测导控系统。 1.2建设目标 系统建设总体实现目标是:能够全面、准确、及时的获取与“我”有关的网络信息,深层次的对互联网舆情信息进行分析和挖掘,通过统一的综合指挥系统实现舆情的及时上传和导控任务的集中下达,并从在线率、引导发帖、信息报送及任务下发等多方面综合考核,确保以互联网舆情监测小组为核心的整体监测成效。 1总体架构 1.1软件架构 整个系统设计分为数据采集子系统、舆情信息数据仓库、舆情研判分析子系统、引导指挥子系统、引导考核子系统几个部分。 .1.1数据采集子系统 负责对信息源头采集,采集子系统主要实现多线程、集群采集模式。满足项目采集深度和广度要求,采集深度按照需求可采集到新闻评论、微博转发数、粉丝数以及论坛的评论树回帖数等。 采集广度本系统提供通用采集配置,支持大部分新闻、论坛的采集,只需要配置 URL即可实现采集。采集性能可以灵活配置策略,分为指定调度和随机调度两个模式。采集时效性可以定制。 1.1.2舆情信息数据仓库 按照系统制定的数据规范支持外围系统数据接入,数据仓库设计分布式架构,通过集群方式扩展项目的规模。主要分为分布式储存与全文索引、关系数据库。同时对外提供 API访问接口。数据入库经过数据的加工处理包括自动摘要、实体抽取、内容分类等操作为后续研判提供标准数据。 整个系统设计分为数据采集子系统、舆情信息数据仓库、舆情研判分析子系统、引导指挥子系统、引导考核子系统几个部分。 .1.1数据采集子系统 负责对信息源头采集,采集子系统主要实现多线程、集群采集模式。满足项目采集深度和广度要求,采集深度按照需求可采集到新闻评论、微博转发数、粉丝数以及论坛的评论树回帖数等。 采集广度本系统提供通用采集配置,支持大部分新闻、论坛的采集,只需要配置 URL即可实现采集。采集性能可以灵活配置策略,分为指定调度和随机调度两个模式。采集时效性可以定制。 1.1.2舆情信息数据仓库 按照系统制定的数据规范支持外围系统数据接入,数据仓库设计分布式架构,通过集群方式扩展项目的规模。主要分为分布式储存与全文索引、关系数据库。同时对外提供 API访问接口。数据入库经过数据的加工处理包括自动摘要、实体抽取、内容分类等操作为后续研判提供标准数据。