总体框架 网络舆情监控系统以基础硬件为支撑,海量互联网数据源为采集对象,以标准、规范和安全体系为保障,提供给客户集舆情信息的采集、分析、展示、预警、管理、应急导控处置于一体的监控平台。 系统总体框架由硬件支撑层、数据采集层、应用层和操作层组成。采用面向服务的思想,利用松散耦合的分层方式将系统整体上分为四个层次和两个体系,各层间的界限清晰,功能明确而不交叉,具有较高的可配置性和伸缩性。 1 硬件支撑层 硬件支撑层所需设备由客户投入建设,主要由服务器(若干)、存储设备、路由器、网络、安全基础设备等构成,一般放置在信息中心的机房中,也可托管于网通或电信机房,为整个系统提供基础的硬件支撑。互联网信息采集设备需接入互联网,内部用户访问可使用局域网。 2 数据采集层 实现对上万个全国知名网站及论坛、地方性网站及论坛、行业网站及论坛、境外重点中文网站及论坛信息的实时监控;实现对国内外著名博客、微博、贴吧、SNS、QQ群、带文字的音视频、手机网站的信息监控采集。对重点来源网站信息实现5分钟频率更新,一般网站信息更新频率为30-60分钟内。 3 应用层 应用层是整个系统的核心,采用面向服务的思想,为用户输出舆情监测结果和用户对信息的查询、管理等任务。应用层由五大应用平台组成,包括舆情搜索展示平台、舆情管理工作台、应急导控处置平台、用户管理平台和通讯平台,利用Web Services技术为系统升级服务或为其他外部系统提供基于SOAP的远程方法调用接口,用以完成异构系统之间的数据交换和同步。 4 操作层 系统为操作员提供友好的操作界面,易操作、易使用。 5 安全保障体系 从技术安全、运行安全和管理安全三方面构建安全防范体系,切实保护系统的可用行、机密性、完整性、抗抵赖性、可审计性、可控性。 6 标准规范体系 为保证系统有效运行及与后续建设系统有效的集成,在系统建设和运行中,需遵循和制定相关的业务规范、技术标准和运行管理规范。 此外系统还满足高可扩展性和易操作的特性。可根据用户单位的业务需求变化对软件功能进行扩充与拓展;同时软件操作和维护操作简单,便于使用。 技术路线及系统架构 在技术实现上,本互联网舆情监测系统是采用目前最流行的B/S架构,使用面向对象的JAVA开发语言研发而成,具有高扩展性、高移植性和良好的跨平台性。系统总体架构图如下: 舆情搜索和采集系统 互联网信息采集技术是舆情监控系统的基础技术,考察采集技术优劣有及时性和全面性两个指标,及时性要求重要网站信息的5分钟采集入库,一般性网站信息的30分钟采集入库;全面性要求采集来源能覆盖全国性、地方性及行业性的知名网络,凡对舆论传播有着影响力的新闻站点、知名论坛、博客、微博、视频均需纳入监控范围。此外还要求采集引擎具有可操作性,用户可对采集环节进行调整和优化。 及时性和全面性是一组对立指标。客户自建的网络舆情项目,一般投入有限,设备和网络建设不可能支撑到对整个互联网的监测,而要追求采集的及时性,需采集频率快,势必会减少监控的采集范围,将舆情采集范围更多地优化为具有舆论传播价值的网络媒体,而非整个互联网。东方剪报网络舆情采集引擎,主要帮助客户监测重点舆论发布及传播网站、跟踪传播内容、分析首发媒体及事件传播演变过程,通过信息和数据为舆情预警、研判和应急处置提供支持,我司舆情产品具有以下采集特色及优势: (一)重点采集 对舆情高发网站和主流网站设置最高采集优先级权重,以5分钟的采集频率采集信息,这些重点网站包括: 1. 地方性、行业性新闻网站及论坛:一般情况下,地方性、行业性新闻网站及论坛是舆情的首发地,以普通网友为发布人,表现为各种爆料求证信息,是舆情的重要监测来源,这类信息的发现有助于传播早期的舆论控制和引导; 2. 全国性的新闻及社区网站:这些网站的用户量大,浏览量大,是舆情最重要的传播渠道,因能快速形成关注和传播,且扩大传播面,如在这类网站上出现报道,也表示舆情事件的传播进入了发展或爆发期,需采取和早期不同的应对和处置办法,也是舆情的重要监测来源; 3. 重点人的网络ID:对于重点人的网络(包括论坛、博客及微博账户)发言和活动, 能代表网上大部分人的言论,或是煽动言论,或是有害言论,是舆情的重要监测源; 4. 自动启动重点采集任务:在设置专题和导控任务后,会自动启动重点采集任务,调整其优先级和采集频率,确保重点任务的完成; 5. 重点文章回复数/评论数及内容的采集,用于分析网友观点及态度; 6. 导控任务采集:追踪文章在网络上的发展动态, u 文章是否存在, u 在各大搜索引擎是否存在快照,快照是否被删除, u 点击/回复数量的增幅情况; 7. 热词采集:采集百度热词。 (二)采集任务可操作性 用户可手动调整采集任务: 1. 自定义采集频率:用户可自定义网站的采集频率,为不同权重的网站设置不同采集频率; 2. 自主添加采集网站:用户可自行添加采集的网站; 3. 自定义网站权重及优先级:监测网站的权重可维护,用户也可为不同权重网站设置采集优先级; 4. 自定义采集任务:用户不仅可以调整单个网站的采集频率,也可对其采集进程进行管理,关停或暂停网站的采集任务; 5. 自定义微博地址:用户可添加微博地址到采集库,系统还提供导入模板供用户批量导入微博地址。 6. 自主全网搜索添加:在全网搜索功能中,用户可指定关键词随时搜索互联网,并可将搜索结果形成结构化数据加入数据库。 7. 定制搜索:提供关键词、来源、时间、网站性质等多种条件,供用户定制搜索方案,用于经常性的搜索请求。 (三)核心采集技术 采用定点采集和全网搜索相结合的采集机制,定点采集可确保第一时间采集到重点网站的信息,全网搜索可进行传播全面性的补充采集; 1. 定点采集:系统内置的重点监测网站,采用定点采集方式; 2. 全网搜索:通过关键词对新闻类搜索引擎、论坛类搜索引擎、博客类搜索引擎、微博类搜索引擎及大型网站的站内搜索工具的信息聚合搜索; 3. 内嵌脚本执行引擎:随着Web2.0相关技术的发展,脚本语言越来越多地应用于论坛、新闻评论、博客等类型网站的建设。内嵌脚本引擎对脚本语言的自动解析和执行,实现对采用脚本语言的论坛、博客以及新闻评论网站的采集; 4. 7X24小时不间断采集,5分钟采集频率,信息更新扫描最小间隔为1分钟; 5. 关联采集:在针对QQ群监测中,系统可以自动将QQ群内成员的腾讯微博加入到采集源中; 6. 对新浪微博、腾讯微博、境外推特、Facebook实行无限制、无屏蔽访问搜索。 (四)支持网络媒体形式 网络媒体形式全:本系统内置上万个网站,可以对各类网络媒体进行监测: 1. 门户网站:系统可采集以媒体发布为主的新闻网站的信息; 2. 论坛:各种形式的BBS、贴吧、论坛、社区; 3. 博客:各博客网站的博客信息; 4. 微博:国内外微博网站信息监测; 5. 电子报:各类报纸的电子报的信息监测; 6. QQ群:可监测QQ群内的聊天记录; 7. 问答:对问答类网站的采集; 8. 视频:对视频网站文字信息的采集; 9. 境外信息:集成代理技术,通过代理服务器采集屏蔽访问的境外网站,监控涉及国家安全、煽动等信息; 10. RSS:对RSS聚合信息的采集; 11. WAP:对WAP网站信息的采集; 12. 搜索引擎:对搜索引擎信息的聚合。 (五)采集内容丰富 通过自动识别技术识别并抽取网页的要素,包括:标题、来源网站、来源频道、发布人、发布时间、链接(URL)、正文、图片、快照、表格,自动剔除广告(图片或flash)等垃圾部分,除此以外,针对不同媒体,还采集了其他要素: 1. 新闻:①是否头版,②专题,③评论数,④评论内容; 2. 论坛:①点击数,②回帖数,③是否论坛首页、④置顶,⑤加精,⑥推荐,⑦热帖,⑧回帖人,⑨回帖内容; 3. 博客:①回帖数,②回帖人,③回帖时间,④回帖内容; 4. 微博:①转发次数,②评论数,③粉丝数,④评论人,⑤评论内容,⑥博主信息,⑦粉丝名,⑧话题; 5. 视频网站:①播放次数,②评论数,③评论内容; 6. QQ群:①群内发言,②群内成员,③发言时间,④发言QQ,⑤发言图片; 7. 附件采集:支持对.doc/.xls/.pdf/.txt文档的监测 8. 网站属性:①TCP/IP信息,采集网站TCP/IP备案信息,②网站所属地域; 采集存储:系统抽取各类网络媒体的信息要素,统一形成结构化信息,供后续分析、检索、查询、统计和展示。 (六)其他采集技术 1. 支持验证码采集; 2. 支持多页合并采集。 (七)支持多语言采集 自动识别多种字符集编码,支持对中文、英文、中文简体、中文繁体、彝文、维文、藏文、蒙文、朝鲜语、韩国语、日语、西班牙语等语言的采集,并可以转换为统一编码格式。 (八)智能采集 1. 需要登录与需要验证码的网站信息采集,采集过程完全仿人工,实现了“登录验证”采集。 2. 长期大量采集网站信息,会引起网站重视并可能导致封锁IP,通过自动获取代理IP地址并及时替换代理IP地址等技术,防止个别网站进行反采集,反监测。支持多种网站的信息的编码,GBK、BIG5、UNICODE、UTF8,软件会自动转换成GBK码进行统一的处理。软件即会自动识别网站的组织结构,自动识别网站的编码。 (九)增量采集与自动更新 对于初次采集目标网站,软件支持完全采集。而对于已采集过的站点支持增量采集。自动检测站点是否发生更新,并不会遗漏任何一个重要信息。 (十)带宽占用优化 可采用分布式多线程并发指令执行体系结构、增量实时索引、智能分词等多项先进技术,提高采集和数据管理效率,管理员可以灵活设置更新周期。客户端采用可视化的配置工具,灵活配置应用属性页的抓取信息。 (十一)主题跟踪采集 针对热点话题进行信息跟踪采集,自动启动更高的优先级,调动全网搜索模式,进行信息量的快速聚合。跟踪内容包括:信息来源、转载量、转载地址、地域分布、发布人等元素。 根据新闻来源的权威度、评论数、发言时间频率等参数,识别出设定时间段内的热门话题。