概述
互联网自由、对等、交互的特点为越来越多的网民所接受,它像神经网络一样遍布于社会肢体,承接着民众情绪的释放,传递并放大着社会的快乐或痛感。
本着构建和稳固和谐社会的需要,主管部门有责任对互联网络的信息进行有效的管理,及时发现民生、民意加以引导、报告与妥善处置,对一些混杂其中恶意的、会给社会带来危害影响的信息加以处理。
由于网络信息存在来源广、数量多、格式杂、内容随意性强等特点,因此,亟需一类能整合各类海量信息,具备多种发现、关联、分析、挖掘等技术手段,为舆情业务提供全面支持的信息系统产品或服务。
产品特点
我公司自主研发的"互联网舆情智能分析系统"产品,基于互联网云采集标引平台,采用行业领先的内容智能信息处理引擎,通过其独特的模式识别技术,创新建立了智能化的信息管理应用平台,具备学习设置-自动发现-自动分发-处理跟踪的全过程控制。独有的智能分析实现了对各类信息内容的自动概括、聚类、关联和联想,达到了从发现-概括-联想的飞跃,提高了对互联网信息全维、全息、全域的管理、聚集与分析服务的能力。
系统总体结构
-
互联网云采集标引平台
信息源:资讯、论坛、微博、博客、问答、视频、电子报、搜索引擎结果等,超过60万。支持js等脚本生成网页、身份登录页面和海外网站。对信息源进行全面、实时采集,最短更新周期可达30秒。
通过模式、语义、行为三类分析引擎,结合通用知识、行业和用户主题知识完成对人物、产品、品牌、企业、政府、话题、事件等个类型监测主题的多维度标引。 -
先进的模式识别技术,智能化的舆情发现机制
基于香农信息论和贝叶斯概率论创建的模式识别技术,是当今最为成熟先进的基于概念的数学算法,从而可以将人从海量信息的筛选、发现中解放出来。 -
毫秒级的检索响应,人性化的自然语查询
支持海量的信息检索,千万级用户访问、每秒至少100次并发、响应小于1秒。支持自然语言检索,自动抽取上下文摘要/内容摘要,检索结果自动分组和自动生成相关内容。 -
贯穿舆情生命周期,高效的自动化处理能力
系统设计贯穿舆情的发现、监控、处理流程,并通过一系列高效的自动化处理,解决了人工无法胜任的繁杂劳动,这些操作包括:自动分类、自动聚类、自动关联、自动排重等。 -
支持定向跟踪采集,跨语种、跨媒体信息分析
系统支持包括互联网在内的各类内外部数据源的定向跟踪采集,提供对新闻音视频多媒体资源的扩展处理。
不良图片过滤界面
不良图片过滤结果
技术优势
优势 | 说明 |
---|---|
云采集标引 | 支持8类信息源全面、实时采集,超过60万;三类分析引擎,结合三种知识完成对人物、产品、品牌、企业、政府、话题、事件等个类型监测主题的多维度标引。 |
卓越的技术基础 | 系统基于概念识别模式匹配的第三代非结构化信息分析技术支持多种方式的内容智能分 析与处理。 |
全面支持分布式 | 各模块均支持分布式部署,分布式结构与部署支持硬件与软件动态管理下的扩展,海量 支持无上限。 |
系统支持所有语言 | 底层采用UniCode编码支持所有语言。目前可以处理的语言包括:中、英、韩、日、法 、德、西、阿、俄、希腊等40种。 |
多策略自动排重 | 系统使用了多种方式的排重策略,包括:Url唯一性、内容相似等,排重准确率超过98%,排重率超过90%。 |
关注信息自动发现 | 除具有传统的关键字方式外,特别具有基于概念识别模式匹配技术的关注信息自动发现 。 |
自动关联 | 在分析任何一份内容时,系统自动将相似的各类信息的超链接、摘要提示出来,提高信 息处理的全面和效率。 |