概述
自上个世纪90年代以来,随着网络化和数字化技术的发展,在信息的增长速度越来越快的同时,信息的传播速度也越来越快。但由于海量、多元、非结构化信息资源处于无序、混乱状态,用户虽处于信息的包围,但其对信息的需求有很强的目标性与选择性,要在信息的海洋中要"广、快、精、准"地获取所需要的信息却变得越来越困难。
"处处都是信息,处处都不是所需要的信息"就是当今信息时代的信息困境。正如《大趋势》作者奈斯比特所说:"大量但无序的信息,不但不是资源而是灾难"。
平台特点
青岛巨媒软件工程公司研制的"海量非结构化信息智能处理分析平台"采用了流式数据处理和自适应计算结构,实现了在海量输入下信息的高效、准确、全析智能处理与分析,为各行业用户的各类应用提供技术平台。
平台总体结构图
-
满足海量信息的要求
平台最大处理能力:10亿、15TB /日,存储为1PB;
上线系统处理能力:2亿、3TB /日,存储为200TB(32台PC服务器)。 -
适用非结构化信息类型
文本:eml、pdf、doc(x)、ppt(x)、xls(x)、html、txt、rtf、wps、jtd、hwp等;
图片:gif、swf、jpeg、tif、bmp等;
视音频:mp3、wav、aif、aiff、flac、ogg、avi、wmv、rmvb、mpeg4、flv等。
-
多种智能技术
文本:概念分析与模式识别、知识网络、命名实体等分析技术;
图片:基于颜色、纹理、形状或要素的空间位置关系的分析技术;
音频:在韵律、节奏、速度、语调等语音学特征分析基础上,具有声纹识别、噪声处理等智能方法,支持自学习;
采用改进隐马尔科夫模型与贝叶斯方法,使语音转文字具有自适应能力,目前支持18种语言,广播级标准发音识别正确率可达90%以上;
视频:具有分割、颜色纹理、形状、运动、镜头、场景、面部等分析方法;
通过建立语义信息、特征信息的元数据索引和人脸特征索引,实现视频内容的检索。
-
多样应用方式
实时筛选:具有流式数据处理模式,提供关键字与逻辑、内容样本、语音样本和图像内容样本的筛选方式,达到近实时的处理效率;
高效检索:采用列式数据存储,多种索引机制,智能优化引擎,提供基于海量数据的秒级自定义查询效率。
分析挖掘:具有对文本、图像内容的概括、关联、聚合、趋势等方法,基于智能计算平台的社会网络关系分析等。
-
多语言支持
文本:中、英、日、韩、俄、法、德、阿拉伯等40种,底层支持所有语言;
语音转文字:汉语、英、美英、俄、法、德、现代阿拉伯等18种标准语言。
技术优势
优势 | 说明 |
---|---|
流式数据处理 | 将流式分析与内存处理、事务性和历史数据相结合,识别关键事件点/临界点,能以等同于输入速度(每秒10万/30M)的信息量的效率分析信息流。 |
自适应计算结构 | 通过分配调度与服务负载反馈形成平台的自适应计算结构,实现海量信息的智能处理。 |
列式数据结构 | 平台采用列式数据结构,实现了数据和索引合一、PB级的数据管理能力和元数据结构的动态调整,满足各类应用的需要。 |
适用非结构化 | 能够对14种文本、5种图片和11种视音频非结构划信息处理、分析,具有信息类型的扩展。 |
多语言支持 | 文本:中、英、日、韩、俄、法、德、阿拉伯等40种,底层支持所有语言;语音转文字:汉语、英、美英、俄、法、德、现代阿拉伯等18种标准语言。 |
多种智能技 |
文本:概念分析与模式识别、知识网络、命名实体; 图片:颜色、纹理、形状或要素的空间位置关系; 音频:语音学特征、;语音转文字; 视频:语义信息、特征信息和人脸特征。 |
多策略自动排重 | 使用多种排重策略,包括:唯一性、内容相似等,排重准确率超过98%,排重率超过90%。 |