技术平台
海量非结构化信息智能处理分析平台
联系我们
地址:青岛市市南区燕儿岛路22号1501
电话:0532-85975295
传真:0532-85975289
Email:lsz@udiasoft.com

概述

自上个世纪90年代以来,随着网络化和数字化技术的发展,在信息的增长速度越来越快的同时,信息的传播速度也越来越快。但由于海量、多元、非结构化信息资源处于无序、混乱状态,用户虽处于信息的包围,但其对信息的需求有很强的目标性与选择性,要在信息的海洋中要"广、快、精、准"地获取所需要的信息却变得越来越困难。

"处处都是信息,处处都不是所需要的信息"就是当今信息时代的信息困境。正如《大趋势》作者奈斯比特所说:"大量但无序的信息,不但不是资源而是灾难"。

平台特点

青岛巨媒软件工程公司研制的"海量非结构化信息智能处理分析平台"采用了流式数据处理和自适应计算结构,实现了在海量输入下信息的高效、准确、全析智能处理与分析,为各行业用户的各类应用提供技术平台。

平台总体结构图

  • 满足海量信息的要求
    平台最大处理能力:10亿、15TB /日,存储为1PB;
    上线系统处理能力:2亿、3TB /日,存储为200TB(32台PC服务器)。
  • 适用非结构化信息类型
    文本:eml、pdf、doc(x)、ppt(x)、xls(x)、html、txt、rtf、wps、jtd、hwp等;
    图片:gif、swf、jpeg、tif、bmp等;
    视音频:mp3、wav、aif、aiff、flac、ogg、avi、wmv、rmvb、mpeg4、flv等。
  • 多种智能技术
    文本:概念分析与模式识别、知识网络、命名实体等分析技术;
    图片:基于颜色、纹理、形状或要素的空间位置关系的分析技术;
    音频:在韵律、节奏、速度、语调等语音学特征分析基础上,具有声纹识别、噪声处理等智能方法,支持自学习;
    采用改进隐马尔科夫模型与贝叶斯方法,使语音转文字具有自适应能力,目前支持18种语言,广播级标准发音识别正确率可达90%以上;
    视频:具有分割、颜色纹理、形状、运动、镜头、场景、面部等分析方法;
    通过建立语义信息、特征信息的元数据索引和人脸特征索引,实现视频内容的检索。
  • 多样应用方式
    实时筛选:具有流式数据处理模式,提供关键字与逻辑、内容样本、语音样本和图像内容样本的筛选方式,达到近实时的处理效率;
    高效检索:采用列式数据存储,多种索引机制,智能优化引擎,提供基于海量数据的秒级自定义查询效率。
    分析挖掘:具有对文本、图像内容的概括、关联、聚合、趋势等方法,基于智能计算平台的社会网络关系分析等。
  • 多语言支持
    文本:中、英、日、韩、俄、法、德、阿拉伯等40种,底层支持所有语言;
    语音转文字:汉语、英、美英、俄、法、德、现代阿拉伯等18种标准语言。

技术优势

优势 说明
流式数据处理 将流式分析与内存处理、事务性和历史数据相结合,识别关键事件点/临界点,能以等同于输入速度(每秒10万/30M)的信息量的效率分析信息流。
自适应计算结构 通过分配调度与服务负载反馈形成平台的自适应计算结构,实现海量信息的智能处理。
列式数据结构 平台采用列式数据结构,实现了数据和索引合一、PB级的数据管理能力和元数据结构的动态调整,满足各类应用的需要。
适用非结构化 能够对14种文本、5种图片和11种视音频非结构划信息处理、分析,具有信息类型的扩展。
多语言支持 文本:中、英、日、韩、俄、法、德、阿拉伯等40种,底层支持所有语言;语音转文字:汉语、英、美英、俄、法、德、现代阿拉伯等18种标准语言。
多种智能技 文本:概念分析与模式识别、知识网络、命名实体;
图片:颜色、纹理、形状或要素的空间位置关系;
音频:语音学特征、;语音转文字;
视频:语义信息、特征信息和人脸特征。
多策略自动排重 使用多种排重策略,包括:唯一性、内容相似等,排重准确率超过98%,排重率超过90%。