【Word文档】 关于多媒体网络信息缓存管理和安全管理范文

2021-09-26  |   格式:DOC  |   分类: 机关公文 > 其他
摘要:关于多媒体网络信息缓存管理和安全管理范文  多媒体信息是多种媒体数据结合的综合体,具体有文本、语音、图像、视频等形式。网络的开放性提供多媒体网络大数据形成的契机,即网络社交、在线教育、电子商务、新闻传播等行业无时无刻不在产生图像、文字、语音等形式的多媒体网络信息[x]。但是多媒体技术在改善人类生 ...(全文共:3779字)

关于多媒体网络信息缓存管理和安全管理范文

  多媒体信息是多种媒体数据结合的综合体,具体有文本、语音、图像、视频等形式。网络的开放性提供多媒体网络大数据形成的契机,即网络社交、在线教育、电子商务、新闻传播等行业无时无刻不在产生图像、文字、语音等形式的多媒体网络信息[x]。但是多媒体技术在改善人类生活方式与生活效率的同时,也造成了数据冗余的不良影响。由于人们对多媒体网络大数据的管理整合力度不足,所以大数据丧失了原本的事物预测、规律挖掘价值。本文结合大数据时代信息处理的热点技术营造了多媒体网络信息整合的高效计算环境[x],基于数据仓库设计一套高效且有效的数据整合管理方案,优化多媒体网络信息数据的使用价值。

  一、多媒体网络信息大数据整合

  (一)Spark并行计算框架

  大数据时代产生的多媒体信息数据呈海量规模增长,然而传统的串行计算环境每次只能执行单个指令,难以满足用户高效率、大规模数据整合需求。所以,对这部分数据信息的整合需要在大数据并行框架环境下完成,确保每次能够执行多个数据计算指令以增加问题求解的范围,从根本上改善复杂性多媒体信息大数据整合计算的速度[x]。根据开源计算框架Hadoop的性能不足,技术人员开发了全新的基于内存运算的Spark并行计算框架,采用弹性分布式数据集代替传统计算框架的核心数据结构,解决了数据整合运算期间产生的大量网络IO开销与内存IO开销问题,因此大幅度提升了大数据整合计算的效率,减少了资源占用率。在Spark并行计算框架下,多媒体大数据整合用户借助弹性分布式数据集可实现部分数据在内存中的缓存,并行计算操作执行可以循环使用这部分缓存数据。Spark并行计算框架为了灵活操作弹性分布式数据集,设置了一部分特定算子专门为弹性分布式数据集运算提供服务。算子本质上是Spark的函数工具,因此,算子与弹性分布式数据集是Spark并行计算框架的核心构成。弹性分布式数据集为抽象化的数据结构,数据集在机群服务器内存中的存储形式被其定义为“分布式”,换言之,一个多媒体网络信息数据集被规划成数个数据块,一一分布存储在机群节点部位[x]。Spark框架赋予每个多媒体数据块独特的BlockID标识,识别BlockID标识对应的元数据即可灵活执行对数据块的存储、传输等操作。此外,为了方便借助算子操作多媒体数据,多媒体数据块运算过程中被划分成多个区域。除了弹性分布式数据集与算子设定以外,Spark并行计算框架引入了智能化任务调度机制,以改善大数据整合操作的调度问题。各个任务阶段可以根据实际运算量确定使用“串行”还是“并行”方式,阶段任务的中间结果不必要保存在HDFS内,进而减少Hadoop开启与任务调度过程中产生的开销问题。

  (二)基于数据仓库的多媒体网络信息大数据整合技术

  在多媒体网络大数据整合分析之前,有必要对其进行压缩处理,降低多媒体网络信息的冗余度,提高数据存在的价值度。所以,多媒体网络信息大数据压缩也是针对其多余部分进行压缩处理。例如,网络文件中如果反复出现同一符号,高于正常符号出现的频率,减少或者删除部分此符号即可达到数据压缩的目的。本文选取哈夫曼编码算法进行多媒体信息的无损无失真压缩,最大程度维持数据信号的质量[x]。在此基础上,利用数据仓库技术对多媒体网络信息大数据进行整合。数据仓库的体系架构设计,见图x.基于数据仓库的多媒体网络信息整合能够描述多媒体数据的历史性变化历程,存储整合数据的性能相对稳定,可以按照内容主题进行数据整合归类,为多媒体网络信息管理决策提供基础条件。结合图x分析基于数据仓库整合信息的过程:多媒体网络信息主要以文本、语言、图像等形式存在,对这部分数据进行压缩处理后需要采用ETL工具进行数据调度,以规范数据表达形式;ETL数据调度主要包括数据抽取、转换与加载。接下来构建CDC数据仓库,按照多媒体网络信息的主题要求进行分类整合存储,设计数据模型时发挥OracleBIEExxg中间件作用。最后,通过数据仓库整合的多媒体网络数据可以作为特定行业的业务规划、关联规则挖掘以及决策分析的依据。以上是多媒体网络信息数据仓库构建的基本过程,为提高大规模数据整合效率与稳定性,设计了数据仓库的优化调度策略。同时,在数据仓库集成关联规则挖掘算法,辅助完成多媒体网络信息的关联度挖掘。x.数据仓库的优化调度策略ETL是数据仓库全程使用的重要数据处理工具,完成文本、语音、图像等多媒体信息由网络云平台向数据仓库的抽取工作,根据数据规模的不同可使用全量抽取或者增量抽取。抽取期间以更加标准规范的方式约束数据质量,将有价值的数据转移到数据仓库中,排除冗余数据部分[x]。为了保证ETL工具调度的高效性与通畅性,基于萤火虫算法改进ETL任务过程,将一个ETL任务视为一个萤火虫,通过寻找每个萤火虫都可以聚集到最亮位置的方案,确定最佳的任务调度方案。萤火虫算法优化后的ETL调度数据运算的时间开销最低,并且不会打破ETL任务相互依存的关系。x.数据仓库的关联规则挖掘策略网络运行产生的多媒体信息原本来自差异性源头,所以对应的数据结构也存在差异。经过ETL转换、加载处理数据可以规划到相应的数据模型之中,呈现一定的较为浅显的关联关系。而Apriori算法可以帮助数据仓库整合后的多媒体网络信息进行深层次、高效率的关联规则挖掘,获得数据之间的关联关系规律。定义存在XY,支持度与置信度采用s、c表示;其中,X、Y分别表示规则的前件与后件,关联规则挖掘过程中,仅含有X的项出现在所有项集中的频率解释为支持度,而同时含有X、Y的项出现在含有X项集中的频率解释为置信度。Apriori算法挖掘关联规则主要分为两步,一是获得频繁项集,二是基于频繁项集得出关联性较强的规则,前提是规则不小于最小支持度与置信度。“频繁项集”是指在最小支持度之上的项集。关联规则挖掘遵循迭代原则,当不会出现后续频繁项集时停止运算。


折扣价5.99米 (原价13.99米)

    VIP免费下载
如遇卡顿,请刷新页面
本文档由网友提供,仅限参考学习,如有不妥或产生版权问题,请联系我们及时删除。
客服请联系:31998589@qq.com   微信:skillupvip
【Word文档】 下载文档

折扣价5.99米
(原价13.99米)
扫码下载这份完美排版的文档

如遇卡顿,请刷新页面     VIP免费下载
相关推荐
7X24小时在线客服

微笑上岗易处多,消气降火不罗嗦

擅长领域