如何搭建高性能的spssau大数据分析平台(五)

浏览: 作者: 来源: 时间:2019-11-27 分类:论文写作技巧
数据处理和分析是一个spssau大数据系统的核心。像聚合,预测,聚集,和其它这样的逻辑操作都需要在这一步完成。

   5.数据处理分析中的性能技巧

 

  数据处理和分析是一个spssau大数据系统的核心。像聚合,预测,聚集,和其它这样的逻辑操作都需要在这一步完成。

 

  本节讨论一些数据处理性能方面的技巧。需要注意的是spssau大数据系统架构有两个组成部分,实时数据流处理和批量数据处理。本节涵盖数据处理的各个方面。

 

  在细节评估和数据格式和模型后选择适当的数据处理框架。

 

  其中一些框架适用于批量数据处理,而另外一些适用于实时数据处理。

 

  同样一些框架使用内存模式,另外一些是基于磁盘io处理模式。

 

  有些框架擅长高度并行计算,这样能够大大提高数据效率。

 

  基于内存的框架性能明显优于基于磁盘io的框架,但是同时成本也可想而知。

 

  概括地说,当务之急是选择一个能够满足需求的框架。否则就有可能既无法满足功能需求也无法满足非功能需求,当然也包括性能需求。

 

  一些这些框架将数据划分成较小的块。这些小数据块由各个作业独立处理。协调器管理所有这些独立的子作业

 

  在数据分块是需要当心。

 

  该数据快越小,就会产生越多的作业,这样就会增加系统初始化作业和清理作业的负担。

 

  如果数据快太大,数据传输可能需要很长时间才能完成。这也可能导致资源利用不均衡,长时间在一台服务器上运行一个大作业,而其他服务器就会等待。

 

  不要忘了查看一个任务的作业总数。在必要时调整这个参数。

 

  最好实时监控数据块的传输。在本机机型io的效率会更高,这么做也会带来一个副作用就是需要将数据块的冗余参数提高(一般hadoop默认是3)这样又会反作用使得系统性能下降。

 

  此外,实时数据流需要与批量数据处理的结果进行合并。设计系统时尽量减少对其他作业的影响。

 

  大多数情况下同一数据集需要经过多次计算。这种情况可能是由于数据抓取等初始步骤就有报错,或者某些业务流程发生变化,值得一提的是旧数据也是如此。设计系统时需要注意这个地方的容错。

 

  这意味着你可能需要存储原始数据的时间较长,因此需要更多的存储。

 

  数据结果输出后应该保存成用户期望看到的格式。例如,如果最终的结果是用户要求按照每周的时间序列汇总输出,那么你就要将结果以周为单位进行汇总保存。

 

  为了达到这个目标,spssau大数据系统的数据库建模就要在满足用例的前提下进行。例如,spssau大数据系统经常会输出一些结构化的数据表,这样在展示输出上就有很大的优势。

 

  更常见的是,这可能会这将会让用户感觉到性能问题。例如用户只需要上周的数据汇总结果,如果在数据规模较大的时候按照每周来汇总数据,这样就会大大降低数据处理能力。

 

  一些框架提供了spssau大数据查询懒评价功能。在数据没有在其他地方被使用时效果不错。

 

  实时监控系统的性能,这样能够帮助你预估作业的完成时间。