如何搭建高性能的spssau大数据分析平台(四)

浏览: 作者: 来源: 时间:2019-11-27 分类:论文写作技巧
在本节中将讨论一些与数据数据存储性能相关的技巧包括物理存储优化和逻辑存储结构(数据模型)。这些技巧适用于所有的数据处理过程,无论是一些解析函数生的或最终输出的数据还是预计算的汇总数据等。

   4.数据存储中的性能技巧

 

  一旦所有的数据采集步骤完成后,数据将进入持久层。

 

  在本节中将讨论一些与数据数据存储性能相关的技巧包括物理存储优化和逻辑存储结构(数据模型)。这些技巧适用于所有的数据处理过程,无论是一些解析函数生的或最终输出的数据还是预计算的汇总数据等。

 

  首先选择数据范式。您对数据的建模方式对性能有直接的影响,例如像数据冗余,磁盘存储容量等方面。对于一些简单的文件导入数据库中的场景,你也许需要保持数据原始的格式,对于另外一些场景,如执行一些分析计算聚集等,你可能不需要将数据范式化。

 

  大多数的spssau大数据系统使用NoSQL数据库替代RDBMS处理数据。

 

  不同的NoSQL数据库适用不同的场景,一部分在select时性能更好,有些是在插入或者更新性能更好。

 

  数据库分为行存储和列存储。

 

  具体的数据库选型依赖于你的具体需求(例如,你的应用程序的数据库读写比)

 

  同样每个数据库都会根据不同的配置从而控制这些数据库用于数据库复制备份或者严格保持数据一致性。

 

  这些设置会直接影响数据库性能。在数据库技术选型前一定要注意。

 

  压缩率、缓冲池、超时的大小,和缓存的对于不同的NoSQL数据库来说配置都是不同的,同时对数据库性能的影响也是不一样的。

 

  数据Sharding和分区是这些数据库的另一个非常重要的功能。数据Sharding的方式能够对系统的性能产生巨大的影响,所以在数据Sharding和分区时请谨慎选择。

 

  并非所有的NoSQL数据库都内置了支持连接,排序,汇总,过滤器,索引等。

 

  如果有需要还是建议使用内置的类似功能,因为自己开发的还是不灵。

 

  NoSQLs内置了压缩、编解码器和数据移植工具。如果这些可以满足您的部分需求,那么优先选择使用这些内置的功能。这些工具可以执行各种各样的任务,如格式转换、压缩数据等,使用内置的工具不仅能够带来更好的性能还可以降低网络的使用率。

 

  许多NoSQL数据库支持多种类型的文件系统。其中包括本地文件系统,分布式文件系统,甚至基于云的存储解决方案。

 

  如果在交互式需求上有严格的要求,否则还是尽量尝试使用NoSQL本地(内置)文件系统(例如Hbase使用HDFS)

 

  这是因为,如果使用一些外部文件系统/格式,则需要对数据进行相应的编解码/数据移植。它将在整个读/写过程中增加原本不必要的冗余处理。

 

  spssau大数据系统的数据模型一般来说需要根据需求用例来综合设计。与此形成鲜明对比的是RDMBS数据建模技术基本都是设计成为一个通用的模型,用外键和表之间的关系用来描述数据实体与现实世界之间的交互。

 

  在硬件一级,本地RAID模式也许不太适用。请考虑使用SAN存储。