1.5. 临时¶

数据大体上可以分为 3 类:

1. 结构化数据（Structured data）
    a) 关系型数据库
    b) 分布式关系型数据库
    c) 时序数据库

2. 半结构化数据（Semi-structured data）

    a) 非关系型数据库(NoSQL数据库)

3. 非结构化数据（Unstructured data）

   a) 分布式文件系统

分布式关系型数据库 (NewSQL 数据库)的优势:

1. 高扩展性
    NewSQL 天生支持数据分片，支持动态增加节点，不需要进行麻烦的数据迁移工作
    所以能够轻松地满足数据不断增大时的存储需求
2. 高并发性
    相比于单机关系型数据库基于磁盘的设计，NewSQL 在设计上更好地利用了内存
    所以 SQL 执行效率很高。
    在事务的支持上，NewSQL 有着高效的分布式事务特性
    所以它可以实现海量数据的读取和写入，以及大量用户的查询和更新等操作
3. 高可用性
    NewSQL 采用 Paxos 或者 Raft 协议来实现多副本的存储，而且还支持自动选择主节点
    保证了数据库的故障切换时间很短

开源选择有 TiDB、CockroachDB 等
商业化的产品，比如阿里巴巴的 OceanBase

时序数据 在读写、存储和分析处理方面有下面这些特点:

1. 时序数据是持续地写入
    一般是采用固定的频率，没有写入量忽大忽小的明显变化
    数量非常大，而且并发写入的需求也很高
    但是数据很少做更新，旧数据除了特殊情况下的修改，基本是不需要更新的写入操作
2. 时序数据的读取很少
    相比写入的高并发和高频率，读取的需求主要是进行数据分析的应用，而分析应用的并发访问量是比较少的
3. 时序数据时效性很强
    一般是越新的数据价值就越大，旧数据会迅速失去价值
    时序数据的数据分析主要关心的是新数据，旧数据被查询和分析的概率不高
    旧数据一般是粗颗粒度的读取分析
    而且在被分析时，一般是基于时间范围读取分析，读取某一条记录的几率很小

采用读取性能不高的 LSM 树代替 B+ 树的存储结构。
它专注于支持高并发的数据写入，采用更高压缩比的压缩算法来支持海量数据的存储，降低存储的成本
同时，通过预处理等方法来支持海量数据的高效分组聚合计算。


开源软件: InfluxDB，KairosDB 和 OpenTSDB
云服务企业: 阿里巴巴的 TSDB 和亚马逊的 AWS Timestream

非关系型数据库:

半结构化数据包含相关标记，用来分隔语义元素，以及对记录和字段进行分层:
    JSON
    XML
说明:
    JSON 中大括号“{}”，中括号"[]"，冒号":"，逗号","就是分隔语义元素
    每个冒号前面的内容是字段，后面的是记录

特点:
    结构并不固定，属于同一类实体可以有不同的属性，这表明它有很好的可扩展性。
    另外，即使它们被组合在一起，这些属性的顺序并不重要

例:
    日志文件
    NoSQL:
      开源: MongoDB、CouchDB、Redis、HBase、Cassandra
      商业: MongoDB 和 Oracle NoSQL

分布式文件系统:

典型的例子有监控系统中的视频、图片和音频等信息
例:
  HDFS
  FastDFS
  Ceph

数据迁移工具:

Sqoop 项目
    在 Hadoop 大数据存储系统和关系型数据库等系统之间架起了桥梁
    借助 Sqoop，你就可以很方便地把 MySQL 数据导入到 HBase 中
    采用了被称为 Connector 的插件架构，不同的 Connector 还可以对接不同的数据源，
    而且你也可以根据自己的需求定制专属的 Connector 来完成一些特殊的迁移工作

增量的数据更新:
    LinkedIn 开源的 Databus 项目
    阿里巴巴的 Canal