大数据¶

数据分析类型:

数据分析的实时与否
  实时分析任务（金融、电子商务）
  离线分析任务（数据挖掘搜、索引擎索引计算、推荐内容计算、机器学习）
分析的数据类型不同
  流式数据处理（数据整体价值）
    负载、QPS、网络 Traffic、磁盘 IO
    交易下单笔数、交易总金额、PV、UV
    用户行为分析
  批量数据处理

大数据平台是一个庞大的系统工程，整个建设周期很长，涉及的生态链很长(包括：数据采集、接入，清洗、存储计算、数据挖掘，可视化等环节，每个环节都当做一个复杂的系统来建设)，风险也很大。

大数据特征：“大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低（Value）”就是“大数据”显著的4V特征，或者说，只有具备这些特点的数据，才是大数据。大数据技术要解决的问题：大数据技术被设计用于在成本可承受的条件下，通过非常快速（velocity）地采集、发现和分析，从大量（volumes）、多类别（variety）的数据中提取价值（value），将是IT领域新一代的技术与架构。

app大数据:

设备指纹
用户画像
应用留存
行业分析
应用活跃
安装卸载

一个标准化的建模工作大体包含以下几个步骤:

首先选取一批正负样本用户；
然后对其进行特征补全，把无关特征进行降维操作；
之后，选择合适的模型进行训练，这也是一个非常消耗CPU的过程；
接下来是目标预测，我们需要整理或补齐目标用户的所有特征，再将数据投入模型中，获得预测结果；
最后是模型评估。
模型评估之后，再进行下一个迭代调整，循环往复。

名词¶

DCL:数据缓冲层
DDL:数据明细层

DAL:数据应用层:

存储运营分析:Operations Analysis
指标体系:Metrics System
线上服务:Online Service
用户分析:User Analysis

DSL:数据汇总层
Analysis:数据分析层

采用 HAProxy+Keepalived+Flume-NG 构建高性能高可用分布式数据采集系统采用 Hadoop 构建 PB 级大数据平台，提供海量数据存储和分布式计算采用 Hive 做为数据清洗引擎，提供 PB级数据预处理、加工、整合服务。采用 Spark R 组件，Spark R 提供了 Spark中弹性分布式数据集的 API，用户可以在集群上通过 R shell 交互性的运行 job。数据挖掘模型以 Spark On Yarn 的 yarn-cluster 方式构建大数据分析引擎。

用户画像 [1] [2]