大数据

数据分析类型:

数据分析的实时与否
  实时分析任务(金融、电子商务)
  离线分析任务(数据挖掘搜、索引擎索引计算、推荐内容计算、机器学习)
分析的数据类型不同
  流式数据处理(数据整体价值)
    负载、QPS、网络 Traffic、磁盘 IO
    交易下单笔数、交易总金额、PV、UV
    用户行为分析
  批量数据处理

大数据平台是一个庞大的系统工程,整个建设周期很长,涉及的生态链很长(包括:数据采集、接入,清洗、存储计算、数据挖掘,可视化等环节,每个环节都当做一个复杂的系统来建设),风险也很大。

大数据特征:“大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)”就是“大数据”显著的4V特征,或者说,只有具备这些特点的数据,才是大数据。 大数据技术要解决的问题:大数据技术被设计用于在成本可承受的条件下,通过非常快速(velocity)地采集、发现和分析,从大量(volumes)、多类别(variety)的数据中提取价值(value),将是IT领域新一代的技术与架构。

app大数据:

设备指纹
用户画像
应用留存
行业分析
应用活跃
安装卸载

一个标准化的建模工作大体包含以下几个步骤:

首先选取一批正负样本用户;
然后对其进行特征补全,把无关特征进行降维操作;
之后,选择合适的模型进行训练,这也是一个非常消耗CPU的过程;
接下来是目标预测,我们需要整理或补齐目标用户的所有特征,再将数据投入模型中,获得预测结果;
最后是模型评估。
模型评估之后,再进行下一个迭代调整,循环往复。

名词

  • DCL:数据缓冲层

  • DDL:数据明细层

  • DAL:数据应用层:

    存储运营分析:Operations Analysis
    指标体系:Metrics System
    线上服务:Online Service
    用户分析:User Analysis
    
  • DSL:数据汇总层

  • Analysis:数据分析层

采 用 HAProxy+Keepalived+Flume-NG 构建高性能高可用分布式数据采集系统 采用 Hadoop 构建 PB 级大数据平台,提供海量数据存储和分布式计算 采用 Hive 做为数据清洗引擎,提供 PB级数据预处理、加工、整合服务。 采用 Spark R 组件,Spark R 提供了 Spark中弹性分布式数据集的 API,用户可以在集群上通过 R shell 交互性的运行 job。数据挖掘模型以 Spark On Yarn 的 yarn-cluster 方式构建大数据分析引擎。

用户画像 [1] [2]

[1]https://www.zhihu.com/question/19853605
[2]https://zhuanlan.zhihu.com/p/43354501