大数据 ########## .. toctree:: :maxdepth: 1 big_datas/concept big_datas/analysis_tool big_datas/data_collection big_datas/data_warehouse big_datas/data_lake big_datas/hadoop big_datas/db_hdfs big_datas/realtime_computer big_datas/other 数据分析类型:: 数据分析的实时与否 实时分析任务(金融、电子商务) 离线分析任务(数据挖掘搜、索引擎索引计算、推荐内容计算、机器学习) 分析的数据类型不同 流式数据处理(数据整体价值) 负载、QPS、网络 Traffic、磁盘 IO 交易下单笔数、交易总金额、PV、UV 用户行为分析 批量数据处理 大数据平台是一个庞大的系统工程,整个建设周期很长,涉及的生态链很长(包括:数据采集、接入,清洗、存储计算、数据挖掘,可视化等环节,每个环节都当做一个复杂的系统来建设),风险也很大。 大数据特征:“大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)”就是“大数据”显著的4V特征,或者说,只有具备这些特点的数据,才是大数据。 大数据技术要解决的问题:大数据技术被设计用于在成本可承受的条件下,通过非常快速(velocity)地采集、发现和分析,从大量(volumes)、多类别(variety)的数据中提取价值(value),将是IT领域新一代的技术与架构。 app大数据:: 设备指纹 用户画像 应用留存 行业分析 应用活跃 安装卸载 一个标准化的建模工作大体包含以下几个步骤:: 首先选取一批正负样本用户; 然后对其进行特征补全,把无关特征进行降维操作; 之后,选择合适的模型进行训练,这也是一个非常消耗CPU的过程; 接下来是目标预测,我们需要整理或补齐目标用户的所有特征,再将数据投入模型中,获得预测结果; 最后是模型评估。 模型评估之后,再进行下一个迭代调整,循环往复。 名词 ---------- * DCL:数据缓冲层 * DDL:数据明细层 * DAL:数据应用层:: 存储运营分析:Operations Analysis 指标体系:Metrics System 线上服务:Online Service 用户分析:User Analysis * DSL:数据汇总层 * Analysis:数据分析层 采 用 HAProxy+Keepalived+Flume-NG 构建高性能高可用分布式数据采集系统 采用 Hadoop 构建 PB 级大数据平台,提供海量数据存储和分布式计算 采用 Hive 做为数据清洗引擎,提供 PB级数据预处理、加工、整合服务。 采用 Spark R 组件,Spark R 提供了 Spark中弹性分布式数据集的 API,用户可以在集群上通过 R shell 交互性的运行 job。数据挖掘模型以 Spark On Yarn 的 yarn-cluster 方式构建大数据分析引擎。 用户画像 [1]_ [2]_ .. [1] https://www.zhihu.com/question/19853605 .. [2] https://zhuanlan.zhihu.com/p/43354501