主页

索引

模块索引

搜索页面

数据仓库相关

专家系统ES

Expert System 专家系统是人工智能中最重要的也是最活跃的一个应用领域,它实现了人工智能从理论研究走向实际应用、从一般推理策略探讨转向运用专门知识的重大突破。专家系统是早期人工智能的一个重要分支,它可以看作是一类具有专门知识和经验的计算机智能程序系统,一般采用人工智能中的知识表示和知识推理技术来模拟通常由领域专家才能解决的复杂问题。

决策支持系统(DSS)

决策支持系统(Decision-making Support System,DSS)是管理信息系统应用概念深化,在管理信息系统基础上发展起来的系统。DSS是解决非结构化问题,服务于高层决策的管理信息系统,按功能可分为专用DSS,DSS工具和DSS生成器。专用DSS 是为解决某一领域问题的DSS。DSS工具是指某种语言、某种操作系统、某种数据库系统。DSS 生成器是通用决策支持系统,一般DSS包括数据库(DB)、模型库(MBMS)、方法库、知识库和会话部件。DSS数据库不同于一般DB,是有很高性能要求,在原基层数据库的基础上建立起来的专用数据库。现在,一般由数据仓库(Data Warehouse)来充当DSS 数据库。数据库为决策提供数据能力或资料能力。模型库为决策提供分析能力的部件,模型能力的定义是转化非结构化问题的程度。会话部件,又称接口部件,它是人和决策支持系统联系的接口。智能决策支持系统(IDSS)在一般DSS基础上增加了OR/MS深度知识库。所以IDSS=DSS+AI(人工智能)。

自从20世纪70年代决策支持系统概念被提出以来,决策支持系统已经得到很大的发展。 1980年Sprague提出了决策支持系统三部件结构(对话部件、数据部件、模型部件),明确了决策支持系统的基本组成,极大地推动了决策支持系统的发展。

决策分类

群决策支持系统(GDSS) 分布式决策支持系统(DDSS) 智能决策支持系统(IDSS) 智能-交互-集成化决策支持系统(3IDSS)

相关应用

1. 基础数据及事务处理层 事务处理层是应用软件中最基础的层次,也是最为庞大和繁琐的一层,所采集的信息是大量的业务基础数据,如宏观经济、农业信息数据库;人口统计数据库、政策法规库、企业产品库。 另外,还包括对各类数据进行分析、统计、查询等事务处理的应用系统,如月度、季度、年度等宏观经济监测系统、预警分析系统;宏观经济跟踪、预测、预警系统等。 在决策支持系统中需要对该层的信息系统进行分类、加工和整理,形成决策支持系统中的元数据。

2. 统计分析管理监控层 根据由业务基础数据经过抽取或加工后所形成的信息,对其业务范围内的业务情况进行信息查询、信息分析、监督管理和检查的职能。 在经过抽取和整理的元数据的基础之上,建立各种统计、分析模型,如计量经济模型、多方程时间序列统计模型、神经网络及投入产出模型等。通过模型的定义和开发,利用构成的经济模型,对经济系统中各方面给出全面深入的各种分析结果,包括因素分析、预测和政策模拟。其中要求系统能自动调用和集成不同类型的分析工具,例如回归分析和投入产出的自动结合。

3.辅助决策层 根据统计分析管理监控层的各种分析模型,进行多维的、更为复杂的综合分析和计算,从中发现各种趋势(如人口增长趋势、宏观经济趋势预测等);发现异常情况;得到重要细节;找出内在规律,为各级领导的决策业务提供切实有效的帮助。 每一个业务系统都将包含针对其相应业务(如人口、宏观经济、农业、外商投资、政策法规、企业产品等)的辅助决策子系统,在各业务辅助决策子系统的支持下,还可拓展面向综合性的辅助决策系统。

数据挖掘(DM)

数据挖掘(Data mining)又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。 数据挖掘利用了来自如下一些领域的思想:(1) 来自统计学的抽样、估计和假设检验,(2)人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。数据挖掘也迅速地接纳了来自其他领域的思想,这些领域包括最优化、进化计算、信息论、信号处理、可视化和信息检索。一些其他领域也起到重要的支撑作用。特别地,需要数据库系统提供有效的存储、索引和查询处理支持。源于高性能(并行)计算的技术在处理海量数据集方面常常是重要的。分布式技术也能帮助处理海量数据,并且当数据不能集中到一起处理时更是至关重要。

分析方法:

1.分类 (Classification) 首先从数据中选出已经分好类的训练集,在该训练集上运用数据挖掘分类的技术,建立分类模型,对于没有分类的数据进行分类。 例子: a. 信用卡申请者,分类为低、中、高风险 b. 故障诊断:中国宝钢集团与上海天律信息技术有限公司合作,采用数据挖掘技术对钢材生产的全流程进行质量监控和分析,构建故障地图,实时分析产品出现瑕疵的原因,有效提高了产品的优良率。 注意: 类的个数是确定的,预先定义好的

2.估计(Estimation) 估计与分类类似,不同之处在于,分类描述的是离散型变量的输出,而估值处理连续值的输出;分类的类别是确定数目的,估值的量是不确定的。 例子: a. 根据购买模式,估计一个家庭的孩子个数 b. 根据购买模式,估计一个家庭的收入 c. 估计real estate的价值 一般来说,估值可以作为分类的前一步工作。给定一些输入数据,通过估值,得到未知的连续变量的值,然后,根据预先设定的阈值,进行分类。例如:银行对家庭贷款业务,运用估值,给各个客户记分(Score 0~1)。然后,根据阈值,将贷款级别分类。

3.预测(Prediction) 通常,预测是通过分类或估值起作用的,也就是说,通过分类或估值得出模型,该模型用于对未知变量的预言。从这种意义上说,预言其实没有必要分为一个单独的类。预言其目的是对未来未知变量的预测,这种预测是需要时间来验证的,即必须经过一定时间后,才知道预言准确性是多少。

4.相关性分组或关联规则(Affinity grouping or association rules) 决定哪些事情将一起发生。 例子: a. 超市中客户在购买A的同时,经常会购买B,即A => B(关联规则) b. 客户在购买A后,隔一段时间,会购买B (序列分析)

5.聚类(Clustering) 聚类是对记录分组,把相似的记录在一个聚集里。聚类和分类的区别是聚集不依赖于预先定义好的类,不需要训练集 例子: a. 一些特定症状的聚集可能预示了一个特定的疾病 b. 租VCD类型不相似的客户聚集,可能暗示成员属于不同的亚文化群 聚集通常作为数据挖掘的第一步。例如,”哪一种类的促销对客户响应最好?”,对于这一类问题,首先对整个客户做聚集,将客户分组在各自的聚集里,然后对每个不同的聚集,回答问题,可能效果更好。

6.描述和可视化(Description and Visualization) 是对数据挖掘结果的表示方式。一般只是指数据可视化工具,包含报表工具和商业智能分析产品(BI)的统称。譬如通过Yonghong Z-Suite等工具进行数据的展现,分析,钻取,将数据挖掘的分析结果更形象,深刻的展现出来。

经验之谈
  • 目标律:业务目标是所有数据解决方案的源头

  • 知识律:业务知识是数据挖掘过程每一步的核心

  • 准备律:数据预处理比数据挖掘其他任何一个过程都重要

  • 试验律(NFL律:No Free Lunch):对于数据挖掘者来说,天下没有免费的午餐,一个正确的模型只有通过试验(experiment)才能被发现

  • 模式律(大卫律):数据中总含有模式

  • 洞察律:数据挖掘增大对业务的认知

  • 预测律:预测提高了信息泛化能力

  • 价值律:数据挖掘的结果的价值不取决于模型的稳定性或预测的准确性

  • 变化律:所有的模式因业务变化而变化

从目前网络招聘的信息来看,大小公司对数据挖掘的需求有50多个方面
  • 1、数据统计分析

  • 2、预测预警模型

  • 3、数据信息阐释

  • 4、数据采集评估

  • 5、数据加工仓库

  • 6、品类数据分析

  • 7、销售数据分析

  • 8、网络数据分析

  • 9、流量数据分析

  • 10、交易数据分析

  • 11、媒体数据分析

  • 12、情报数据分析

  • 13、金融产品设计

  • 14、日常数据分析

  • 15、总裁万事通

  • 16、数据变化趋势

  • 17、预测预警模型

  • 18、运营数据分析

  • 19、商业机遇挖掘

  • 20、风险数据分析

  • 21、缺陷信息挖掘

  • 22、决策数据支持

  • 23、运营优化与成本控制

  • 24、质量控制与预测预警

  • 25、系统工程数学技术

  • 26、用户行为分析/客户需求模型

  • 27、产品销售预测(热销特征)

  • 28、商场整体利润最大化系统设计

  • 29、市场数据分析

  • 30、综合数据关联系统设计

  • 31、行业/企业指标设计

  • 32、企业发展关键点分析

  • 33、资金链管理设计与风险控制

  • 34、用户需求挖掘

  • 35、产品数据分析

  • 36、销售数据分析

  • 37、异常数据分析

  • 38、数学规划与数学方案

  • 39、数据实验模拟

  • 40、数学建模与分析

  • 41、呼叫中心数据分析

  • 42、贸易/进出口数据分析

  • 43、海量数据分析系统设计、关键技术研究

  • 44、数据清洗、分析、建模、调试、优化

  • 45、数据挖掘算法的分析研究、建模、实验模拟

  • 46、组织机构运营监测、评估、预测预警

  • 47、经济数据分析、预测、预警

  • 48、金融数据分析、预测、预警

  • 49、科研数学建模与数据分析:社会科学,自然科学,医药,农学,计算机,工程,信息,军事,图书情报等

  • 50、数据指标开发、分析与管理

  • 51、产品数据挖掘与分析

  • 52、商业数学与数据技术

  • 53、故障预测预警技术

  • 54、数据自动分析技术

  • 55、泛工具分析

  • 56、互译

  • 57、指数化

商务智能(BI)

站内链接: BI

数据仓库(DW)

数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。 数据仓库 ,由数据仓库之父比尔·恩门(Bill Inmon)于1990年提出,主要功能仍是将组织透过资讯系统之联机事务处理(OLTP)经年累月所累积的大量资料,透过数据仓库理论所特有的资料储存架构,做有系统的分析整理,以利各种分析方法如联机分析处理(OLAP)、数据挖掘(Data Mining)之进行,并进而支持如决策支持系统(DSS)、主管资讯系统(EIS)之创建,帮助决策者能快速有效的自大量资料中,分析出有价值的资讯,以利决策拟定及快速回应外在环境变动,帮助建构商业智能(BI)。

一个数据仓库通常是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合,它用于对管理决策过程的支持。

特点:

1、数据仓库是面向主题的;操作型数据库的数据组织面向事务处理任务,而数据仓库中的数据是按照一定的主题域进行组织。
    主题是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。
2、数据仓库是集成的,数据仓库的数据有来自于分散的操作型数据
    将所需数据从原来的数据中抽取出来,进行加工与集成,统一与综合之后才能进入数据仓库;
    数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,
    必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。
3、数据仓库是不可更新的,数据仓库主要是为决策分析提供数据,所涉及的操作主要是数据的查询;
    数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,
    一旦某个数据进入数据仓库以后,一般情况下将被长期保留,
    也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。
4、数据仓库是随时间而变化的,传统的关系数据库系统比较适合处理格式化的数据,能够较好的满足商业商务处理的需求。
    稳定的数据以只读格式保存,且不随时间改变。
    数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到当前的各个阶段的信息,
    通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
5、汇总的。操作性数据映射成决策可用的格式。
6、大容量。时间序列数据集合通常都非常大。
7、非规范化的。DW数据可以是而且经常是冗余的。
8、元数据。将描述数据的数据保存起来。
9、数据源。数据来自内部的和外部的非集成操作系统。

数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它并不是所谓的“大型数据库”。数据仓库的方案建设的目的,是为前端查询和分析作为基础,由于有较大的冗余,所以需要的存储也较大。为了更好地为前端应用服务,数据仓库往往有如下几点特点:

1.效率足够高。
  数据仓库的分析数据一般分为日、周、月、季、年等,可以看出,日为周期的数据要求的效率最高,
  要求24小时甚至12小时内,客户能看到昨天的数据分析。
  由于有的企业每日的数据量很大,设计不好的数据仓库经常会出问题,延迟1-3日才能给出数据,显然不行的。
2.数据质量。
  数据仓库所提供的各种信息,肯定要准确的数据,但由于数据仓库流程通常分为多个步骤,
  包括数据清洗,装载,查询,展现等等,复杂的架构会更多层次,那么由于数据源有脏数据或者代码不严谨,都可以导致数据失真,
  客户看到错误的信息就可能导致分析出错误的决策,造成损失,而不是效益。
3.扩展性。
  之所以有的大型数据仓库系统架构设计复杂,是因为考虑到了未来3-5年的扩展性,
  这样的话,未来不用太快花钱去重建数据仓库系统,就能很稳定运行。
  主要体现在数据建模的合理性,数据仓库方案中多出一些中间层,使海量数据流有足够的缓冲,不至于数据量大很多,就运行不起来了。
  广义的说,基于数据仓库的决策支持系统由三个部件组成:
  数据仓库技术,联机分析处理技术和数据挖掘技术,其中数据仓库技术是系统的核心
4.面向主题。
  操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织的。
  主题是与传统数据库的面向应用相对应的,是一个抽象概念,是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象。
  每一个主题对应一个宏观的分析领域。数据仓库排除对于决策无用的数据,提供特定主题的简明视图。

数据库与数据仓库的区别:

1、出发点不同:数据库是面向事务的设计;数据仓库是面向主题设计的
2、存储的数据不同:数据库一般存储在线交易数据;数据仓库存储的一般是历史数据
3、设计规则不同:数据库设计是尽量避免冗余,一般采用符合范式的规则来设计;数据仓库在设计是有意引入冗余,采用反范式的方式来设计
4、提供的功能不同:数据库是为捕获数据而设计,数据仓库是为分析数据而设计
5、基本元素不同:数据库的基本元素是事实表,数据仓库的基本元素是维度表
6、容量不同:数据库在基本容量上要比数据仓库小的多
7、服务对象不同:数据库是为了高效的事务处理而设计的,服务对象为企业业务处理方面的工作人员
      数据仓库是为了分析数据进行决策而设计的,服务对象为企业高层决策人员

主页

索引

模块索引

搜索页面