MSBI 学习库: https://ask.hellobi.com/blog/biwork
SSAS库部署的几种方式
如果说商业智能分为三个层次:告诉你发生了什么,为什么会发生,将来会发生什么。那么,数据挖掘绝对算是商业智能中最高的一个层次,告诉你将来会发生什么,也就是预测。而预测的基础就是根据海量的历史数据,结合一定的算法,以概率为基础,告诉你一条新数据某条属性的趋势。
BI的过程可以看成是数据的昨天,今天和明天,数据的昨天,通过报表告诉你的业务之前发生了什么,数据的今天,通过多维分析等工具告诉你这些为什么会发生,那么数据的明天,就是通过数据挖掘算法,对已有的海量历史数据进行挖掘,从而让你知道你的业务未来会是什么样。
SQL:来为多维数据集建立分区,或者在数据挖掘中指定训练数据或者预测数据
MDX:查多维数据集用的
DMX:查挖掘模型用的,它主要面向分析服务中的数据挖掘部分,通过它可以建立挖掘结构和挖掘模型,以及训练数据和做预测查询
ADOMD.NET:就是专门用来访问分析服务用的
事例表:左面的表是在数据仓库经过整合的一批数据,用来训练和验证模型。右面的表是待预测的表,将在模型生成完毕后对这个表里的数据进行预测。
元数据:是描述数据仓库内数据的结构和建立方法的数据。可将其按用途的不同分为两类,技术元数据和商业元数据。
Business Intelligence(BI) = Data Warehouse(DW) + OLAP + Data Mining(DM)
商业智能=数据仓库+联机分析+数据挖掘OLAP和数据挖掘:OLAP使用技术比数据挖掘简单,前者也就是涉及到维度、度量、层次、cube等一些概念,技术上真的有些傻瓜。而后者好像真的高深很多,一堆算法,什么关联算法、决策树、神经元等等,怪能吓唬人的。OLAP和数据挖掘都是为决策提供支持,只是侧重点不同,前者提供描述型的模型,告诉你什么样的产品在什么地区的销售额和去年的对比。后者提供探索型的模型,告诉你啤酒和尿布的规律。最后的决策都是人来做。几年的大型BI项目几乎都是这种思路,先建数据仓库,上OLAP和报表应用,数据挖掘在二期考虑。
多维分析:多维分析报表结合商业智能的——OLAP,可以帮助用户进行多角度、灵活动态的分析。多维分析报表由“维”(影响因素)和 “指标”(衡量因素)组成,能够真正为用户所理解、并真实的反映企业特性信息。多维分析是分析企业数据最有效的方法,是OLAP的灵魂
OLAP的多维分析视图就是冲破了物理的三维概念,采用了旋转、嵌套、切片、钻取和高维可视化技术,在屏幕上展示多维视图的结构,使用户直观地理解、分析数据,进行决策支持。
ROLAP、MOLAP、HOLAP: OLAP系统按照其存储器的格式可以分为(RelationalOLAP,简称ROLAP)、多维OLAP(MultidimensionalOLAP,简称MOLAP)和混合型OLAP(HybridOLAP,简称HOLAP)三种类型。
ODS(Operational Data Store)是体系结构中的一个可选部分,ODS具备的部分特征和OLTP系统的部分特征,它是“面向主题的、集成的、当前或接近当前的、不断变化的”数据。
物化视图是包括一个查询结果的数据库对象,它是远程数据的的本地副本,或者用来生成基于数据表求和的汇总表。
大数据、云计算、商业智能:三者之间的关系,个人理解:离用云计算来处理大数据,解决性能问题,然后在大数据的基础上进行数据分析、数据挖掘。
4V:大数据的4V特性,即类型复杂,海量,快速和价值
Hadoop:一个分布式系统基础架构,用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。只在你的数据量可能会扩充到TB或甚至PB这样的水平时,才探索像Hadoop这样的大数据方法。
微软官方表示,微软已经放弃了微软与Hortonworks开发实施Windows Server(也就是HDInsight Server for Windows)的计划。相反,微软将会建议那些希望在Windows Server上部署Hadoop的客户选择Hortonworks Data Platform (HDP) for Windows。
去年发布的SQL Server 2012针对大数据做了很多改进,其中最重要的就是全面支持Hadoop。
SQL Server并行数据仓库:并行数据仓库(Parallel Data Warehouse Appliance,简称PDW)是在SQL Server 2008 R2中推出的新产品,目前已经成为微软主要的数据仓库产品,并将于今年发布基于SQL Server 2012的新款并行数据仓库一体机。SQL Server并行数据仓库采取的是大规模并行处理(MPP)架构,与传统的单机版SQL Server存在着根本上的不同,它将多种先进的数据存储与处理技术结合为一体,是微软大数据战略的重要组成部分。
云计算包含如下:
IaaS:基础设施即服务
PaaS:平台即服务
SaaS:软件即服务
Informatica:最富盛名的是数据集成平台,“所谓数据集成平台,其前身是ETL(Extraction Transformation Loading,数据提取、转换和加载),是伴随着BI、数据仓库的需求出现的,其主要功能对各种业务平台数据进行抽取和相关转化,以此来满足BI、数据仓库对数据格式和内容挖掘的要求。”但彬说。“不仅BI、数据仓库对数据格式/内容有需求,企业不同应用系统之间也不断交换数据,为此,企业数据集成概念脱颖而出。”
BI经典实例全过程,多读几遍:
数据挖掘扩展插件语言:DMX
数据挖掘算法全解释:
博客园SSAS学习资源库:
(带图) :
:
OLAP的多维数据分析:
多维联机分析处理:
SSIS包的部署、配置、定期执行:
:
专注BI博客: