阿里云大数据专有云赋能培训小结

2017年12月16日讲师:史老师浏览:5244次

2017.12.13-14日,在杭州阿里巴巴西溪园区参加了阿里云大小专赋能培训,觉得里面有些东西还是值得一写的。 众所周知,云计算的具体部署形式,分为公有云、私有云,以及二者结合的混合云。当然,oracle自己又搞出来了一个社区云的概念,也就是几家企业合作搭建的供其自己使用的云。 阿里云大数据的专有云,实际上就是私有云。名称为Apsara Stack Enterprise 即阿里的全量云平台。 阿里的大小专,则是该全量平台的轻量级版本。 大,指的是大数据,小,指的是轻量级,专,自然就是专有云了。 作为知名的公有云平台,阿里云在国内的市场占有率已经接近50%,接下来发力私有云市场,显然也是情理之中的事情。 先来看一个阿里云大数据专有云的全景图: 当然,纯粹就技术层面而言,大小专实际上就是把阿里云的公有平台上的各种服务小型化了,然后进行打包,这样就可以根据客户的需要,进而部署客户自己的私有云。只不过有些产品,在公有云和私有云中的功能是略有差异的。 本次培训内容分为三个部分,第一部分,是13日上午,主要介绍整个阿里大小专的整体解决方案及应用案例。里面提到的主要有以下内容: 1,ET大脑 第一次接触这个东西的时候,我还以为阿里是想做一个类似于游戏的通用引擎那样的东西,然后根据不同的行业,再具体来做不同的应用。及至参加了这次培训,才知道阿里云的ET大脑目前已经分为了五个方向: 城市 工业 航空 环境 医疗 依据这些方向,分别搞出来了5个ET大脑。尤其是其中的ET城市大脑,已经在杭州和苏州落地,目的是创建智慧城市。例如可以对道路交通、信号灯设置等等都进行调整及优化。从已知的效果来看,还是不错的。 2,天池众智平台 这个平台的最底层,就是阿里的分布式操作系统——飞天。然后上面是阿里的大数据解决方案——数加,最上层才是这个天池。依照阿里的想法,显然是想将这个东西做成一个基于阿里云大数据的生态圈,因此参与了多个竞赛和相关推广活动。 3,与华为FusionInsight对比 阿里的大数据解决方案,也就是数加,是完全基于阿里云平台的。而华为的FI,则是基于开源的Hadoop组件,并进行二次开发及整合所形成的。严格来说,二者各有特色,但是这里是阿里的主场,所以,你懂得······ 第二部分,是13日下午-14日上午,大数据产品深度解析。 这里主要包含了MaxCompute、DataWorks、AnalyticDB、Quick BI、I+关系网络、StreamCompute以及DTBOOST画像分析等多个产品。 对照一下上面的那张全景图,你就可以知道,本次培训的内容,专注于大数据处理这一部分。 MaxCompute 其实就是阿里云大数据整体解决方案的基础平台,类似于Hadoop,只不过底层的操作系统、调度系统等等,用的都是阿里自己开发的东西。例如它的分布式操作系统——飞天,文件存储系统——盘古,调度系统——伏羲等等。中国的上古神话里面的各种人物都被拉来干活了······ MaxCompute原来被称之为odps,后来才改成了现在的名称。只是在阿里内部,一般都还是叫做odps,即便是在阿里云的官方文档中,也还是叫做odps。 DataWorks 实际就是原来的Data IDE,即阿里的大数据开发套件。现在叫DataWorks——数据工场。它提供了一系列的开发工具,以及公开的API,也支持用户自定义UDF、UDAF以及UDTF。 AnalyticDB 阿里云的分析型数据库。其目的主要是用于海量数据的高并发在线分析。在这两天的培训中,这一部分的内容是最有干货的,主要是探讨了在处理海量数据的时候,原有数据库理论中的表、分区表,索引,以及表的连接等多种技术是如何进行调整和优化,从而能够快速处理上百亿甚至千亿级别的数据。 Quick BI 一看到这个,我的第一个反应,就是Microsoft的PowerBI。而实际上,两个还真是差不多,都是尽量通过图形化的方式来实现对数据集中、建模以及展现的图形化处理。只不过在与Excel的集成方面,显然还是PowerBI更强大一些。 I+ 这应该是本次培训中最为出彩的一个技术了。其名称为I+关系网络分析。它的用途,可以看下面这张图: 这个东西的最大价值,就是可以通过收集到的信息,来对人与人之间,或者人与某个事物之间的关系进行分析。比如说,可以分析某人经常与哪些人通话,而这些人又通常与哪些人通话,或者是经常在什么地方碰头,那就可以用来对案件进行团伙分析。 它的数据模型称之为OLP,也是大小专中的第一个成熟产品,目前在阿里云上已经开始公测,链接如下: https://data.aliyun.com/product/graphanalytics?spm=5176.8142029.388261.376.3836dbcckDZp7s StreamCompute Alibaba Cloud StreamCompute(阿里云流计算),是基于开源的Flink而构建的阿里云流计算处理技术。 而在事件流处理领域,除了Flink之外,还有Lambda、在线ML、CEP以及边缘计算等方向,也是目前大数据领域中极为火爆的技术方向之一。 其实听到这里,倒是也更印证了我此前一直在讲课中反复提到的一个观点:大数据生态圈中各个技术与组件的迭代更新与新技术出现特别快,需要一直保持关注并不断学习才能跟上。 毕竟,阿里此前用于流计算的,主要是Storm,现在已经转向Flink了。 Flink有如下特点: declarative 声明式 optimizable 可优化 understandable 可理解 stable 稳定 unify 统一 而在阿里内部,StreamCompute流处理技术被称之为Blink。 DTBOOST 画像分析所适用的场景主要是结合阿里云分析型数据库(Analytics DataBase),将分布在多个存储资源的数据整合起来,在标签模型(OLT)上构建大数据画像类的交互式分析应用,从而让业务人员可以自由灵活的分析这些对象各种属性与行为之间的关联性。可以广泛应用于工业设备画像分析、企业经营画像分析、用户行为画像分析等多个场景当中. 第三部分,是14日下午,大数据相关产品的运维。 这一部分,主要包含如下内容 MaxCompute产品运维服务 DataWork产品运维服务 AnalyticDB产品运维服务 StreamCompute产品运维服务 基本就是这些产品的一些常见问题和处理。基本上就是来源于阿里云的官方文档。对问题的具体成因以及内在技术的分析则几乎没有,也是没什么可写的了。
分享 0

您已经赞过了!