万山数据创始人 鲁四海
2018年7月22日,“第七届中国大数据应用论坛”在北京大学隆重举行。论坛由中国新一代IT产业推进联盟指导,CIO时代学院、北大软件工程研究所主办,全国高校大数据教育联盟、北达软、万山数据协办,主题为:大数据时代的数据保护与利用。万山数据创始人鲁四海以大数据工具及应用为题作了主旨演讲。
在一开始,鲁四海为大家分析了数据技术和产业发展,从计算机诞生到现在已经经历了四个阶段:数据耦合阶段、数据库阶段、数据分析阶段、大数据阶段。数据耦合阶段,数据与应用紧密捆绑在文件中彼此不分,磁盘的出现进入文件管理;数据阶段,数据与应用分离,数据库技术蓬勃发展,但重视事务处理,SQL也就是在这一阶段出现的;数据分析阶段,传统数据仓库技术出现,提出数据分析的商务智能,数据挖掘最经典的开源项目R也就是在一阶段产生的,虽然有了数据仓库,但主要还是基于小数据、结构化数据的挖掘;大数据阶段就是现在我们所处的时代,更丰富的数据、更快更准更敏捷的技术,让数据分析进入工作、生活的方方面面。
大数据,给企业或者机构带来的变化主要在六个方向:决策支持、运营优化、营销/公关突破、安全保护、业务创新、商业变革。
在决策支持方面,我们认为很重要的一点是要在最简洁的一张图上能够让决策者看到当前的情况和即将变化的未来的趋势。还举了一个生产企业的例子决策者从一张图能看出来当时在投入多少、产出多少、哪些地方的变化是什么样子的,为自己接下来要做部署,哪些材料和采购,生产排期做出优化。
运营优化,通过一个IT部门运营数据分析的例子,展示了数据分析对于工作安排、成本优化、能力构建等方面的重要作用。
营销突破方面,其实大家对精准营销的体会都很深了。但是营销突破不仅仅是精准营销。通过白酒电商价格指数平台的例子,为大家分享了如何利用大数据洞察行业趋势、做竞争分析、市场决策。
安全保护方面,刚才也有专家讲到了,以前的安全保护更多是通过规则,然后就是竞争。黑客和安全厂商看谁跑的比较快。但这其实是治标不治本的。那么用大数据来做安全是什么呢?是通过数据的监测对用户访问的行为去做一个自助学习的预判,它可能是风险的行为,我们提前做出预警,而不是生病之后再来治疗这个问题,所以它能够在安全上起到更好的效果。
前面四个方面着力点还是在提升企业的核心竞争力,也是当前大数据应用的主要方向,未来将会在业务创新、商业变革方面起到更积极的推动作用。
大数据有如此这般大的价值,但是要完成“从数据到价值转变”这个过程有非常多的步骤要走,主要有五大步骤:数据准备、存储管理、计算处理、数据分析、知识转化。
每一个步骤在不同的场景下,都有不同与之适应的工具。在数据准备这一层,我们能够看到的工具主要是两个流派,第一个“大数据转换工具”,代表性的是Hadoop Sqoop 、另外一个是传统ETL工具。Sqoop在大并发量的处理上面它是有优势的,而且和Hadoop这样的新技术是衔接的会比较好。但是如果是面向大量的不同类型、不同位置的结构化或者关系型数据库,可能你再去做这种新的技术在上面就不是那么好,反而是用ETL去做,现在有可视化设计,通过拖拽方式就能把你要做的简单的数据清洗和转化过程给做了,也许是更好的选择。
在存储管理方面,如果是面向文件的存储,那么Ceph是不错的选择;如果是大量非结构化(如日志)的数据的存储,后期应用主要是查询,那么Hbase是不错的选择,如果数据查询频度、并发特别高,那么Cassandra就更有优势;如果是量面向分析挖掘的数据,即数库类应用,那么MPP就更适合了,如GreenPlum。
在计算这块,Spark通过内存快速地做一些训练、建模、迭代的过程,非常有优势。如果说你的场景是对历史知识能够快速查询出来,那么ES是更好的选择。如果是批处理的话MapReducs会更好一点。如果是数据挖掘预测,R语言值得尝试,现在有两千多个模型可以调用,它是从解决某个业务问题分析的角度出来的分析工具。
在知识转化这个方面,有两个层面的事要做,一是可视化,第二是将可视化的结果与业务结合起来,形成对业务有指导的知识。在可视化这一层,有三个重点,第一是将数据图表化,最有代表性的工具就是Highcharts和国内百度做的Echarts;另外一块,我们理解的可视化这块是要把你解决问题的模型的结果反馈给用户,让用户能做相应的决策,比如说Pentaho BI、FineBI这样的一些工具来做这样的事情;再有就是数据与地理的结合展示,GeoJson是值得关注的一个标准,GeoJSON是一种对各种地理数据结构进行编码的格式,基于Javascript对象表示法的地理空间信息数据交换格式,可以和OSM、百度、Google等各种基础地图进行结合使用。
前面讲了工具在不同应用场景下的选择,那大数据分析核心要解决的问题是什么呢?我们认为有三点:是否能够让数据实时准确更新?是否能够让业务人员参与数据分析?数据分析的过程、结果是否变成知识,并且可以传递?
所以我们就做了一个敏捷数据分析平台,就是把相应的工具能够通过这个平台给联合起来。这里面主要干了几件事:一是把异构数据做了融合。因为大数据分析一定是很多的数据,不同的地方,而且我们做的是,在这个分析平台上面,逻辑上集中的,但是物理上它是分离的,未来数据分析一定是这样的但是分析的时候你要调用各类数据,所以逻辑上一定要集中;然后要做到基于WEB的可跨数据源的探索式数据查询;另外就是在自主分析这块,我们要面向非技术人员。
我们实现了跨数据源的联合分析。每个数据源在上面可以创建一个模型出来,这些模型还可以继续去联合创建新的模型出来,这样就实现跨数据源异构的数据进行融合分析。
前面讲了分析这块像R、python有很多这样的一些算法模型是可以用的,所以我们这上面就有这么一个算法库,把R或者pytho,你认为能够解决你这个问题的模型的办法,放在这上面进行托管。不仅仅可以用,而且整个企业都可以使用,这就做到我开发出来一个模型在知识上是可以传递可以被复用的。
在数据查询这个方面,我们做到了让业务人员能够去做查询,他只需要去拖拽,无需知道数据结构是什么、数据在哪里,也不需要写任何的查询脚本。
当然你做了这些分析之后,所有的东西后面都需要把它作为呈现出来,这就是最后一步,我们这上面有一个交互式驾驶舱,都是用拖拽配置来把你所需要的数据的可视化展现这部分可以完成。
这是地图这块。我们支持GeoJson、SVG这种都是国际通用的标准,可以移植的支持方式。所以说你在这方面去构建的图层到了别的地方照样可以使用。
同时我们这套分析平台也做了开源版,通过Spago86的社区对外提供。
0