我们正生活在“大数据”的時(shí)代。在当今這(zhè)个技术驱动的世界,计算能(néng)力、电子设备和Internet的可达性正在日益增長(cháng),同時(shí)比以往任何時(shí)候更多的数据正在被(bèi)传输和收集。组织正在以惊人的速度产生数据。仅Facebook自己每天就(jiù)會(huì)收集250 TB的数据。Thompson Reuters News Analytics显示,现在数字数据的产生量比2009年接近1 ZB(1 ZB等同于一百万PB)的量增長(cháng)了兩(liǎng)倍多,到2015年將(jiāng)有可能(néng)达到7.9 ZB,到2020年则有可能(néng)會(huì)达到35 ZB。
随著(zhe)组织已經(jīng)開(kāi)始收集并产生大量的数据,他们也開(kāi)始认识到数据分析的优势,但是他们也必须奋力地管理自己所拥有大量的信息。据Alistair Croll所說(shuō):
拥有大量数据但是沒(méi)有大量线索的公司將(jiāng)會(huì)被(bèi)虽然拥有更少的数据但是有更多线索的创业公司所取代…
這(zhè)意味著(zhe)除非你的业务理解它所拥有的数据,否则它將(jiāng)不能(néng)与理解這(zhè)些数据的企业竞争。企业已經(jīng)意识到:分析与商业竞争、态势感知、生产力、科學(xué)和创新相关的大数据能(néng)够获得巨大的收益。同時(shí)现在大部分公司將(jiāng)Hadoop作为自己分析大数据和掌握大数据挑战的一个主要工具。
根据Hortonworks的调查,Hadoop现在已經(jīng)被(bèi)很多大型主流组织所部署(50%的调查對(duì)象来自于收入超過(guò)$500M的组织),這(zhè)些组织分布在很多行业,包括:高科技、医疗保健、零售业、金融服务、政府和制造业。
大部分情况下,Hadoop并不會(huì)替代已有的数据处理系统,而是作为已有产品的补充。Hadoop通常會(huì)与已有的系统互补,它挖掘额外的业务数据,同時(shí)也是一个更加强大的分析系统让你能(néng)够更好(hǎo)地洞察业务信息从而获得竞争优势。54%的调查對(duì)象正在利用Hadoop捕获新型数据,同時(shí)還(hái)有48%的人打算這(zhè)样做。主要的新型数据包括:
根据调查,传统数据的平均增長(cháng)率大约是每年8%,而新型数据的增長(cháng)率则超過(guò)了85%,因此离開(kāi)了Hadoop几乎不可能(néng)收集并处理它们。
InfoQ有幸能(néng)够与Hortonworks公司的市场副总裁David McJannet一起(qǐ)讨论该调查的结果。
InfoQ:根据此次调查的结果,好(hǎo)像Hadoop应用的更加广泛但是深度却不够。好(hǎo)像越来越多的人正在開(kāi)始使用Hadoop,但是在很多情况下他们的使用仅限于大量数据的存储和對(duì)這(zhè)些数据执行简单的Hive/SQL查询。你认为這(zhè)種(zhǒng)趋势將(jiāng)會(huì)继续麼(me)?
McJannet:我认为Hadoop在某些行业中已經(jīng)应用得非常深入:對(duì)于早期的采用者而言,Hadoop是整体数据架构的基础,同時(shí)這(zhè)些公司现在也已經(jīng)广泛使用Hadoop。但是在2013年我们發(fā)现它開(kāi)始真正地扩大,這(zhè)从Hadoop Summit的调查报告中就(jiù)可以看出来。
让我们思考一下驱动采用率迅速攀升的原因,我认为至少有3个明确的因素:
InfoQ:你认为应用Hadoop的下一步是什麼(me)?你會(huì)如何定义像Hortonworks這(zhè)样的公司或者供应商在该過(guò)程中的角色?
McJannet:我看到了一个与企业使用非常一致的模式:大部分用户最初采用Hadoop的目的是创建一个新型分析系统——在大多数情况下是由某个行业线(例如市场营销)、或者由某个业务组推动的。在第一批项目取得成(chéng)功之後(hòu),数据架构团队會(huì)意识到Hadoop在整个数据架构中的价值,進(jìn)而將(jiāng)推动Hadoop下一阶段的使用——通常是创造一个“数据湖”或者是相似的概念。對(duì)于Hortonworks,我认为我们的角色是让Hadoop市场能(néng)够运行起(qǐ)来:
InfoQ:尽管Hadoop提供了惊人的处理能(néng)力,远远超過(guò)了SQL,但是Hive在Hadoop的使用上依然有举足轻重的地位。同時(shí)有更多的公司正在为Hadoop数据提供实時(shí)SQL查询解决方案,强调將(jiāng)SQL作为主要的Hadoop编程语言的声音似乎增長(cháng)得更多。你认为這(zhè)是一个短期现象還(hái)是一个長(cháng)期趋势?
McJannet:鉴于当今世界丰富的SQL技能(néng),對(duì)存储在Hadoop中的数据進(jìn)行访问時(shí)最常用的方式之一是使用SQL這(zhè)并不稀奇。在這(zhè)一方面(miàn),Apache Hive是到目前为止Hadoop SQL查询领域的一个占主导地位的工具。当然,一些希望抓住這(zhè)一市场机遇的专有供应商也在Hadoop之上推出了一些新产品,但是总的来說(shuō)Hive是标准同時(shí)也很有可能(néng)始终都(dōu)是,特别是考虑到为了继续提升Hive的速度、规模和SQL语义Microsoft、SAP、Hortonworks以及其他组织在Stinger Initiative上所做的工作。
除了SQL之外,還(hái)有很多其他的方式可以访问存储在Hadoop中的数据,但是公平一点地說(shuō),使用SQL/Hive將(jiāng)會(huì)是最主要的途径。例如,Hive往往是所有基于Hadoop的BI工具所使用的接口。但是對(duì)于更加复杂的用例,我们确实會(huì)看到广泛使用的技术,例如Pig(脚本查询),同時(shí)還(hái)有更加普遍的高端工具,它们所使用的接口對(duì)用户而言并不可见,例如R和SAS。
随著(zhe)時(shí)间的發(fā)展,最常用的接口很有可能(néng)是一个打包的应用程序(SAS、Microstrategy、Excel、业务對(duì)象、Platfora等),最终用户根本就(jiù)不需要知道(dào)底层用了什麼(me)。
InfoQ:你认为Hadoop將(jiāng)會(huì)被(bèi)用于构建主流企业应用程序麼(me)?大约什麼(me)時(shí)候我们才能(néng)看到這(zhè)些应用程序?
McJannet:毫无疑问!历史告诉我们Web公司是采用這(zhè)些新型技术(例如现在正在發(fā)展中的Hadoop)的先锋。這(zhè)些公司已經(jīng)基于Hadoop构建他们的主流应用程序几年了,现在我们看到主流的企业也在遵循同样的路径。
也是出于這(zhè)方面(miàn)的原因,我们才有了這(zhè)样一个焦点:与人们已經(jīng)拥有的開(kāi)發(fā)技能(néng)集成(chéng)。例证:.NET開(kāi)發(fā)者?.NET SDK for Hadoop是基于開(kāi)源HDP的。Java開(kāi)發(fā)者?Java Spring(构建Java应用的主要框架)的HDP认证將(jiāng)會(huì)是這(zhè)个迁移的一个强力推动者。
什麼(me)時(shí)候?做這(zhè)種(zhǒng)类型的预测一直都(dōu)非常难,但是我认为新生技术的转变通常會(huì)需要比预期更長(cháng)的時(shí)间,同時(shí)意义也要比预期更加深远。Hadoop技术的使用到现在已經(jīng)進(jìn)行了好(hǎo)几年,现在才真正地開(kāi)始固定下来,因为事(shì)实证明它能(néng)够带来客户群的增長(cháng)。作为一个供应商,我们认为我们角色中的一个非常重要的方面(miàn)是:关注于技术和技能(néng)的集成(chéng)从而以最及時(shí)最合理的方式推动它的發(fā)展。
版权所有:兴化市妙妙网络技术有限公司 Copyright 2012 lfwl.com.cn All right reserved
地址:兴化市九洲城中城2号6-064商铺(老長(cháng)途汽车站對(duì)面(miàn),金融大厦西50米) 电话:18001423889