您现在的位置是:首页 > 领风资讯 > >> 返回

大数据Hadoop目前使用情况的调查

我们正生活在“大数据”的時(shí)代。在当今這(zhè)个技术驱动的世界,计算能(néng)力、电子设备和Internet的可达性正在日益增長(cháng),同時(shí)比以往任何時(shí)候更多的数据正在被(bèi)传输和收集。组织正在以惊人的速度产生数据。仅Facebook自己每天就(jiù)會(huì)收集250 TB的数据。Thompson Reuters News Analytics显示,现在数字数据的产生量比2009年接近1 ZB(1 ZB等同于一百万PB)的量增長(cháng)了兩(liǎng)倍多,到2015年將(jiāng)有可能(néng)达到7.9 ZB,到2020年则有可能(néng)會(huì)达到35 ZB。

随著(zhe)组织已經(jīng)開(kāi)始收集并产生大量的数据,他们也開(kāi)始认识到数据分析的优势,但是他们也必须奋力地管理自己所拥有大量的信息。据Alistair Croll所說(shuō):

拥有大量数据但是沒(méi)有大量线索的公司將(jiāng)會(huì)被(bèi)虽然拥有更少的数据但是有更多线索的创业公司所取代…

這(zhè)意味著(zhe)除非你的业务理解它所拥有的数据,否则它將(jiāng)不能(néng)与理解這(zhè)些数据的企业竞争。企业已經(jīng)意识到:分析与商业竞争、态势感知、生产力、科學(xué)和创新相关的大数据能(néng)够获得巨大的收益。同時(shí)现在大部分公司將(jiāng)Hadoop作为自己分析大数据和掌握大数据挑战的一个主要工具。

根据Hortonworks的调查,Hadoop现在已經(jīng)被(bèi)很多大型主流组织所部署(50%的调查對(duì)象来自于收入超過(guò)$500M的组织),這(zhè)些组织分布在很多行业,包括:高科技、医疗保健、零售业、金融服务、政府和制造业。

大部分情况下,Hadoop并不會(huì)替代已有的数据处理系统,而是作为已有产品的补充。Hadoop通常會(huì)与已有的系统互补,它挖掘额外的业务数据,同時(shí)也是一个更加强大的分析系统让你能(néng)够更好(hǎo)地洞察业务信息从而获得竞争优势。54%的调查對(duì)象正在利用Hadoop捕获新型数据,同時(shí)還(hái)有48%的人打算這(zhè)样做。主要的新型数据包括:

  • 服务日志数据,能(néng)够让IT部门更好(hǎo)地管理他们的基础设施(64%的调查對(duì)象已經(jīng)這(zhè)样做了,同時(shí)還(hái)有28%正计划這(zhè)样做)。
  • 点击流数据,能(néng)够让你更好(hǎo)地理解客户是如何使用应用程序的(52.3%的调查對(duì)象已經(jīng)這(zhè)样做了,同時(shí)還(hái)有37.4%正计划這(zhè)样做)。
  • 社交媒体数据,能(néng)够让你了解公众對(duì)公司的看法(36.5%的调查對(duì)象已經(jīng)這(zhè)样做了,同時(shí)還(hái)有32.5%正计划這(zhè)样做)。
  • 地理/位置数据,能(néng)够用来分析旅行模式(30.8%的调查對(duì)象已經(jīng)這(zhè)样做了,同時(shí)還(hái)有26.8%正计划這(zhè)样做)。
  • 机器数据,能(néng)够用来分析机器的使用情况(29.3%的调查對(duì)象已經(jīng)這(zhè)样做了,同時(shí)還(hái)有33.3%正计划這(zhè)样做)。

根据调查,传统数据的平均增長(cháng)率大约是每年8%,而新型数据的增長(cháng)率则超過(guò)了85%,因此离開(kāi)了Hadoop几乎不可能(néng)收集并处理它们。

InfoQ有幸能(néng)够与Hortonworks公司的市场副总裁David McJannet一起(qǐ)讨论该调查的结果。

InfoQ:根据此次调查的结果,好(hǎo)像Hadoop应用的更加广泛但是深度却不够。好(hǎo)像越来越多的人正在開(kāi)始使用Hadoop,但是在很多情况下他们的使用仅限于大量数据的存储和對(duì)這(zhè)些数据执行简单的Hive/SQL查询。你认为這(zhè)種(zhǒng)趋势將(jiāng)會(huì)继续麼(me)?

McJannet:我认为Hadoop在某些行业中已經(jīng)应用得非常深入:對(duì)于早期的采用者而言,Hadoop是整体数据架构的基础,同時(shí)這(zhè)些公司现在也已經(jīng)广泛使用Hadoop。但是在2013年我们發(fā)现它開(kāi)始真正地扩大,這(zhè)从Hadoop Summit的调查报告中就(jiù)可以看出来。

让我们思考一下驱动采用率迅速攀升的原因,我认为至少有3个明确的因素:

  1. 對(duì)Hadoop用例有了更好(hǎo)的理解。实际上這(zhè)一点在调查结果中有所表现,结果显示2个主要推动力是:(a)基于新型数据构建的新型分析系统,(b)作为整体架构的一部分管理長(cháng)期增長(cháng)的数据。
  2. 技术本身的快速發(fā)展继续简化了使用,同時(shí)也为大规模推广创造了条件。Hadoop 2在很多方面(miàn)都(dōu)有巨大的進(jìn)步,同時(shí)它還(hái)吸收了广大社区几年来的工作。
  3. 市场上的供应商拥抱该生态系统。例如,Microsoft所做的工作允许Excel用户直接连接到Hortonworks 数据平台(HDP)上拉取数据進(jìn)行分析。而更加复杂的分析通常會(huì)在SAS這(zhè)样的工具中完成(chéng),为了將(jiāng)SAS分析工具连接到HDP上他们作了非常深入的工作。這(zhè)使得该工具的使用变得更加简单,在很多情况下最终用户甚至根本就(jiù)不知道(dào)他们正在使用Hadoop。

InfoQ:你认为应用Hadoop的下一步是什麼(me)?你會(huì)如何定义像Hortonworks這(zhè)样的公司或者供应商在该過(guò)程中的角色?

McJannet:我看到了一个与企业使用非常一致的模式:大部分用户最初采用Hadoop的目的是创建一个新型分析系统——在大多数情况下是由某个行业线(例如市场营销)、或者由某个业务组推动的。在第一批项目取得成(chéng)功之後(hòu),数据架构团队會(huì)意识到Hadoop在整个数据架构中的价值,進(jìn)而將(jiāng)推动Hadoop下一阶段的使用——通常是创造一个“数据湖”或者是相似的概念。對(duì)于Hortonworks,我认为我们的角色是让Hadoop市场能(néng)够运行起(qǐ)来:

  1. 联合该生态系统中的其他组织确保開(kāi)源的Hadoop能(néng)够持续地在開(kāi)源领域發(fā)展同時(shí)为所有人服务
  2. 提供一个真正的已經(jīng)經(jīng)過(guò)大规模集成(chéng)和测试的企业级平台,同時(shí)合并開(kāi)源社区最近的创新。
  3. 确保它与用户已有的工具和技术的集成(chéng)性和互操作性。這(zhè)就(jiù)是为什麼(me)我们會(huì)努力工作以确保HDP可以与来自于HP、Microsoft、SAP、SAS、Teradata等公司的技术進(jìn)行认证的原因——事(shì)实上,现在所有的這(zhè)些合作伙伴都(dōu)將(jiāng)HDP作为他们产品中的一个组件進(jìn)行转售。一般来說(shuō),大多数组织所依赖的供应商依赖于Hortonworks针對(duì)Hadoop研發(fā)的相关产品,這(zhè)種(zhǒng)方式能(néng)够让整个市场更快地运行和成(chéng)熟。

InfoQ:尽管Hadoop提供了惊人的处理能(néng)力,远远超過(guò)了SQL,但是Hive在Hadoop的使用上依然有举足轻重的地位。同時(shí)有更多的公司正在为Hadoop数据提供实時(shí)SQL查询解决方案,强调將(jiāng)SQL作为主要的Hadoop编程语言的声音似乎增長(cháng)得更多。你认为這(zhè)是一个短期现象還(hái)是一个長(cháng)期趋势?

McJannet:鉴于当今世界丰富的SQL技能(néng),對(duì)存储在Hadoop中的数据進(jìn)行访问時(shí)最常用的方式之一是使用SQL這(zhè)并不稀奇。在這(zhè)一方面(miàn),Apache Hive是到目前为止Hadoop SQL查询领域的一个占主导地位的工具。当然,一些希望抓住這(zhè)一市场机遇的专有供应商也在Hadoop之上推出了一些新产品,但是总的来說(shuō)Hive是标准同時(shí)也很有可能(néng)始终都(dōu)是,特别是考虑到为了继续提升Hive的速度、规模和SQL语义Microsoft、SAP、Hortonworks以及其他组织在Stinger Initiative上所做的工作。 
除了SQL之外,還(hái)有很多其他的方式可以访问存储在Hadoop中的数据,但是公平一点地說(shuō),使用SQL/Hive將(jiāng)會(huì)是最主要的途径。例如,Hive往往是所有基于Hadoop的BI工具所使用的接口。但是對(duì)于更加复杂的用例,我们确实會(huì)看到广泛使用的技术,例如Pig(脚本查询),同時(shí)還(hái)有更加普遍的高端工具,它们所使用的接口對(duì)用户而言并不可见,例如R和SAS。 
随著(zhe)時(shí)间的發(fā)展,最常用的接口很有可能(néng)是一个打包的应用程序(SAS、Microstrategy、Excel、业务對(duì)象、Platfora等),最终用户根本就(jiù)不需要知道(dào)底层用了什麼(me)。

InfoQ:你认为Hadoop將(jiāng)會(huì)被(bèi)用于构建主流企业应用程序麼(me)?大约什麼(me)時(shí)候我们才能(néng)看到這(zhè)些应用程序?

McJannet:毫无疑问!历史告诉我们Web公司是采用這(zhè)些新型技术(例如现在正在發(fā)展中的Hadoop)的先锋。這(zhè)些公司已經(jīng)基于Hadoop构建他们的主流应用程序几年了,现在我们看到主流的企业也在遵循同样的路径。

也是出于這(zhè)方面(miàn)的原因,我们才有了這(zhè)样一个焦点:与人们已經(jīng)拥有的開(kāi)發(fā)技能(néng)集成(chéng)。例证:.NET開(kāi)發(fā)者?.NET SDK for Hadoop是基于開(kāi)源HDP的。Java開(kāi)發(fā)者?Java Spring(构建Java应用的主要框架)的HDP认证將(jiāng)會(huì)是這(zhè)个迁移的一个强力推动者。 
什麼(me)時(shí)候?做這(zhè)種(zhǒng)类型的预测一直都(dōu)非常难,但是我认为新生技术的转变通常會(huì)需要比预期更長(cháng)的時(shí)间,同時(shí)意义也要比预期更加深远。Hadoop技术的使用到现在已經(jīng)進(jìn)行了好(hǎo)几年,现在才真正地開(kāi)始固定下来,因为事(shì)实证明它能(néng)够带来客户群的增長(cháng)。作为一个供应商,我们认为我们角色中的一个非常重要的方面(miàn)是:关注于技术和技能(néng)的集成(chéng)从而以最及時(shí)最合理的方式推动它的發(fā)展。