大数据的下一个主角是“Spark” 丰田及CIA等纷纷采用(2)

机器学习是一种由计算机自动从数据中获得知识或规则的技术。丰田美国于2015年4月采用机器学习技术开发出了一种系统，可由计算机根据内容，对“推特

机器学习是一种由计算机自动从数据中获得知识或规则的技术。丰田美国于2015年4月采用机器学习技术开发出了一种系统，可由计算机根据内容，对“推特”（Twitter）等SNS（社交网络服务）上用户写下的留言进行自动分类。

用户在SNS上针对丰田写下的留言是关于“丰田车性能”的，还是关于“丰田专卖店（经销商）服务”的，亦或是关于“丰田CM”的呢？计算机通过对大数据进行机器学习，自动找出了用来进行这种判断的“规则”。并利用Spark进行了这方面的相关处理。

Kursar称，“SNS上的留言数据非常庞大，由人来查看这些内容是不可能的。通过开发出这种可自动判断出用户留言内容的系统，可以从庞大的数据中找出有助于改善产品和服务的有益留言”。

利用存储器进行高速处理

为什么Spark能够高速进行机器学习处理呢？下面就介绍一下其工作原理。

机器学习可根据相关数据，采用统计方法，针对计算机制定的“规则”与现实规则的相符程度进行多次验证。Hadoop在每次进行这种验证处理时，都会从硬盘（HDD）中读取数据，或者将数据写入硬盘。因此，需要花费较长时间来处理。

而Spark通过将所需数据保存在存储器上来进行这种验证处理。由于不使用低速硬盘，因此与Hadoop相比，可以缩短处理时间。

而且，Spark还可以与Hadoop共存。原因是Spark可以对Hadoop的标准存储器“HDFS”保存的数据进行处理。Spark的主要开发者之一、NTT DATA基础系统业务本部的猿田浩辅表示，“Spark可对Hadoop起到补充作用”。对于现有Hadoop用户而言，Spark能够轻松导入，因此该软件在短短1年内就迅速普及开来。

在Spark峰会上，Databricks首席技术官（CTO）Matei Zaharia介绍了Spark的用户等情况。

最大用户为腾讯，服务器数量达到8000台

Zaharia称，目前Spark使用规模最大的企业是中国SNS运营商腾讯（Tencent），该公司在8000台服务器上使用了Spark。中国EC（电商）阿里巴巴集团则使用Spark一次处理高达1PB（Peta Byte）的数据。

中国企业对使用Spark非常积极。在中国大型搜索网站百度的美国法人百度美国担任资深架构师的James Peng在2015年Spark 峰会上登台发表主题演讲，介绍了百度使用Spark的情况（照片3）。Peng表示，百度目前使用1000多台服务器来运行Spark。在互联网广告、搜索、地图服务、EC等业务领域均使用了Spark。

Peng介绍说，“对于百度的机器学习来说，Spark是不可缺少的平台”。该公司目前正在考虑扩展Spark，使其能够用于以人脑为模型的机器学习方法“深度学习（Deep Learning）”的处理。

Airbnb通过机器学习技术制作需求预测模型

此外，Airbnb及Uber等公司也在Spark峰会上发表演讲，介绍了Spark的导入实例。据Airbnb介绍，该公司使用Spark开发出了一种系统，该系统能以天为单位预测全世界不同城市的住宿需求，为房主确定房间价格提供帮助。

在Airbnb网站上，出租房间的价格每天都在发生变化。这些房间的价格是根据Airbnb向房主提供的“定价辅助系统”来确定的。定价辅助系统根据计算机对50亿个住宿相关数据进行机器学习之后制作出来的需求预测模型，向房主建议合理的房间价格。

虽然Uber并未透露在什么业务中使用了Spark，但表示多个业务部门都在使用Spark，同时该公司还介绍了多个部门共同使用Spark时的技术诀窍。

在Spark峰会上大放异彩的是CIA首席信息官（CIO）道格·沃尔夫（Doug Wolfe）的主题演讲（照片4）。CIA从2014年开始使用Spark，目前已有200台服务器使用Spark。沃尔夫认为，“CIA必须从庞大的数据中及时抓住一些征兆。因此，数据分析速度非常重要”。他表示，要提高数据分析速度，必须使用Spark。

CIA需要OSS

沃尔夫还介绍了CIA积极使用Spark等OSS的情况。CIA于2014年委托Amazon Web Services（AWS）在CIA数据中心内构建规格与AWS的公有云完全相同的云环境。沃尔夫表示，“AWS的吸引力是可以使用包括OSS在内的多种软件，AWS本身已形成OSS的‘生态系统’。我们也需要在CIA的云中建立与AWS相同的生态系统”。

在此次的Spark峰会上，除了丰田的美国法人之外，并没有其他日本企业发表演讲。不过，在2014年Spark峰会上，NTT DATA发表了演讲，而且在本届Spark峰会举行期间，NTT DATA的猿田就任Spark核心开发者“Comitta”。Spark的星星之火也已开始燃烧到日本。

[责任编辑：中国电池网]

免责声明：本文仅代表作者个人观点，与电池网无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性，本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。涉及资本市场或上市公司内容也不构成任何投资建议，投资者据此操作，风险自担！

凡本网注明 “来源：XXX（非电池网）”的作品，凡属媒体采访本网或本网协调的专家、企业家等资源的稿件，转载目的在于传递行业更多的信息或观点，并不代表本网赞同其观点和对其真实性负责。

如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理、删除。电话：400-6197-660-2 邮箱：119@itdcw.com

上一篇：美媒：电动汽车或比传统车型更污染环境
下一篇：我国首款石墨烯节能改进剂面世开启工业化应用

丰田

中国电池网

大数据

Spark

CIA

大数据的下一个主角是“Spark” 丰田及CIA等纷纷采用(2)

导航