机器学习是一种由计算机自动从数据中获得知识或规则的技术。丰田美国于2015年4月采用机器学习技术开发出了一种系统,可由计算机根据内容,对“推特”(Twitter)等SNS(社交网络服务)上用户写下的留言进行自动分类。
用户在SNS上针对丰田写下的留言是关于“丰田车性能”的,还是关于“丰田专卖店(经销商)服务”的,亦或是关于“丰田CM”的呢?计算机通过对大数据进行机器学习,自动找出了用来进行这种判断的“规则”。并利用Spark进行了这方面的相关处理。
Kursar称,“SNS上的留言数据非常庞大,由人来查看这些内容是不可能的。通过开发出这种可自动判断出用户留言内容的系统,可以从庞大的数据中找出有助于改善产品和服务的有益留言”。
利用存储器进行高速处理
为什么Spark能够高速进行机器学习处理呢?下面就介绍一下其工作原理。
机器学习可根据相关数据,采用统计方法,针对计算机制定的“规则”与现实规则的相符程度进行多次验证。Hadoop在每次进行这种验证处理时,都会从硬盘(HDD)中读取数据,或者将数据写入硬盘。因此,需要花费较长时间来处理。
而Spark通过将所需数据保存在存储器上来进行这种验证处理。由于不使用低速硬盘,因此与Hadoop相比,可以缩短处理时间。
而且,Spark还可以与Hadoop共存。原因是Spark可以对Hadoop的标准存储器“HDFS”保存的数据进行处理。Spark的主要开发者之一、NTT DATA基础系统业务本部的猿田浩辅表示,“Spark可对Hadoop起到补充作用”。对于现有Hadoop用户而言,Spark能够轻松导入,因此该软件在短短1年内就迅速普及开来。
在Spark峰会上,Databricks首席技术官(CTO)Matei Zaharia介绍了Spark的用户等情况。
最大用户为腾讯,服务器数量达到8000台
Zaharia称,目前Spark使用规模最大的企业是中国SNS运营商腾讯(Tencent),该公司在8000台服务器上使用了Spark。中国EC(电商)阿里巴巴集团则使用Spark一次处理高达1PB(Peta Byte)的数据。
中国企业对使用Spark非常积极。在中国大型搜索网站百度的美国法人百度美国担任资深架构师的James Peng在2015年Spark 峰会上登台发表主题演讲,介绍了百度使用Spark的情况(照片3)。Peng表示,百度目前使用1000多台服务器来运行Spark。在互联网广告、搜索、地图服务、EC等业务领域均使用了Spark。
Peng介绍说,“对于百度的机器学习来说,Spark是不可缺少的平台”。该公司目前正在考虑扩展Spark,使其能够用于以人脑为模型的机器学习方法“深度学习(Deep Learning)”的处理。
Airbnb通过机器学习技术制作需求预测模型
此外,Airbnb及Uber等公司也在Spark峰会上发表演讲,介绍了Spark的导入实例。据Airbnb介绍,该公司使用Spark开发出了一种系统,该系统能以天为单位预测全世界不同城市的住宿需求,为房主确定房间价格提供帮助。
在Airbnb网站上,出租房间的价格每天都在发生变化。这些房间的价格是根据Airbnb向房主提供的“定价辅助系统”来确定的。定价辅助系统根据计算机对50亿个住宿相关数据进行机器学习之后制作出来的需求预测模型,向房主建议合理的房间价格。
虽然Uber并未透露在什么业务中使用了Spark,但表示多个业务部门都在使用Spark,同时该公司还介绍了多个部门共同使用Spark时的技术诀窍。
在Spark峰会上大放异彩的是CIA首席信息官(CIO)道格·沃尔夫(Doug Wolfe)的主题演讲(照片4)。CIA从2014年开始使用Spark,目前已有200台服务器使用Spark。沃尔夫认为,“CIA必须从庞大的数据中及时抓住一些征兆。因此,数据分析速度非常重要”。他表示,要提高数据分析速度,必须使用Spark。
CIA需要OSS
沃尔夫还介绍了CIA积极使用Spark等OSS的情况。CIA于2014年委托Amazon Web Services(AWS)在CIA数据中心内构建规格与AWS的公有云完全相同的云环境。沃尔夫表示,“AWS的吸引力是可以使用包括OSS在内的多种软件,AWS本身已形成OSS的‘生态系统’。我们也需要在CIA的云中建立与AWS相同的生态系统”。
在此次的Spark峰会上,除了丰田的美国法人之外,并没有其他日本企业发表演讲。不过,在2014年Spark峰会上,NTT DATA发表了演讲,而且在本届Spark峰会举行期间,NTT DATA的猿田就任Spark核心开发者“Comitta”。Spark的星星之火也已开始燃烧到日本。

电池网微信












