大数据的下一个主角是“Spark” 丰田及CIA等纷纷采用

来源：日经技术在线作者：中田敦硅谷支局 2015-07-07 08:00点击：扫描到手机

Spark是通过让数十～数百台PC服务器联动来实现大数据高速处理的“分布数据处理软件”。

有一款数据处理软件，正式版才公开1年的时间，就已经被“Uber”、“Airbnb”等备受关注的新兴企业以及丰田等大型企业采用，美国IBM将其称为“今后10年内数据领域最重要的开源软件（OSS）”，并开始为相关项目投入3500名研发人员。这款软件就是“Spark”。

2015年6月15～17日（美国时间），用户大会“2015年Spark峰会 ”在旧金山市举行，参会用户达到了2000名（照片1）。

大数据的下一个主角是“Spark” 丰田及CIA等纷纷采用

照片1：“2015年Spark峰会”吸引了2000人参加

在本届大会上，出租车配车服务商Uber Technologies、将民宅作为宾馆出租的Airbnb、丰田的美国法人、百度以及美国中央情报局（CIA）等纷纷介绍了Spark的应用实例。IBM也配合该大会的举办，宣布为Spark相关项目投入3500名研发人员。

Spark是美国加利福尼亚大学伯克利分校开始开发的OSS，目前由该校研究人员创办的初创企业Databricks主导开发。其正式版“Spark 1.0”刚刚于1年前，也就是2014年5月公开。

尽管如此，Spark仍开始被视为继大数据处理常用软件“Hadoop”之后的大数据处理新主角。为何Spark会受到如此高的关注呢？下面就根据用户在2015年Spark峰会上公开的相关内容，介绍一下Spark的现状。

Spark是通过让数十～数百台PC服务器联动来实现大数据高速处理的“分布数据处理软件”。只需增加PC服务器数量即可提高处理性能，因此无需使用昂贵的大型服务器，就能以较低的成本进行大数据处理。

丰田利用Spark提高“机器学习”速度

大数据的下一个主角是“Spark” 丰田及CIA等纷纷采用

照片2：丰田美国的数据科学家Brian Kursar

Spark与Hadoop同为分布数据处理软件。Spark的不同之处在于能够高速处理Hadoop不擅长的“机器学习”。在Spark峰会上发表演讲的丰田美国公司（丰田的美国法人，Toyota USA）数据科学家Brian Kursar表示，“通过使用Spark，可以使以前需要花费36小时的机器学习处理时间缩短至9分钟”（照片2）。

[责任编辑：中国电池网]

免责声明：本文仅代表作者个人观点，与电池网无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性，本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。涉及资本市场或上市公司内容也不构成任何投资建议，投资者据此操作，风险自担！

凡本网注明 “来源：XXX（非电池网）”的作品，凡属媒体采访本网或本网协调的专家、企业家等资源的稿件，转载目的在于传递行业更多的信息或观点，并不代表本网赞同其观点和对其真实性负责。

如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理、删除。电话：400-6197-660-2 邮箱：119@itdcw.com

上一篇：美媒：电动汽车或比传统车型更污染环境
下一篇：我国首款石墨烯节能改进剂面世开启工业化应用

丰田

中国电池网

大数据

Spark

CIA

大数据的下一个主角是“Spark” 丰田及CIA等纷纷采用

导航