Spark是通过让数十~数百台PC服务器联动来实现大数据高速处理的“分布数据处理软件”。

有一款数据处理软件,正式版才公开1年的时间,就已经被“Uber”、“Airbnb”等备受关注的新兴企业以及丰田等大型企业采用,美国IBM将其称为“今后10年内数据领域最重要的开源软件(OSS)”,并开始为相关项目投入3500名研发人员。这款软件就是“Spark”。

2015年6月15~17日(美国时间),用户大会“2015年Spark峰会 ”在旧金山市举行,参会用户达到了2000名(照片1)。

大数据的下一个主角是“Spark” 丰田及CIA等纷纷采用

照片1:“2015年Spark峰会”吸引了2000人参加

在本届大会上,出租车配车服务商Uber Technologies、将民宅作为宾馆出租的Airbnb、丰田的美国法人、百度以及美国中央情报局(CIA)等纷纷介绍了Spark的应用实例。IBM也配合该大会的举办,宣布为Spark相关项目投入3500名研发人员。

Spark是美国加利福尼亚大学伯克利分校开始开发的OSS,目前由该校研究人员创办的初创企业Databricks主导开发。其正式版“Spark 1.0”刚刚于1年前,也就是2014年5月公开。

尽管如此,Spark仍开始被视为继大数据处理常用软件“Hadoop”之后的大数据处理新主角。为何Spark会受到如此高的关注呢?下面就根据用户在2015年Spark峰会上公开的相关内容,介绍一下Spark的现状。

Spark是通过让数十~数百台PC服务器联动来实现大数据高速处理的“分布数据处理软件”。只需增加PC服务器数量即可提高处理性能,因此无需使用昂贵的大型服务器,就能以较低的成本进行大数据处理。

丰田利用Spark提高“机器学习”速度

大数据的下一个主角是“Spark” 丰田及CIA等纷纷采用

照片2:丰田美国的数据科学家Brian Kursar

Spark与Hadoop同为分布数据处理软件。Spark的不同之处在于能够高速处理Hadoop不擅长的“机器学习”。在Spark峰会上发表演讲的丰田美国公司(丰田的美国法人,Toyota USA)数据科学家Brian Kursar表示,“通过使用Spark,可以使以前需要花费36小时的机器学习处理时间缩短至9分钟”(照片2)。

[责任编辑:中国电池网]

免责声明:本文仅代表作者个人观点,与电池网无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性,本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。涉及资本市场或上市公司内容也不构成任何投资建议,投资者据此操作,风险自担!

凡本网注明 “来源:XXX(非电池网)”的作品,凡属媒体采访本网或本网协调的专家、企业家等资源的稿件,转载目的在于传递行业更多的信息或观点,并不代表本网赞同其观点和对其真实性负责。

如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理、删除。电话:400-6197-660-2 邮箱:119@itdcw.com

电池网微信
丰田
中国电池网
大数据
Spark
CIA

CIA