有一款数据处理软件,正式版才公开1年的时间,就已经被“Uber”、“Airbnb”等备受关注的新兴企业以及丰田等大型企业采用,美国IBM将其称为“今后10年内数据领域最重要的开源软件(OSS)”,并开始为相关项目投入3500名研发人员。这款软件就是“Spark”。
2015年6月15~17日(美国时间),用户大会“2015年Spark峰会 ”在旧金山市举行,参会用户达到了2000名(照片1)。

照片1:“2015年Spark峰会”吸引了2000人参加
在本届大会上,出租车配车服务商Uber Technologies、将民宅作为宾馆出租的Airbnb、丰田的美国法人、百度以及美国中央情报局(CIA)等纷纷介绍了Spark的应用实例。IBM也配合该大会的举办,宣布为Spark相关项目投入3500名研发人员。
Spark是美国加利福尼亚大学伯克利分校开始开发的OSS,目前由该校研究人员创办的初创企业Databricks主导开发。其正式版“Spark 1.0”刚刚于1年前,也就是2014年5月公开。
尽管如此,Spark仍开始被视为继大数据处理常用软件“Hadoop”之后的大数据处理新主角。为何Spark会受到如此高的关注呢?下面就根据用户在2015年Spark峰会上公开的相关内容,介绍一下Spark的现状。
Spark是通过让数十~数百台PC服务器联动来实现大数据高速处理的“分布数据处理软件”。只需增加PC服务器数量即可提高处理性能,因此无需使用昂贵的大型服务器,就能以较低的成本进行大数据处理。
丰田利用Spark提高“机器学习”速度

照片2:丰田美国的数据科学家Brian Kursar
Spark与Hadoop同为分布数据处理软件。Spark的不同之处在于能够高速处理Hadoop不擅长的“机器学习”。在Spark峰会上发表演讲的丰田美国公司(丰田的美国法人,Toyota USA)数据科学家Brian Kursar表示,“通过使用Spark,可以使以前需要花费36小时的机器学习处理时间缩短至9分钟”(照片2)。

电池网微信












