cs525-sp18-g07
spark

Repository

./sbt/sbt assembly
./bin/spark-shell
scala> sc.parallelize(1 to 1000).count()
./bin/pyspark
>>> sc.parallelize(range(1000)).count()
./bin/run-example SparkPi
MASTER=spark://host:7077 ./bin/run-example SparkPi
./sbt/sbt test
# Apache Hadoop 1.2.1
$ sbt/sbt -Dhadoop.version=1.2.1 assembly

# Cloudera CDH 4.2.0 with MapReduce v1
$ sbt/sbt -Dhadoop.version=2.0.0-mr1-cdh4.2.0 assembly
# Apache Hadoop 2.0.5-alpha
$ sbt/sbt -Dhadoop.version=2.0.5-alpha -Pyarn assembly

# Cloudera CDH 4.2.0 with MapReduce v2
$ sbt/sbt -Dhadoop.version=2.0.0-cdh4.2.0 -Pyarn assembly

# Apache Hadoop 2.2.X and newer
$ sbt/sbt -Dhadoop.version=2.2.0 -Pyarn assembly
"org.apache.hadoop" % "hadoop-client" % "1.2.1"
<dependency>
  <groupId>org.apache.hadoop</groupId>
  <artifactId>hadoop-client</artifactId>
  <version>1.2.1</version>
</dependency>