[SPARK-12765][ML][COUNTVECTORIZER] fix CountVectorizer.transform's lost transformSchema

https://issues.apache.org/jira/browse/SPARK-12765 Author: Liu Xiang <lxmtlab@gmail.com> Closes #10720 from sloth2012/sloth.

[SPARK-12765][ML][COUNTVECTORIZER] fix CountVectorizer.transform's lost transformSchema
a5257048 · Liu Xiang · Xiangrui Meng · b3546738 · a5257048
Commit a5257048 authored 9 years ago by Liu Xiang Committed by Xiangrui Meng 9 years ago
--- a/mllib/src/main/scala/org/apache/spark/ml/feature/CountVectorizer.scala
+++ b/mllib/src/main/scala/org/apache/spark/ml/feature/CountVectorizer.scala
@@ -210,6 +210,7 @@ class CountVectorizerModel(override val uid: String, val vocabulary: Array[Strin
  private var broadcastDict: Option[Broadcast[Map[String, Int]]] = None
  override def transform(dataset: DataFrame): DataFrame = {
+    transformSchema(dataset.schema, logging = true)
    if (broadcastDict.isEmpty) {
      val dict = vocabulary.zipWithIndex.toMap
      broadcastDict = Some(dataset.sqlContext.sparkContext.broadcast(dict))