python - Spark 的 MultiClass 性能比 scikit-learn 差

Question

目前我有文本数据，我正在尝试预测一个类。就我而言，我有 60 个课程可供选择。当我使用 scikit-learn 在随机森林中部署模型时，我得到了 78% 的 f1 分数。

但是，我尝试在 pyspark 中设置模型，但只得到 30%。太低了！到底是怎么回事？也许我没有正确设置它。此外，使用 pyspark，随机森林只能预测多达 12 个标签，而在我的情况下，我有 60 个。

Sci-kit学习代码：

rf_model = Pipeline([
    ('featextract',FeatureExtractor()),
    ('union', FeatureUnion(
        transformer_list=[

            # pipeline for tfidf
            ('text', Pipeline([
                    ('selector',ItemSelector(key='TEXT')),
                    ('count_vec',TfidfVectorizer(max_features=5000)),
                    ('tfidf', TfidfTransformer())])),
            # pipeline for ata
            ('ata', Pipeline([
                    ('selector', ItemSelector(key="ATA_SYS_NO")),
                    ('atas',convert2dict()),
                    ('vect',DictVectorizer())]))                   
            ])),
    ('model', OneVsRestClassifier(RandomForestClassifier(n_estimators=200,n_jobs=5))),
    ])

pySpark 代码

Tokenizer1 = Tokenizer(inputCol="TEXT",outputCol="words")
hashingTF = HashingTF(inputCol="words",outputCol="rawFeatures",numFeatures=4000)
idf = IDF(inputCol="rawFeatures",outputCol="tfidffeatures")
rf = RF(labelCol="componentIndex",featuresCol='tfidffeatures',numTrees=500)
pipeline = Pipeline(stages=[Tokenizer1,hashingTF,idf,labelIndexer,rf])
(trainingData,testData) = df.randomSplit([0.8,0.2])

python - Spark 的 MultiClass 性能比 scikit-learn 差

Sci-kit学习代码：

pySpark 代码

0 回答 0

Related

Reference