我需要在包含诸如 'R'、'C' 等编程语言名称的文本上使用 CountVectorizer。但是 CountVectorizer 会丢弃仅包含一个字符的“单词”。
cv1 = CountVectorizer(min_df=2, stop_words='english')
tokenize = cv1.build_tokenizer()
tokenize("Python, Time Series, Cloud, Data Modeling, R")
输出:
出[172]:['Python','时间','系列','云','数据','建模']
然后我调整“token_pattern”,使其也将“R”视为一个标记。
cv1 = CountVectorizer(min_df=1, stop_words='english', token_pattern=r'(?u)\b\w\w+\b|R|C' ,tokenizer=None)
tokenize = cv1.build_tokenizer()
tokenize("Python, Time Series, Cloud, R ,Data Modeling")
输出:Out[187]:['Python','Time','Series','Cloud','R','Data','Modeling']
但 ,
cvmatrix1 = cv1.fit_transform(["Python, Time Series, Cloud, R ,Data Modeling"])
cv1.vocabulary_
给出输出:
Out[189]: {'cloud': 0, 'data': 1, 'modeling': 2, 'python': 3, 'series': 4, 'time': 5}
为什么会这样?`