我有:
from __future__ import division
import nltk, re, pprint
f = open('/home/a/Desktop/Projects/FinnegansWake/JamesJoyce-FinnegansWake.txt')
raw = f.read()
tokens = nltk.wordpunct_tokenize(raw)
text = nltk.Text(tokens)
words = [w.lower() for w in text]
f2 = open('/home/a/Desktop/Projects/FinnegansWake/catted-several-long-Russian-novels-and-the-NYT.txt')
englishraw = f2.read()
englishtokens = nltk.wordpunct_tokenize(englishraw)
englishtext = nltk.Text(englishtokens)
englishwords = [w.lower() for w in englishwords]
这直接来自 NLTK 手册。我接下来要做的是与vocab
一组详尽的英语单词(如 OED)进行比较,并提取差异——一组 Finnegans Wake 单词,这些单词没有,也可能永远不会出现在 OED 中。我更像是一个口头上的人,而不是一个数学导向的人,所以我还没有弄清楚如何做到这一点,而且手册中关于我实际上不想做的事情的细节太多了。不过,我假设它只是一两行代码。