java-8 - 使用java 8的文件中两个单词的概率分布

Question

我需要包含两个单词的行数。为此我编写了以下代码：输入文件包含1000 lines和 about 4,000 words，大约需要 4 个小时。有没有图书馆Java可以更快地做到这一点？我可以使用Appache Lucene或Stanford Core NLP减少运行时间来实现此代码吗？

ArrayList<String> reviews = new ArrayList<String>();
ArrayList<String> terms = new ArrayList<String>();
Map<String,Double> pij = new HashMap<String,Double>();

BufferedReader br = null;
FileReader fr = null;
try 
    {
        fr = new FileReader("src/reviews-preprocessing.txt");
            br = new BufferedReader(fr);
            String line;
            while ((line= br.readLine()) != null) 
            {
            for(String term : line.split(" "))
                {
                    if(!terms.contains(term))
                        terms.add(term);
                }
                reviews.add(line);
            }
        } 
        catch (IOException e) { e.printStackTrace();} 
        finally 
        {
            try 
            {
                if (br != null)
                    br.close();
                if (fr != null)
                    fr.close();
            } 
            catch (IOException ex) { ex.printStackTrace();}    
    }
long Count = reviews.size();
for(String term_i : terms)
    {
        for(String term_j : terms)
            {
                if(!term_i.equals(term_j))
                {
                    double p = (double) reviews.parallelStream().filter(s -> s.contains(term_i) && s.contains(term_j)).count();
                    String key = String.format("%s_%s", term_i,term_j);
                    pij.put(key, p/Count);
                }
            }
    }

score 6 · Accepted Answer

您获取不同单词的第一个循环依赖于ArrayList.contains，它具有线性时间复杂度，而不是使用Set. 因此，如果我们假设nd个不同的单词，它已经具有“行数”×nd 的时间复杂度。

然后，您正在创建nd × nd单词组合并探测所有 1,000 行以查找这些组合的存在。换句话说，如果我们只假设有 100 个不同的词，那么您正在执行 1,000×100 + 100×100×1,000 = 10,100,000 次操作，如果我们假设有 500 个不同的词，我们已经在谈论 250,500,000 个。

相反，您应该只创建实际存在于一条线上的组合并将它们收集到地图中。这只会处理那些实际存在的组合，您可以通过仅检查每个“a_b”/“b_a”组合中的任何一个来改进它，因为两者的概率是相同的。然后，您只执行“行数”×“每行字数”×“每行字数”操作，换句话说，在您的情况下大约有 16,000 次操作。

以下方法将一行的所有单词组合在一起，只保留“a_b”/“b_a”组合中的一个，并消除重复项，因此每个组合都可以算作一行。

static Stream<String> allCombinations(String line) {
    String[] words = line.split(" ");
    return Arrays.stream(words)
        .flatMap(word1 ->
            Arrays.stream(words)
                  .filter(words2 -> word1.compareTo(words2)<0)
                  .map(word2 -> word1+'_'+word2))
        .distinct();
}

这种方法可以像

List<String> lines = Files.readAllLines(Paths.get("src/reviews-preprocessing.txt"));
double ratio = 1.0/lines.size();
Map<String, Double> pij = lines.stream()
        .flatMap(line -> allCombinations(line))
        .collect(Collectors.groupingBy(Function.identity(),
                                       Collectors.summingDouble(x->ratio)));

它在几秒钟内运行了我的“战争与和平”副本，无需任何尝试进行并行处理。毫不奇怪，“and_the”是概率最高的组合。

你可以考虑换行

String[] words = line.split(" ");

至

String[] words = line.toLowerCase().split("\\W+");

概括代码以处理不同的输入，处理多个空格或其他标点符号并忽略大小写。

java-8 - 使用java 8的文件中两个单词的概率分布

1 回答 1

Related

Reference