按照此链接上的说明,我使用单个映射器和单个化简器在 C++ 中实现了一个字数统计程序。现在我需要使用两个映射器和一个减速器来解决同样的问题。
有人可以在这方面帮助我吗?
按照此链接上的说明,我使用单个映射器和单个化简器在 C++ 中实现了一个字数统计程序。现在我需要使用两个映射器和一个减速器来解决同样的问题。
有人可以在这方面帮助我吗?
映射器的数量取决于创建的输入拆分的数量。输入拆分的数量取决于输入的大小、块的大小、输入文件的数量(每个输入文件至少创建一个输入拆分)、输入文件是否可拆分等。另请参阅此在 SO 中发帖。
您可以将减速器的数量设置为任意数量。我想在 hadoop 管道中,您可以通过设置-D mapred.reduce.tasks=...
运行 hadoop 的时间来做到这一点。请参阅SO 中的这篇文章。
如果您想快速测试您的程序如何与多个映射器一起工作,您只需在输入路径中放置一个新文件即可。这将使 hadoop 创建另一个输入拆分,从而创建另一个映射任务。
PS:您提供的链接无法访问。