我试图找到一种快速的方法来对具有几百万行的交易市场篮子数据进行亲和力分析。
到目前为止我所做的:
- 在云上的 Spark 和 Hadoop (Azure HDInsight) 之上创建了一个 R 服务器
- 在 HDFS 上加载数据
- 开始使用 RevoScaleR
但是,我在最后一步卡住了。据我了解,我将无法使用 RevoScaleR 中未提供的功能来处理数据。
下面是访问 HDFS 上数据的代码:
bigDataDirRoot <- "/basket"
mySparkCluster <- RxSpark(consoleOutput=TRUE)
rxSetComputeContext(mySparkCluster)
hdfsFS <- RxHdfsFileSystem(hostName=myNameNode, port=myPort)
inputFile <-file.path(bigDataDirRoot,"gunluk")
所以我的 infputFile 是已在 /basket/gunluk 创建的 Azure Blob 中的 CSV
gunluk_data <- RxTextData(file = inputFile,returnDataFrame = TRUE,fileSystem = hdfsFS)
运行后,我可以使用 head(gunluk_data) 查看数据。
我如何设法将gunluk_data与arules包功能一起使用。这可能吗?
如果没有,是否可以使用常规 R 包(即 arules)处理 HDFS 中的 CSV 文件?