0

我正在写我的论文,我有机会建立一个工作环境来测试功能以及它是如何工作的。

应包括以下几点:

  • jupyterhub(在私有云中)
  • 熊猫,numpy,sql,nbconvert,nbviewer
  • 将数据放入DataFrame(csv),分析数据,存储数据(RDD?,HDF5?,HDFS?)
  • 未来分析的火花

测试场景将包括:

  • 具有用户/主题笔记本的多用户环境
  • 分析具有几百万行的结构化表(RSEG、MSEG、EKPO),与 pandas、numpy 和 spark(spark-sql)、matplotlib 进行 3 路匹配。这 3 个表中的数据约为 3GB。
  • 使用 nbconvert、nbviewer 将笔记本导出为 pdf、只读 notbook 和/或reveal.js

你们能否给我一些关于我应该使用多少笔记来测试的提示或经验,哪个 Linux 发行版是一个好的开始?我相信还有更多问题,我很难找到方法或信息来评估可能的答案。

提前致谢!

4

0 回答 0