问题标签 [nvidia-titan]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
2743 浏览

nvidia - Titan Z 与 K40 处理器?

我正在使用 GPU 进行科学计算。最近 Nvidia 发布了其旗舰产品 GeForce Titan Z。我想知道这款处理器如何与 Tesla K40(另一个 NVIDIA 产品)相抗衡。我已经检查了规格,但很想知道这两个处理器之间的任何基准测试,或者 Titan Z 用于科学计算应用程序的能力。我还想知道从编程的角度来看,Titan Z 应该被视为单个 GPU 还是两个 GPU。

提前致谢, 问候, Sakthi K

0 投票
1 回答
288 浏览

c++ - cl::Image3D segfaults on nVidia TITAN black 但不是 Intel openCL 设备?

所有,我有以下代码行用于在 OpenCL 中设置 3D 图像:

当我使用 Intel OpenCL CPU 驱动程序时,代码运行良好(通过使用 CL_DEVICE_TYPE_CPU 创建上下文),但是当我使用带有 TITAN black 的 nVidia 驱动程序时(通过使用 CL_DEVICE_TYPE_GPU 创建上下文),代码运行良好。

所有这些都在 RHEL6.4 上,内核为 2.6.32-358,使用最新的 nVidia 驱动程序,使用英特尔 OpenCL 运行时 14.1_x64_4.4.0.118 和 2014_4.4.0.134_x64 英特尔 OpenCL SDK。

所有其他代码似乎都在 nVidia 设备上运行。我可以编译内核、创建上下文、缓冲区等,但是这个构造函数似乎失败了。我使用 cl::Device::getInfo 检查了 Image3D 允许的最大尺寸,它报告 HxWxD 限制为 4096x4096x4096,因此我的 16x16x1024 图像尺寸远低于限制。

我还检查以确保 CL_R 和 CL_FLOAT 类型是受支持的格式,它们似乎是。

起初我以为它是因为试图复制主机内存而失败的,但是在我将读取的图像排入队列之前就发生了段错误。

我能够从我的 gdb 回溯中确定的最好的问题是问题出现在 CL/cl.hpp 的第 4074 行:

如您所见,Image3D 的构造函数的宽度和高度参数看起来很奇怪,但我不确定这些是真实值,也不是由于编译器而优化的值。

我的问题是:

关于 nVidia 卡,我做错了什么,不适用于 Intel CPU OpenCL 驱动程序?英特尔 SDK 和 nVidia OpenCL ICD 之间是否存在已知的二进制不兼容?

0 投票
16 回答
228170 浏览

python - 如何防止 tensorflow 分配整个 GPU 内存?

我在一个计算资源共享的环境中工作,也就是说,我们有几台服务器机器,每台机器都配备了一些 Nvidia Titan X GPU。

对于中小型模型,Titan X 的 12 GB 通常足以让 2-3 人在同一个 GPU 上同时运行训练。如果模型足够小,以至于单个模型不能充分利用 GPU 的所有计算单元,那么与一个接一个地运行训练过程相比,这实际上会导致加速。即使在并发访问 GPU 确实会减慢个人训练时间的情况下,让多个用户同时在 GPU 上训练的灵活性仍然很好。

TensorFlow 的问题在于,默认情况下,它会在启动时分配全部可用的 GPU 内存。即使对于一个小型的两层神经网络,我看到所有 12 GB 的 GPU 内存都用完了。

有没有办法让 TensorFlow 只分配 4 GB 的 GPU 内存,如果知道这对于给定模型来说已经足够了吗?

0 投票
1 回答
2114 浏览

deep-learning - 如何确定测试批量大小以充分利用 NVIDIA Titan X

在训练深度学习模型时,我发现如果我将训练和验证(测试)批量大小设置为相同,例如 32、64、...、512,GPU 并没有得到充分利用。

然后我检查了 NVIDIA Titan X 规格:

  1. NVIDIA CUDA® 内核:3584
  2. 内存:12GB GDDR5X

为了减少 CNN 模型的测试时间,我想尽可能多地增加一个批次中的样本数量。我试过了:

  • 将每批次的样本数设置为 3584,cuda out of memory 错误。
  • 将每批次的样本数设置为 2048,cuda out of memory 错误。
  • 将每批次的样本数设置为 1024,有效。但我不确定 GPU 是否被充分利用。

问题:

如何轻松选择每批次的样本数量以充分利用 GPU 进行深度模型前向运算?

0 投票
1 回答
2650 浏览

tensorflow - 使用汇总操作训练 TensorFlow 模型比不使用汇总操作要慢得多

我正在使用带有 GPU Nvidia Titan X 的 TensorFlow r1.0 训练一个类似 Inception 的模型。

我添加了一些摘要操作来可视化训练过程,使用代码如下:

当我运行这些操作时,训练一个 epoch 的时间成本约为 400 秒。但是当我关闭这些操作时,训练一个 epoch 的时间成本只有 90 秒。

如何优化图表以最小化汇总操作的时间成本?

0 投票
0 回答
273 浏览

tensorflow - Nvidia Titan X (Pascal) TensorFlow Windows 10

我的操作系统是 Windows 10,我在 CPU 上使用带有 Tensorflow 后端的 Keras。我想购买“Nvidia Titan x (Pascal)”GPU,因为它推荐用于 Nvidia 网站上的 tensorflow:

http://www.nvidia.com/object/gpu-accelerated-applications-tensorflow-configurations.html

他们推荐 Ubuntu 14.04 作为操作系统。

有人知道我是否可以在我的 Windows 10 机器上的 Nvidia Titan x (Pascal) GPU 上使用 Tensorflow?非常感谢。

0 投票
0 回答
82 浏览

tensorflow - GPU Nvidia-Titan X 需要太多时间来训练我的网络。适用于 tf cnn-benchmarks

我的代码粘贴在下面:

上面的代码以每个 epoch 46 秒的速度运行,对于给定的 600 个数据点样本,我觉得这相当慢。我的输入是一个大小为 180 MB 的 hdf5 文件。我运行了 CNN Bechmark 测试,它似乎工作正常(如下所示),看起来我的输入或我传递它的方式有些磨损。

如何调试输入的处理方式?

0 投票
1 回答
361 浏览

gpu - cudaError_t 1 : 从 'cublasCreate(&handle_)' 返回“__global__ 函数调用未配置”

我在 SGE 集群上使用 Kaldi 运行 ASR 实验,该集群由两个带有 TITAN XP 的工作站组成。随机我遇到以下问题:

错误 (nnet3-train[5.2.62~4-a2342]:FinalizeActiveGpu():cu-device.cc:217) cudaError_t 1:“__global__ 函数调用未配置”从 'cublasCreate(&handle_)' 返回

我猜 GPU 驱动程序或硬件有问题。

你能提供一些帮助吗?

这是完整的日志

0 投票
1 回答
836 浏览

cuda - nVidia Titan V 是否支持 GPUDirect?

我想知道是否有人可以帮助我确定 nVidia 的新 Titan V 是否支持 GPUDirect。据我所知,它似乎仅限于 Tesla 和 Quadro 卡。

感谢您抽出时间来阅读。

0 投票
0 回答
377 浏览

tensorflow - Titan X上的Tensorflow 1.8:CUDA_ERROR_INVALID_DEVICE

我有一个带有 2 个 nvidia GPU 的 ubuntu 16.04 安装:

nvidia-smi输出:

我已按照https://www.tensorflow.org/install/install_linux#InstallingAnaconda中的步骤为 GPU 安装基于 anaconda 的 tensoflow。但是,如果我启动 TF 会话,我会收到以下错误:

我错过了什么?如何摆脱这个错误?