您现在的位置： Linux教程網 >> UnixLinux > >> Linux編程 >> Linux編程

在集群上運行caffe程序時如何避免Out of Memory

不少同學抱怨，在集群的GPU節點上運行caffe程序時，經常出現"Out of Memory"的情況。實際上，如果我們在提交caffe程序到某個GPU節點的同時，指定該節點某個比較空閒的gpu id，便可以避免"Out of Memory"的情況。

步驟如下：

1. 在提交任務前，制作一個帶有“nvidia-smi”命令的run_gpu.sh文件

#!/bin/bash
#$ -V
#$ -cwd
#$ -j y
#$ -S /bin/bash

nvidia-smi

2. 提交run_gpu.sh文件到某個GPU節點（以g0502為例）

qsub -l h=g0502 run_gpu.sh

3. 查看run_gpu.sh任務的運行結果

可以看到，g0502節點有四塊gpu，id分別為0, 1, 2, 3。其中0,1和3的內存幾乎都已經占滿了，只有2稍微空閒一些。所以，若在提交caffe程序到g0502節點上，需要指定運行caffe程序的gpu id為2。否則，提交上去的caffe程序將默認gpu id為0，導致很有可能出現"Out of Memory"的情況。

4. 在提交caffe程序的.sh文件(如caffe_train.sh)中指定gpu id。

1 #!/bin/bash
2 #$ -V
3 #$ -cwd
4 #$ -j y
5 #$ -S /bin/bash
6 
7 ./build/tools/caffe train -gpu 2 -solver models/segnet/segnet_building_solver.prototxt

在.sh文件的第7行，"-gpu 2"的含義為顯式指定gpu id為2。

5. 提交caffe_train.sh文件到g0502節點。

qsub -l h=g0502 caffe_train.sh

6. 查看caffe_train.sh.o文件

可以看到，caffe_train.sh文件指定了g0502節點中gpu id為2的gpu來運行caffe程序。這樣，我們便可以在很大程度上避免在集群上運行的caffe程序出現"Out of Memory"的情況。

7. 用matcaffe測試訓練好的caffemodel時指定gpu id

與訓練時一樣，用matcaffe測試訓練好的caffemodel時，我們也可以顯式指定gpu id，以避免出現“Out of Memory"的情況。與在caffe_train.sh文件中指定gpu id不一樣，測試時，我們需要在.m文件中顯式指定gpu id。而不是在.sh文件中指定。

caffe.set_mode_gpu();
caffe.set_device(2); % set gpu id

net = caffe.Net(model, weights,'test');

第2行，caffe.set_device(2)，顯式指定gpu id為2。

8. 用pycaffe測試訓練好的caffemodel時指定gpu id

與matcaffe同理，我們需要在.py文件中顯式指定gpu id。

1 import caffe
2 #.....
3 if __name__ == '__main__':
4     caffe.set_mode_gpu()
5     # set gpu_id
6     caffe.set_device(2);

第6行，caffe.set_device(2)，顯式指定gpu id為2。

至此，我們便可以通過指定集群某個節點中較為空閒的gpu id來避免出現“Out of Memory"的情況~^_^~

上一篇文章： og4j 2.6免垃圾收集
下一篇文章： Matlab中用fit做曲線擬合

Linux編程

在C程序中如何判斷程序已經運行

在LINUX下如何運行SOCKET程序？

如何退出啟動時自動運行的程序？

Android4.0 輸出分辨率改為1280*720後,出現Out of Memory

Android OOM(Out of Memory) 一點認識

Eclipse開發Android程序如何在手機上運行

如何使程序在Linux下後台運行

linux中如何運行動程序

相關文章

如何讓Linux系統的程序在開機時自動運行

如何使Linux系統上的程序開機後自動運行

如何啟動時運行指定程序(Linux)

Linux下如何保證只有一個程序實例運行

如何在Docker容器中運行GUI程序

Linux Out of Memory(OOM) Killer

安裝Oracle時遇到的Out of Memory的問題

如何在64位的Linux中運行32位的應用程序

如何在Linux運行Windows程序

Java 如何獲取程序運行時的相對路徑

解決play out of memory的問題

Linux下如何知道某個端口在運行什麼程序

Linux編程

SHELL編程

PERL編程