Skip to main content

应用软件使用问题

1. 申请使用软件权限后多久通过?

答: 申请后联系客服或技术支持,快速通过。

2. 平台没有我要使用的软件怎么办?

答: 平台支持自定义安装软件,可通过镜像中心安装和配置自定义的软件或环境,安装过程有问题可联系客服帮助;我们也对常用开源软件进行评估,以便全局部署,欢迎反馈。

3. 你们平台是否提供商业软件?

答:目前暂不提供商业软件,不过您可以自行购买安装。

注意事项:

商业软件 License 通常需要使用专用的 License 服务器,在购买商业软件并尝试在北鲲云平台上部署 License 服务器前,请与我们以及软件厂商进行充分沟通。

  • 请购买浮动授权,即计算程序可以在平台上的任意一个节点启动,通常需要安装特定的 License 服务器;
  • 询问 License 服务器是否可以部署在虚拟机上,这样可以专门开一台管理节点运行您的 License 服务器;
  • 与厂商充分沟通 License 服务器安装模式、授权数量、使用限制、更换MAC地址的费用以及厂商具备基本的技术支持能力。

4. 普通用户没有权限安装软件,能否获取root权限?

答:平台已为每个用户开通root权限,使用sudo -i命令可免密登录root用户,不过安装在非/home/clouam目录的软件会随着工作站或节点的释放而清除,释放前需定义成模板或建议通过镜像中心安装软件。

5. 每次登录都需要使用module add命令加载软件,可不可以实现自动加载?

答:可以将您加载软件的命令写入到/home/cloudam/.bashrc文件的最后一行,后续登录即可自动加载。

6. 使用slurm命令报错:“slurm_load_jobs error: Unable to contact slurm controller (connect failure)”如何解决?

答: 出现该问题一般是slurmctld进程停止导致,可释放该管理节点重新启动一台,或执行以下操作步骤重启slurmctld进程: (1)使用sudo -i命令切换到root用户 (2)执行systemctl start slurmctld启动slurmd服务。

7. 执行module命令报错“Lmod has detected the following error:”,如何解决?

答:执行module use /public/software/.local/easybuild/modules/all,再重新使用。

8. 什么是队列?

答:队列是指不同规格的节点资源,可以在命令行输入sinfo命令查看当前计算区的队列。

9. 为什么有些硬件资源无法选择?

答:部分硬件资源销量比较火爆,导致资源不足,暂时没有上线,敬请期待后续上线或者联系在线客服反馈。

10. 使用Material Studio软件(Windows)时,CPU核数如何修改?

答:

  1. 打开谷歌浏览器,进入http://localhost:18888网页,点击Gateway Data,再点击Edit,会弹出登录窗口,输入用户名gatekeeper,密码为空,修改cpucorestotal为您启动CPU核数,如图所示:

  2. 打开MS软件,点击Tools,选择Server Console,右键更新Server Gateways,如图所示:

11. Jupyter Notebook 如何远程使用虚拟环境?

答:

  1. 启动工作站,在命令行加载conda环境,输入如下命令,启动Jupyter Notebook
module add Anaconda3

jupyter notebook --no-browser --port 7070 --ip='*'  --NotebookApp.token='' --NotebookApp.password=''
  1. 打开本地电脑web浏览器,输入工作站公网IP加7070端口号打开Notebook界面,并进入命令行。
http://公网ip:7070

  1. 在工作站命令行注入预装的环境
#加载Anaconda3
module add Anaconda3

#查看所有平台已经安装的环境
conda env list

#把指定环境注入jupyter
#python -m ipykernel install --user --name 环境名称 --display-name “在jupyter上显示的环境名称”

python -m ipykernel install --user --name pytorch-1.9 --display-name demo

注入完,即可在Jupyter Notebook 主界面刷新网页,看到对应注入的环境。

12. slurm申请资源失败后无可用节点,一直排队如何解决?

注意: 如果有作业在running,运行如下命令会导致运行中的作业直接失败

答: 原因是一直在循环尝试scale-in,ce里面会有异常,导致节点省电程序无法成功,节点一直处于DOWN状态,可手动设置的节点状态,手动设置节点状态,在队列无法提交作业时使用如下命令更新状态,修改后成功 并且从0001开始从新编号

sudo scontrol update NodeName=g-v100-1-worker[0001-1000] State=DOWN Reason="undraining"
sudo scontrol update NodeName=g-v100-1-worker[0001-1000] State=RESUME

13. Abaqus在云上该如何设置使用核心数?

答:因为云上CPU核心数等于线程数,所以Multiprocessing mode(多处理模式)设置为Threads。

14. 可视化作业运行失败问题排查

答:可视化作业运行会根据程序的运行实时生成日志,如运行失败,可找到对应的日志文件查看具体失败原因。

举例、Alphafold2作业运行失败

(1) 在作业管理页面找到失败的作业,点击后面的小眼睛查看作业详细信息。

(2) 选择结果文件(日志文件),点击slurm.out文件后面的小眼睛查看日志详细内容。

(3) 可将日志文件截图或发给技术支持协助解决。