实验室动态

你现在的位置: 首页 > 实验室动态

【ASC15】机试过程问题解答(将不定时更新)

发布时间:2015-01-30

2015-1-26
Q: 在NAMD_Best_Practices.pdf中说到,要安装NAMD Version 2.7 (b1);而官网已经更新到2.10。请问需要我们安装哪一个版本?
A: 请先检查官方对软件的 Changelog,看是否有 bugfix 之类的修改或者性能提升的说辞。我们一般是推荐升级到最新的版本进行优化的,但通常最新版本带有不稳定甚至安装失败等问题。您可以尝试安装最新版。使用较低版本的亦无不可。

Q: 小集群账号不能登录?
A: 由于批量生成账号程序出错,导致账号登陆问题,请各位同学见谅。目前问题已修复,请各自登陆集群核实。如再有登陆出错问题,请即联系管理员。

Q: 请问小集群是否用http登录?
A: 不是。Windows 下用 putty 软件,Linux 下用 ssh 指令登录。这部分已补充到《上机指南》中。

Q: 在集群的普通用户下使用wget,tar等命令,均发生了写入权限不够的错误。
A: 请注意你当前的路径是否有权限读写,可通过 pwd 指令查看当前目录全路径,并通过 ls -al 查看当前目录内容的读写权限。同时提醒,共享目录你是无权操作的。

2015-1-28
Q: 集群用 SGE 提交 Intel Compiler 编译的作业会导致运行时出错。
A: 由于集群是异构的,而且 ICC 是安装在登陆节点上,请不要用 ICC 对程序进行编译。目前 ICC及CUDA 已经封锁了,防止大家误用。

Q: 为什么在本地 HOME 目录下的文件夹做写操作会发生 Permission Denied 的错误提示?
A: 这是因为你在共享目录下做了写操作的原因,这是极度不允许发生的!在当前用户目录下有一个 Resources 的链接文件,这个文件是直接指向共享资源路径的,用户有时会通过 cd 指令进入到这个目录下,却没发现这个目录是共享目录来的。用户可以先通过 cp 指令把需要用到的资源拷贝到自己目录底下在进行进一步的操作。

2015-2-4
Q: 无法更改MPI的通信算法。
例如在pbs文件写:./charmrun -np ./namd --mca coll_tuned_alltoall_algorithm 3
那么在e文件会出现FATAL ERROR: Unable to access config file 3
如果在shell中设置环境变量:
OMPI_MCA_coll_tuned_alltoall_algorithm=3
export OMPI_MCA_coll_tuned_alltoall_algorithm
那么在e文件会出现FATAL ERROR:Unable to open text file /usr/tmp/apoa1-out.xsc: File exists
A: ./charmrun -np ./namd --mca
coll_tuned_alltoall_algorithm 3
mpirun --mca coll_tuned_alltoall_algorithm 3 -np 4
./namd

Q: 在shell下连接到202.116.86.96,以ASC15身份登录,进入Gridding文件夹,下载以下两个文件:
tConvolve.tar.bz2以及verify.tar.bz2到home/stu0166下,用tar-xjvf [filename],解压失败。
A: 1. 命令行下用 ftp 指令默认是 text mode,需要用 binary mode 才能正常下载压缩文件,进入 ftp console 之后直接敲 binary 指令可以进入 binary mode
2. 可以尝试其他 ftp 客户端,如 filezilla,它也支持 sftp 的

Q: 怎么让MPI的几个进程分别运行在不同的结点上,然后让一个进程的几个OpenMP线程能够运行在一个结点的不同核心上?是不是SGE调度默认将进程放到同一个结点上?
A: 当前 SGE 的作业分配策略是 fill_up,意思就是申请的资源会按节点顺序自动分配填充,无需你指定。这是强制性的,所以你不用担心节点分配的问题,同时 MPI 的 hostfile 选项在这个策略下是失效的,所以你可以不用手动分配节点了。OpenMP 在不同 core 上运行需要绑核,具体请查看教练分发的资料。

Q: 有没有一些提高浮点计算效率的资料?
A: 请查看教练分配的资料,如果没有说明这部分内容暂时不需要你们掌握。

Q: 由于多节点运行namd时需要各个计算结点能保持rsh通信,在多次尝试多节点失败后,发现无法rsh计算结点
A: 请注意查资料!namd 是可以设置 ssh 通信的

几点建议:
1、在提问时根据以下格式填上必要信息,包括姓名,联系电话,集群登陆账号,问题描述,问题截图【可选】,工作目录【可选】,错误脚本【可选】,错误信息【可选】。
==============================================================
姓名:
电话:
集群登陆账号:
问题描述详情:
问题截图:【如有请附上】
工作目录:【如有请用指令 pwd 获得并粘贴在此】
错误脚本:【如有请把出错的 sge 提交脚本的路径附上】
错误信息:【如有请把错误信息粘贴出来】
==============================================================

2、有错误出现在 Linux 下是很正常的事,关键是要懂得查看错误信息。一般 Linux 下的错误主要是由路径、权限、链接库造成的,可以针对这些内容进行筛选,找出出错的原因并加以解决。

3、用例资料最好能查看内容并了解内容的含义,比如说 SGE 示例脚本 hw.pbs 里面每一行指令(有部分注释内容是 SGE 的分析指令来的)的用途是干嘛的,然后再根据实际运行情况进行相应修改,不应盲目的“拿来主义”。

4、SGE 的脚本最好跟执行文件放在同一个目录,这样工作目录才好统一。SGE 提交作业会根据你的当前提交的工作目录和 cwd 参数设置指定工作目录(注意 sge 示例脚本 hw.pbs 前面的 comment 里面的 cwd 参数),由此后面运行程序时最好统一用相对路径操作或者相对路径操作(这里推荐用相对路径),切忌用参差不齐的路径(绝对路径+相对路径+解析路径混搭)!