일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- Singularity
- conda
- SLURM
- PFSS
- java
- Kernel
- HPCM
- CPU
- CUDA
- hpcm패치
- LUSTRE
- Docker
- infiniband
- GPU
- Source
- patch
- nvidia
- top500
- Cray
- AMD
- rhel
- ubuntu
- Linux
- HPE
- gpfs
- HPFSS
- 1.9
- 1.10
- rocm
- build
- Today
- Total
목록Applications (53)
HPE CRAY 자료 공유
1. 의존 패키지 설치 # yum groupinstall "Development Tools" # yum install openssl-devel wget cryptsetup libuuid-devel libseccomp-devel squashfs-tools 2. Golang 설치 $ wget https://golang.org/dl/go1.16.5.linux-amd64.tar.gz $ tar xvzf go1.16.5.linux-amd64.tar.gz ※ go는 PATH 설정 후 진행, 이하 진행은 module 생성 후 진행 내용 입니다. 3. singularity 설치 $ module load go/1.16.5 $ export VERSION=3.8.5 $ wget https://github.com/hpcng/..
1. 테스트 환경 HPE HPC Partner Lab znode44 2. Dockerfile 작성 및 build Dockerfile 예시 FROM tensorflow/tensorflow:latest-gpu RUN pip install tensorflow_dataset 후술하겠지만 docker 를 사용자 계정으로 실행하면 docker image에 python 패키지 설치가 용이하지 않음. 먼저 Dockerfile 을 작성하고 빌드 $ docker build -t 이미지:태그 3. slurm interactive 할당 $ srun -p short -N 1 -n 1 -w znode44 --pty bash 4. (nvidia) docker command (znode44 에서) $ docker run -u $(i..
1. user 생성 # export MUNGEUSER=966 # groupadd -g $MUNGEUSER munge # useradd -m -c "MUNGE Uid 'N' Gid Emporium" -d /var/lib/munge -u $MUNGEUSER -g munge -s /sbin/nologin munge # export SLURMUSER=967 # groupadd -g $SLURMUSER slurm # useradd -m -c "SLURM workload manager" -d /var/lib/slurm -u $SLURMUSER -g slurm -s /bin/bash slurm 2. Dependency Packages 설치 # apt install -y munge libmunge-dev libmung..
- mnist.py 소스 경로 : https://github.com/pytorch/examples/tree/master/mnist 1. 테스트 환경 - OS : Ubuntu 20.04.1 LTS - Model : Apollo 6500 Gen10+ XL675d - CPU : AMD EPYC 7543 32 Core 2.8GHz 2. 테스트 환경 구성 및 실행 $ conda create -n pytorch_cpu_1.9 $ source activate pytorch_cpu_1.9 $ conda install pytorch torchvision torchaudio cpuonly -c pytorch $ export OMP_NUM_THREADS=1 $ python ./main.py 3. 결과 Threads 수 실행..
ABRT는 AUTOMATIC BUG REPORTING TOOL로 애플리케이션이 충돌하거나 커널 오류가 감지되면 자동으로 분석 정보를 수집합니다. 하지만 HPC 계산노드에서는 잘못된 연산으로 segmentation fault와 out of memory 같은 오류가 자주 발생하고, 빈번한 정보 수집이 시스템 성능에 영향을 주게되어 ABRT 삭제를 권장합니다. 1. 설치 상태 조회 # yum list | grep abrt abrt.x86_64 2.1.11-60.el7.centos @anaconda abrt-addon-ccpp.x86_64 2.1.11-60.el7.centos @anaconda abrt-addon-kerneloops.x86_64 2.1.11-60.el7.centos @anaconda abrt-a..
CrayKorea 서버, CentOS 7.5.1804, root 권한 필요 1. yum-utils 설치 (yum-config-manager 유틸리티 제공) yum install -y yum-utils 2. yum-config-manger 를 이용해 docker 저장소 설정 yum-config-manager --add-repo https://download.docker.com/linux/centos/docker-ce.repo 3. docker engine 설치(docker-ce, docker-ce-cli, containerd.io) yum install docker-ce docker-ce-cli containerd.io (GPG key 확인: 060A 61C5 1B55 8A7F 742B 77AA C52F ..
IBS aleph (XC50), GNU compiler 이용 1. ThirdParty application 설치 boost, cmake (따로 설치 후 module load 로 이용) cgal, gmp, mpc, mpfr, scotch (ThirdParty directory에 위치) 2. etc/bashrc 수정 export WM_MPLIB=CRAY-MPICH (XC 환경에 맞게 cray-mpich 선택) 3. etc/config.sh/settings (cc, CC wrapper 사용을 위해 새로이 WM_ARCH 설정) WM_ARCH='crayxc' export WM_COMPILER_LIB_ARCH=64 # Target with lib64 export WM_CC='cc' export WM_CXX='CC'..
1. Commands User Commands PBS Slurm Job submission qsub [script_file] sbatch [script_file] Job deletion qdel [job_id] scancel [job_id] Job status (by job) qstat [job_id] squeue [job_id] Job status (by user) qstat -u [user_name] squeue -u [user_name] Job hold qhold [job_id] scontrol hold [job_id] Job release qrls [job_id] scontrol release [job_id] Queue list qstat -Q squeue Node list pbsnodes -l ..
sinfo 명령을 이용하여 "idle" 상태의 노드를 확인 합니다. $ sinfo PARTITION AVAIL TIMELIMIT NODES STATE NODELIST short* up 4:00:00 11 down* gpu_a100n[01-06],gpu_v100n[01-05] short* up 4:00:00 1 alloc node43 short* up 4:00:00 6 idle gpu_v100n[06-08],node[44-46] normal up 1-00:00:00 11 down* gpu_a100n[01-06],gpu_v100n[01-05] normal up 1-00:00:00 1 alloc node43 normal up 1-00:00:00 6 idle gpu_v100n[06-08],node[44-46] ..
1. ssh-keygen 실행 예제 $ ssh-keygen -t rsa Generating public/private rsa key pair. Enter file in which to save the key (/home/leesangy/.ssh/id_rsa): Created directory '/home/leesangy/.ssh'. Enter passphrase (empty for no passphrase): Enter same passphrase again: Your identification has been saved in /home/leesangy/.ssh/id_rsa. Your public key has been saved in /home/leesangy/.ssh/id_rsa.pub. The ke..