일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- Cray
- HPFSS
- build
- rhel
- infiniband
- version
- HPE
- gpfs
- java
- CUDA
- AMD
- 1.9
- PBS
- Source
- client
- 1.10
- GPU
- HPCM
- hpcm패치
- nvidia
- patch
- Linux
- Docker
- SLURM
- Singularity
- ubuntu
- CPU
- v1.9
- LUSTRE
- PFSS
- Today
- Total
목록Applications (48)
HPE CRAY 자료 공유
1. 조치 전 # curl -X GET "admin:9200/_cluster/health?pretty" { "cluster_name" : "hpcm_cluster", "status" : "yellow", "timed_out" : false, "number_of_nodes" : 1, "number_of_data_nodes" : 1, "active_primary_shards" : 520, "active_shards" : 520, "relocating_shards" : 0, "initializing_shards" : 0, "unassigned_shards" : 519, "delayed_unassigned_shards" : 0, "number_of_pending_tasks" : 0, "number_of_in_f..
1. Network 설정 # nmcli con mod enp0s8 ipv4.address 192.168.56.10/24 # nmcli con mod enp0s8 ipv4.method manual # nmcli con mod enp0s8 connection.autoconnect yes # nmcli con up enp0s8 2. Yum local repo 구성 [AppStream] name=AppStream baseurl=file:///mnt/AppStream enabled=1 gpgcheck=0 [BaseOS] name=BaseOS baseurl=file:///mnt/BaseOS enabled=1 gpgcheck=0 3. HOSTNAME 설정 # hostnamectl set-hostname mgmt 4...
1. /proc 에서 확인 $ cat /proc/driver/nvidia/version NVRM version: NVIDIA UNIX x86_64 Kernel Module 450.51.06 Sun Jul 19 20:02:54 UTC 2020 GCC version: gcc version 7.5.0 (Ubuntu 7.5.0-3ubuntu1~18.04) 2. nvidia-smi 명령으로 확인 $ nvidia-smi --query-gpu=driver_version --format=csv,noheader 450.51.06 450.51.06 450.51.06 450.51.06 450.51.06 450.51.06 450.51.06 450.51.06
내용옵션비고"bash: orted: command not found" 오류--enable-mpirun-prefix-by-default "#PBS -V" 안될 경우--with-tm IB--with-verbs (1.8.x 버전 이후)(1.8.x 버전 이전 --with-openib)OPA--with-psm2 Lustre filesystem--with-lustre UCX--with-ucx - 참고 : OpenMPI 설치 옵션$ export LD_LIBRARY_PATH=/opt/pbs/lib:$LD_LIBRARY_PATH $ export LDFLAGS="-L/opt/pbs/lib -lpbs -lpthread -lcrypto" $ ./configure -prefix=/apps/compiler/intel/18.0...
1. Patch 파일 준비 CentOS 7.9 Kernel에 적용할 patch 파일은 github에서 down 받습니다. - URL : https://github.com/AMDEPYC/CENTOS-MILAN-SUPPORT-PATCHES 2. CentOS 7.9용 Kernel source 파일 준비 # wget https://vault.centos.org/centos/7/updates/Source/SPackages/kernel-3.10.0-1160.el7.src.rpm --no-check-certificate 3. 의존 패키지 설치 # yum install asciidoc audit-libs-devel binutils-devel bison \ elfutils-devel flex hmaccalc java-d..
1. 의존 패키지 설치 # yum groupinstall "Development Tools" # yum install openssl-devel wget cryptsetup libuuid-devel libseccomp-devel squashfs-tools 2. Golang 설치 $ wget https://golang.org/dl/go1.16.5.linux-amd64.tar.gz $ tar xvzf go1.16.5.linux-amd64.tar.gz ※ go는 PATH 설정 후 진행, 이하 진행은 module 생성 후 진행 내용 입니다. 3. singularity 설치 $ module load go/1.16.5 $ export VERSION=3.8.5 $ wget https://github.com/hpcng/..
1. 테스트 환경 HPE HPC Partner Lab znode44 2. Dockerfile 작성 및 build Dockerfile 예시 FROM tensorflow/tensorflow:latest-gpu RUN pip install tensorflow_dataset 후술하겠지만 docker 를 사용자 계정으로 실행하면 docker image에 python 패키지 설치가 용이하지 않음. 먼저 Dockerfile 을 작성하고 빌드 $ docker build -t 이미지:태그 3. slurm interactive 할당 $ srun -p short -N 1 -n 1 -w znode44 --pty bash 4. (nvidia) docker command (znode44 에서) $ docker run -u $(i..
1. user 생성 # export MUNGEUSER=966 # groupadd -g $MUNGEUSER munge # useradd -m -c "MUNGE Uid 'N' Gid Emporium" -d /var/lib/munge -u $MUNGEUSER -g munge -s /sbin/nologin munge # export SLURMUSER=967 # groupadd -g $SLURMUSER slurm # useradd -m -c "SLURM workload manager" -d /var/lib/slurm -u $SLURMUSER -g slurm -s /bin/bash slurm 2. Dependency Packages 설치 # apt install -y munge libmunge-dev libmung..
- mnist.py 소스 경로 : https://github.com/pytorch/examples/tree/master/mnist 1. 테스트 환경 - OS : Ubuntu 20.04.1 LTS - Model : Apollo 6500 Gen10+ XL675d - CPU : AMD EPYC 7543 32 Core 2.8GHz 2. 테스트 환경 구성 및 실행 $ conda create -n pytorch_cpu_1.9 $ source activate pytorch_cpu_1.9 $ conda install pytorch torchvision torchaudio cpuonly -c pytorch $ export OMP_NUM_THREADS=1 $ python ./main.py 3. 결과 Threads 수 실행..
ABRT는 AUTOMATIC BUG REPORTING TOOL로 애플리케이션이 충돌하거나 커널 오류가 감지되면 자동으로 분석 정보를 수집합니다. 하지만 HPC 계산노드에서는 잘못된 연산으로 segmentation fault와 out of memory 같은 오류가 자주 발생하고, 빈번한 정보 수집이 시스템 성능에 영향을 주게되어 ABRT 삭제를 권장합니다. 1. 설치 상태 조회 # yum list | grep abrt abrt.x86_64 2.1.11-60.el7.centos @anaconda abrt-addon-ccpp.x86_64 2.1.11-60.el7.centos @anaconda abrt-addon-kerneloops.x86_64 2.1.11-60.el7.centos @anaconda abrt-a..