일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- rocm
- CPU
- Linux
- 1.10
- infiniband
- nvidia
- rhel
- gpfs
- conda
- CUDA
- AMD
- Singularity
- top500
- Docker
- Source
- Cray
- ubuntu
- 1.9
- java
- PFSS
- HPCM
- build
- patch
- SLURM
- HPFSS
- Kernel
- GPU
- hpcm패치
- LUSTRE
- HPE
- Today
- Total
목록Applications (53)
HPE CRAY 자료 공유
- Linux Openfile 개수 # cat /proc/sys/fs/file-nr - drop_caches pagecache cache clear # echo 1 > /proc/sys/vm/drop_caches dentries, inodes cache clear # echo 2 > /proc/sys/vm/drop_caches pagecache, dentries, inodes cache clear # echo 3 > /proc/sys/vm/drop_caches
conda를 이용하여 offline 환경에 MLDE 0.19.8 버전 사용 방법 정리 conda pack을 이용한 패키지 내보내기 $ conda create -n mlde_0.19.8 python=3.8 $ source activate mlde_0.19.8 $ conda install conda-pack $ pip install "determined==0.19.8" "msrest==0.6.21" "backoff==1.10.0" "azure_core==1.22.1" $ conda pack -n mlde_0.19.8 -o mlde_0.19.8.tar.gz $ conda deactivate conda unpack을 이용한 패키지 설치 $ mkdir -p mlde_0.19.8 $ cd mlde_0.19.8 $ ..
/etc/group 에 계정정보가 없는 group 확인용 # awk -F ":" '{if($4=="") print $0}' /etc/group 계정의 기본 group 계정 정보 추가 하는 스크립트 예제 #!/bin/sh while read line do user_name=$(echo $line | awk -F ":" '{print $1}') user_group=$(echo $line | awk -F ":" '{print $4}') if [ ${user_group} -eq 0 ]; then echo "disallow root" else # echo "UID: ${user_name}, GID: ${user_group}" usermod -aG ${user_group} ${user_name} fi done
[/etc/ssh/sshd_config] #Port 22 Port 22022 #PermitRootLogin yes PermitRootLogin no Match Address 192.168.0.0/24 PermitRootLogin yes ※ sshd port를 22022로 변경 ※ root 계정을 차단하고, "192.168.0.0/24"에 대해서만 root 접속을 허용 [/etc/ssh/ssh_config] Host * Port 22022 ※ 변경한 노드들 사이에 22022 포트를 이용해서 ssh 접속을 하도록 설정 서비스 재 기동 # systemctl restart sshd.service # systemctl status sshd.service
- 원인: Nvidia HPC Sdk에서 "libatomic.so.1" 라이브러리를 필요로 하지만 RedHat 8의 "Development Tools" group에 libatomic 라이브러리 미포함 - 오류 내용#1 # mpicc --version /apps/nvidia/hpc_sdk/Linux_x86_64/22.11/comm_libs/openmpi/openmpi-3.1.5/bin/.bin/mpicc: error while loading shared libraries: libatomic.so.1: cannot open shared object file: No such file or directory - 오류 내용#2 # ldd /apps/nvidia/hpc_sdk/Linux_x86_64/22.11/co..
1. 조치 전 # curl -X GET "admin:9200/_cluster/health?pretty" { "cluster_name" : "hpcm_cluster", "status" : "yellow", "timed_out" : false, "number_of_nodes" : 1, "number_of_data_nodes" : 1, "active_primary_shards" : 520, "active_shards" : 520, "relocating_shards" : 0, "initializing_shards" : 0, "unassigned_shards" : 519, "delayed_unassigned_shards" : 0, "number_of_pending_tasks" : 0, "number_of_in_f..
1. Network 설정 # nmcli con mod enp0s8 ipv4.address 192.168.56.10/24 # nmcli con mod enp0s8 ipv4.method manual # nmcli con mod enp0s8 connection.autoconnect yes # nmcli con up enp0s8 2. Yum local repo 구성 [AppStream] name=AppStream baseurl=file:///mnt/AppStream enabled=1 gpgcheck=0 [BaseOS] name=BaseOS baseurl=file:///mnt/BaseOS enabled=1 gpgcheck=0 3. HOSTNAME 설정 # hostnamectl set-hostname mgmt 4...
1. /proc 에서 확인 $ cat /proc/driver/nvidia/version NVRM version: NVIDIA UNIX x86_64 Kernel Module 450.51.06 Sun Jul 19 20:02:54 UTC 2020 GCC version: gcc version 7.5.0 (Ubuntu 7.5.0-3ubuntu1~18.04) 2. nvidia-smi 명령으로 확인 $ nvidia-smi --query-gpu=driver_version --format=csv,noheader 450.51.06 450.51.06 450.51.06 450.51.06 450.51.06 450.51.06 450.51.06 450.51.06
내용옵션비고"bash: orted: command not found" 오류--enable-mpirun-prefix-by-default "#PBS -V" 안될 경우--with-tm IB--with-verbs (1.8.x 버전 이후)(1.8.x 버전 이전 --with-openib)OPA--with-psm2 Lustre filesystem--with-lustre UCX--with-ucx - 참고 : OpenMPI 설치 옵션$ export LD_LIBRARY_PATH=/opt/pbs/lib:$LD_LIBRARY_PATH $ export LDFLAGS="-L/opt/pbs/lib -lpbs -lpthread -lcrypto" $ ./configure -prefix=/apps/compiler/intel/18.0...
1. Patch 파일 준비 CentOS 7.9 Kernel에 적용할 patch 파일은 github에서 down 받습니다. - URL : https://github.com/AMDEPYC/CENTOS-MILAN-SUPPORT-PATCHES 2. CentOS 7.9용 Kernel source 파일 준비 # wget https://vault.centos.org/centos/7/updates/Source/SPackages/kernel-3.10.0-1160.el7.src.rpm --no-check-certificate 3. 의존 패키지 설치 # yum install asciidoc audit-libs-devel binutils-devel bison \ elfutils-devel flex hmaccalc java-d..