일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- Singularity
- GPU
- AMD
- nvidia
- Source
- SLURM
- build
- LUSTRE
- Docker
- 1.10
- 1.9
- Linux
- CUDA
- HPFSS
- java
- PFSS
- rhel
- CPU
- infiniband
- Cray
- conda
- top500
- HPE
- ubuntu
- patch
- gpfs
- rocm
- hpcm패치
- HPCM
- Kernel
- Today
- Total
목록GPU (9)
HPE CRAY 자료 공유
- OS: RHEL 9.4- GPU: Radeon PRO W6800 1. Redhat OS local repo 생성[root@cray ~]# cat /etc/yum.repos.d/local.repo [media-baseos]name=BaseOSbaseurl=file:///data/REPO/rhel9.4/BaseOSgpgcheck=1enabled=1gpgkey=file:///etc/pki/rpm-gpg/RPM-GPG-KEY-redhat-release[media-appstream]name=AppStreambaseurl=file:///data/REPO/rhel9.4/AppStreamgpgcheck=1enabled=1gpgkey=file:///etc/pki/rpm-gpg/RPM-GPG-KEY-redhat-rel..
HPC 분야에서 자주 사용하는 BMT 목록 CPU - HPL: https://www.netlib.org/benchmark/hpl - HPCG: https://www.hpcg-benchmark.org Filesystem I/O - IOR: https://github.com/LLNL/ior - IOzone: https://www.iozone.org - Flexible I/O: https://fio.readthedocs.io/en/latest/fio_doc.html Memory - Stream: https://www.cs.virginia.edu/stream GPU - MLPerf: https://mlcommons.org, https://github.com/mlcommons/inference - HPL-NVID..
1. GPU 용도별 분류 구분 설명 비고 Radeon RX 게이밍 제품군 NVIDIA의 GeForce 대응 Radeon PRO (구. AMD FirePro) 워크스테이션 제품군 NVIDIA의 Quadro 대응 Instinct GPU 가속기 제품군 NVIDIA의 Tesla 대응 2. GPU ARCHITECTURE History 구분 설명 비고 TeraScale GCN(Graphics Core Next) RDNA(Radeon DNA) 게이밍 CDNA(Compute DNA) 컴퓨팅 (1) TeraScale 이후 GPU Architecture 출시 코드명(공정) 주요 제품 종류 gfx3 / TeraScale 1 R600, R700 HD 2000 Series, HD 3000 Series, HD 4000 Serie..
1. GPU 용도별 분류 구분 설명 비고 Tesla Server용 Quadro Workstaion용 GeForce PC용 2. GPU ARCHITECTURE History GPU Architecture 출시 GPU archs 주요 제품 종류 비고 Fermi 2010 sm_20 Kepler 2012 sm_30, sm_35, sm_37 Quadro: K2000, K4000, K4200, K5000, K5200, K6000 Tesla: K10, K20, K20x, K20Xm, K20c, K20s, K40m, K40c, K40s, K40st, K40t, K80, K520 Maxwell 2014 sm_50, sm_52, sm_53 Quadro: K2200, M2000, M4000, M5000, M6000 Tesl..
1. Dependency Packages 설치 # apt install gcc gfortran make # apt install build-essential fakeroot devscripts # apt install -y munge libmunge-dev libmunge2 rng-tools python3 python3-pip libpython3-dev libssl-dev bzip2 libbz2-dev \ gcc openssl numactl hwloc lua5.3 man2html mariadb-server libmariadb-dev \ make ruby ruby-dev libmunge-dev libpam0g-dev libreadline8 libreadline-dev lz4 liblz4-dev \ libg..
※ slurm gres.conf 사용을 위한 간단한 예제 - cuda toolkit 설치 $ wget https://developer.download.nvidia.com/compute/cuda/11.8.0/local_installers/cuda_11.8.0_520.61.05_linux.run $ sudo sh cuda_11.8.0_520.61.05_linux.run - rpmbuild 옵션에 "--with-nvml"을 추가 $ rpmbuild --define "_with_nvml --with-nvml=/usr/local/cuda-11.8" -ta slurm-22.05.6.tar.bz2 - gpu 라이브러리 포함 확인 $ cd ${HOME}/rpmbuild/RPMS/x86_64 $ rpm -qlp slur..
1. /proc 에서 확인 $ cat /proc/driver/nvidia/version NVRM version: NVIDIA UNIX x86_64 Kernel Module 450.51.06 Sun Jul 19 20:02:54 UTC 2020 GCC version: gcc version 7.5.0 (Ubuntu 7.5.0-3ubuntu1~18.04) 2. nvidia-smi 명령으로 확인 $ nvidia-smi --query-gpu=driver_version --format=csv,noheader 450.51.06 450.51.06 450.51.06 450.51.06 450.51.06 450.51.06 450.51.06 450.51.06
1. 테스트 환경 HPE HPC Partner Lab znode44 2. Dockerfile 작성 및 build Dockerfile 예시 FROM tensorflow/tensorflow:latest-gpu RUN pip install tensorflow_dataset 후술하겠지만 docker 를 사용자 계정으로 실행하면 docker image에 python 패키지 설치가 용이하지 않음. 먼저 Dockerfile 을 작성하고 빌드 $ docker build -t 이미지:태그 3. slurm interactive 할당 $ srun -p short -N 1 -n 1 -w znode44 --pty bash 4. (nvidia) docker command (znode44 에서) $ docker run -u $(i..
nvidia-smi 실행 화면 1. Driver Version - 현재 설치되어 있는 nvidia driver version을 확인 할 수 있습니다. Driver Version: 460.27.04 2. CUDA Version - 현재 드라이버 버전과 맞는 cuda 추천 버전(주의: 절대 현재 설치되어 있는 버전이 아님) CUDA Version: 11.2 3. GPU/FAN 설치되어 있는 GPU number FAN N/A(Not Available) fan이 없는 Tesla 모델. ※ RTX 계열의 팬이 있는 모델을 사용하면 56%같은 숫자와 %로 표기. 4. Name Nvidia GPU Model(A100-SXM-80GB) 5. Temp GPU의 현재 온도를 표시 합니다. 41C 6. Perf(Perfor..