일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- ubuntu
- SLURM
- PFSS
- AMD
- LUSTRE
- client
- Source
- gpfs
- HPCM
- nvidia
- build
- CUDA
- GPU
- CPU
- 1.9
- hpcm패치
- 1.10
- infiniband
- rhel
- v1.9
- Cray
- java
- Docker
- PBS
- patch
- HPE
- version
- HPFSS
- Singularity
- Linux
- Today
- Total
목록SYSTEMS (41)
HPE CRAY 자료 공유
1. GPU 용도별 분류 구분 설명 비고 Radeon RX 게이밍 제품군 NVIDIA의 GeForce 대응 Radeon PRO (구. AMD FirePro) 워크스테이션 제품군 NVIDIA의 Quadro 대응 Instinct GPU 가속기 제품군 NVIDIA의 Tesla 대응 2. GPU ARCHITECTURE History 구분 설명 비고 TeraScale GCN(Graphics Core Next) RDNA(Radeon DNA) 게이밍 CDNA(Compute DNA) 컴퓨팅 (1) TeraScale 이후 GPU Architecture 출시 코드명(공정) 주요 제품 종류 gfx3 / TeraScale 1 R600, R700 HD 2000 Series, HD 3000 Series, HD 4000 Serie..
1. GPU 용도별 분류 구분 설명 비고 Tesla Server용 Quadro Workstaion용 GeForce PC용 2. GPU ARCHITECTURE History GPU Architecture 출시 GPU archs 주요 제품 종류 비고 Fermi 2010 sm_20 Kepler 2012 sm_30, sm_35, sm_37 Quadro: K2000, K4000, K4200, K5000, K5200, K6000 Tesla: K10, K20, K20x, K20Xm, K20c, K20s, K40m, K40c, K40s, K40st, K40t, K80, K520 Maxwell 2014 sm_50, sm_52, sm_53 Quadro: K2200, M2000, M4000, M5000, M6000 Tesl..
구분 Kernel(OS version) 비고 RHEL 3.10.0-862.14.4.el7 (RHEL7.5) 3.10.0-957.27.2.el7 (RHEL7.6) 4.14.0-49.13.1.el7a (RHEL7.5) 4.14.0-115.2.2.el7a (RHEL7.6) 3.10.0-1062.18.1.el7 (RHEL7.7) 3.10.0-1127.19.1.el7 (RHEL7.8) 3.10.0-1160.80.1.el7 (RHEL7.9) 4.18.0-80.11.2.el8 (RHEL8.0) 4.18.0-147.8.1.el8 (RHEL8.1) 4.18.0-193.28.1.el8 (RHEL8.2) 4.18.0-240.22.1.el8 (RHEL8.3) 4.18.0-305.25.1.el8 (RHEL8.4) 4.18.0-..
- Switch Management Software for NVIDIA InfiniBand NDR 64-port OSFP Managed Power to Connector Airflow Switch (HPE Part Number P45692-B21) 날짜 MLNX-OS 버전 경로 2023.10.03 3.11.1014 https://support.hpe.com/connect/s/softwaredetails?language=en_US&softwareId=MTX_1488dac1f95b4d4a84b4ec264c - NDR Switch ※참고: 전면 사진은 Unmanaged Switch ※ 실제 32개의 OSFP port를 가지고 있음. - NDR Cables - 참고자료: https://docs.nvidia.co..
HPE CRAY XD 670 제품 페이지 - GPU Driver & Fabric Manager: 현재(2023.11.14) HPE 권장 버전은 525.125.06 입니다. - CUDA Toolkit: Hopper(H100)의 최소 버전은 11.8 이고, HPE에서 권장되는 버전은 12.x 버전 입니다. CUDA Toolkit Download Link 12.2.1 https://developer.download.nvidia.com/compute/cuda/12.2.1/local_installers/cuda_12.2.1_535.86.10_linux.run 12.2.2 https://developer.download.nvidia.com/compute/cuda/12.2.2/local_installers/cuda_..
- MLDE 내용 참고 Export # cm image capture -i hpe-mlde-login-0.17.15-rhel-8.5 -n # tar -C /opt/clmgr/image/images --numeric-owner --xattrs --acls -cpvzf hpe-mlde-login-0.17.15-rhel-8.5.tar.gz hpe-mlde-login-0.17.15-rhel-8.5 Import # tar -C /opt/clmgr/image/images --xattrs --acls --xattrs-include=* -zpxvf hpe-mlde-master-0.17.15-rhel-8.5.tar.gz # cm image create -i hpe-mlde-master-0.17.15-rhel-8.5 --..
1. Intel 1-Socket Server(s7200AP - KNL) Event Data (RAW) Event Data 1 Event Data 2 Event Data 3 DIMM Slot a00000 a0=Correctable Error 00= N/A 00=CPU1-CH=A P1-DimmA a00001 a0=Correctable Error 00= N/A 01=CPU1-CH=B P1-DimmB a00002 a0=Correctable Error 00= N/A 02=CPU1-CH=C P1-DimmC a00003 a0=Correctable Error 00= N/A 03=CPU1-CH=D P1-DimmD a00004 a0=Correctable Error 00= N/A 04=CPU1-CH=E P1-DimmE a0..
1. xtcheckhss 명령으로 Bus Address를 확인 후 2. xtlogin으로 blade를 접속해서 해당 Bus의 AOC 케이블 정보 확인 3. cat 명령어로 /sys/bus/i2c/devices/{BusAddr}/vendor_part_number/vendor_part_number 4. cat 명령어로 /sys/bus/i2c/devices/{BusAddr}/vendor_serial_number/vendor_serial_number [예제 : c1-0c1s14 blade] # xtcheckhss --cclist=none --bclist=c1-0c1s14 --detail=f # xtlogin c1-0c1s14 # cat /sys/bus/i2c/devices/1-0054/vendor_part_nu..
1. Front panel Item Description 비고 1 Drive bays 2 Slot 9 PICe3 x 16 3 Slot 10 PICe3 x 16 4 NIC port 2 5 NIC port 1 6 Dedicated iLO port(optional) 7 Serial number and iLO label pull tab 8 USB 3.0 connector 9 SUV connector - Chassis and Accelerator Trays Item Description 비고 1 HPE Apollo 6500 Chassis (4U) 2 Low profile PCIe Gen3 x16 slot 3 Embedded 1Gb NIC 2 4 Embedded 1Gb NIC 1 5 Dedicated iLO Por..
nvidia-smi 실행 화면 1. Driver Version - 현재 설치되어 있는 nvidia driver version을 확인 할 수 있습니다. Driver Version: 460.27.04 2. CUDA Version - 현재 드라이버 버전과 맞는 cuda 추천 버전(주의: 절대 현재 설치되어 있는 버전이 아님) CUDA Version: 11.2 3. GPU/FAN 설치되어 있는 GPU number FAN N/A(Not Available) fan이 없는 Tesla 모델. ※ RTX 계열의 팬이 있는 모델을 사용하면 56%같은 숫자와 %로 표기. 4. Name Nvidia GPU Model(A100-SXM-80GB) 5. Temp GPU의 현재 온도를 표시 합니다. 41C 6. Perf(Perfor..