HPE CRAY 자료 공유

[NVIDIA] nvidia-smi 항목 설명 본문


[NVIDIA] nvidia-smi 항목 설명

CRAY KOREA Blog 2021. 7. 28. 10:30

nvidia-smi 실행 화면


1. Driver Version
- 현재 설치되어 있는 nvidia driver version을 확인 할 수 있습니다.
Driver Version: 460.27.04

2. CUDA Version
- 현재 드라이버 버전과 맞는 cuda 추천 버전(주의: 절대 현재 설치되어 있는 버전이 아님)
CUDA Version: 11.2

설치되어 있는 GPU number
FAN N/A(Not Available) fan이 없는 Tesla 모델.
※ RTX 계열의 팬이 있는 모델을 사용하면 56%같은 숫자와 %로 표기.

4. Name
Nvidia GPU Model(A100-SXM-80GB)

5. Temp
GPU의 현재 온도를 표시 합니다.
6. Perf(Performance)
P0 - P12 까지 존재하며, P0에 가까울수록 GPU의 Performance가 높습니다.

7. Persistence-M
Persistence Mode는 on/off 두 가지 모드가 존재하며, (Default off)
on 상태가 되면 Power limit을 설정할 수 있습니다.
※ 파워 지속성 옵션. on상태시 GPU 저전력 모드를 해제 하고, 사용 시 빠른 작업 시작이 가능 합니다.

8. Pwr: Usage/Cap
현재 전력사용량과 최대 용량이다.

57W(현재) / 400W(최대)

9. Bus-Id
메인보드에서 부여된 PCI slot BUS-ID
GPU number와 메인보드의 PCI 슬롯을 매칭 가능

0번 GPU 00000000:07:00.0의 경우 아래와 같습니다.

lspci  | grep NVIDIA | grep controller
07:00.0 3D controller: NVIDIA Corporation Device 20b2 (rev a1)
0b:00.0 3D controller: NVIDIA Corporation Device 20b2 (rev a1)
48:00.0 3D controller: NVIDIA Corporation Device 20b2 (rev a1)
4c:00.0 3D controller: NVIDIA Corporation Device 20b2 (rev a1)
88:00.0 3D controller: NVIDIA Corporation Device 20b2 (rev a1)
8b:00.0 3D controller: NVIDIA Corporation Device 20b2 (rev a1)
c8:00.0 3D controller: NVIDIA Corporation Device 20b2 (rev a1)
cb:00.0 3D controller: NVIDIA Corporation Device 20b2 (rev a1)

lspci -s 07:00.0 -vv
07:00.0 3D controller: NVIDIA Corporation Device 20b2 (rev a1)
Subsystem: NVIDIA Corporation Device 1463
Control: I/O- Mem+ BusMaster+ SpecCycle- MemWINV- VGASnoop- ParErr+ Stepping- SERR+ FastB2B- DisINTx+
Status: Cap+ 66MHz- UDF- FastB2B- ParErr- DEVSEL=fast >TAbort- <TAbort- <MAbort- >SERR- <PERR- INTx-
Latency: 0, Cache Line Size: 64 bytes
Interrupt: pin A routed to IRQ 432
NUMA node: 3
Region 0: Memory at c9000000 (32-bit, non-prefetchable) [size=16M]
Region 1: Memory at 1c000000000 (64-bit, prefetchable) [size=128G]
Region 3: Memory at 1e000000000 (64-bit, prefetchable) [size=32M]
Capabilities: <access denied>
Kernel driver in use: nvidia
Kernel modules: nvidiafb, nouveau, nvidia_drm, nvidia


10. Disp.A
RTX나 Quadro계열의 GPU에서 사용됩니다.
모니터를 연결한 출력 포트의 GPU는 on상태로 변경 됩니다.

11. Memory-Usage
현재 사용하는 GPU 메모리 / 총 GPU 메모리

0MiB(현재 메모리) / 81251MiB(총 메모리)

12. Voltaile GPU-Util
GPU의 총사용량이다. GPU는 메모리로만 동작하지 않고 SMs와 같은 프로세서도 존재한다.

13. Uncorr. ECC
default값은 ECC ON 상태이며, ECC count가 생기면 숫자 0이 1,2.. 이상으로 변경 됩니다.

※ ECC ON 상태에서 count가 계속 발생하면 시스템 Hang이 발생한다. 그러므로 Off 시켜 놓고 작업하는 곳이 많으며, ECC Off를 하게 되면 놀랍게도 GPU Memory 총량이 늘어나게 됩니다.

14. Compute M.
Compute Mode의 모드입니다.

구분 모드  비고
0 default  
1 exclusive_thread  
2 prohibited  
3 exclusive_process  

15. MIG M

MIG(Multi-Instance GPU)는 NVIDIA GPU A100에서부터 지원이 가능합니다.

Default는 Disabled가 되어 있지만 옵션을 통해 Enable 하여 사용합니다.

- 참고 : NVIDIA MIG 소개 (https://www.nvidia.com/ko-kr/technologies/multi-instance-gpu)

16. Processes
GPU가 작업을 시작하면 No running processes found에 PID에 표기가 됩니다.



'SYSTEMS > GPU' 카테고리의 다른 글

[ROCM] Unable to open /dev/kfd read-write: Permission denied  (0) 2024.06.13
[GPU] Cuda Samples Utilities  (0) 2024.05.02
[HBM] TrendForce 자료  (0) 2024.04.24
[AMD] GPU 내용 정리  (0) 2024.02.20
[NVIDIA] GPU 내용 정리  (1) 2024.01.13