일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- python
- Ubuntu 22.04
- ethtool
- TensorFlow
- sudoer
- dmesg
- uname
- CUDA
- passwd
- 도커 설치
- docker
- 우분투 22.04 패스워드 초기화
- 우분투패스워드초기화
- A100
- 도커
- grub
- V100
- nvidia-docker
- 모니터링
- 패스워드초기화
- TAIL
- 엔비디아 도커
- Cat
- 우분투
- nvidia
- netplan
- sysstat
- NGC
- ifconfig
- 리눅스 기본명령어
- Today
- Total
목록CUDA (2)
또이리의 Server Engineer
우분투 18.04 엔비디아 도커 - 텐서플로우 설치 ubuntu 18.04 Nvidia-Docker 설치와 tensor flow image를 도커에서 실행해보겠습니다. 지난 스토리에서는 우분투에 도커를 설치했습니다. GPU를 사용하기 위해서는 nvidia-docker도 설치해야 합니다. 엔비디아 도커 설치도 그리 어렵지 않습니다. 자, 일단 전제 조건이 있습니다. 엔비디아 드라이버가 설치되어 있어야 합니다. 그러기 위해선 nvidia 장치가 장착된 서버나 워크스테이션을 사용해야 합니다. 쉽게 말하면 엔비디아 그래픽카드나 GPU가 있어야 된다는 말입니다. 엔비디아 드라이버는 지난 스토리를 참고하셔서 설치하시기 바랍니다. 엔비디아 드라이버가 설치가 되었다면 그다음은 플랫폼 요구사항입니다. 1. 커널 버전이 ..
Nvidia Tesla A100 - 8GPU error Xid 61 A100 tensorflow, dcgmi error(AMD server) gpu-burn을 돌렸을 때는 이상이 없는데, tensorflow benchmarks나 dcgmi diag를 돌렸을 때는 gpu가 한 개씩 에러가 나면서 결국 8개 다 error가 발생합니다. 도대체 이유를 모르겠습니다. 텐서 플로우는 로컬에서 호환되는 빌드 버전을 아직 찾지 못해서 nvidia driver, bazle, cuda, cudnn, tensor flow 버전별로 테스트하고 있습니다. 우선 급한 데로 엔비디아 도커에 이미지를 받아서 tensorflowtensorflow benchmarks 실행했는데도 dcgmi와 같은 xid 61 에러가 순차적으로 발생합..