일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- sudoer
- sysstat
- TAIL
- passwd
- ifconfig
- 우분투 22.04 패스워드 초기화
- uname
- nvidia-docker
- Ubuntu 22.04
- 도커
- 엔비디아 도커
- 우분투
- 패스워드초기화
- Cat
- NGC
- ethtool
- netplan
- 모니터링
- 우분투패스워드초기화
- grub
- dmesg
- A100
- docker
- CUDA
- TensorFlow
- 도커 설치
- V100
- 리눅스 기본명령어
- python
- nvidia
- Today
- Total
목록2020/11/08 (2)
또이리의 Server Engineer
Nvidia Tesla A100 - 8GPU error Xid 61 A100 tensorflow, dcgmi error(AMD server) gpu-burn을 돌렸을 때는 이상이 없는데, tensorflow benchmarks나 dcgmi diag를 돌렸을 때는 gpu가 한 개씩 에러가 나면서 결국 8개 다 error가 발생합니다. 도대체 이유를 모르겠습니다. 텐서 플로우는 로컬에서 호환되는 빌드 버전을 아직 찾지 못해서 nvidia driver, bazle, cuda, cudnn, tensor flow 버전별로 테스트하고 있습니다. 우선 급한 데로 엔비디아 도커에 이미지를 받아서 tensorflowtensorflow benchmarks 실행했는데도 dcgmi와 같은 xid 61 에러가 순차적으로 발생합..
우분투 18.04 도커 설치 ubuntu 18.04 Docker 설치를 이번 스토리에서 알아보겠습니다. Docker란 서버 OS에서 다양한 애플리케이션을 실행할 수 있는 환경을 컨테이너라는 가상 환경으로 실행할 수 있게 해주는 컨테이너 기반 오픈소스 가상화 플랫폼입니다. 설명이 좀 난해합니다. 서버 OS 안에 격리된 가상 환경을 만들어서 그 안에서 프로그램을 실행할 수 있게 해주는 플랫폼이라고 생각하시면 됩니다. 굳이 서버 OS에 프로그램과 그 프로그램을 구동시키기 위한 기반 프로그램을 설치하지 않아도 되겠습니다. 이미 컨테이너 안에 구축이 되어있기 때문에 컨테이너에 접속만 하면 됩니다. 이를 이용하면 복잡한 서버 환경을 쉽게 관리할 수 있습니다. 여러 사용자에게 쉽고 편리하게 환경을 배포할 수 도 있습..