gpu - FindHao

GPU benchmark说明

Introduction 本文内容主要系摘录翻译自Ang Li的博士毕业论文。 1.Perfect Power Efficiency Revolution for Embedded Computing http://hpc.pnl.gov/PERFECT/ more ...

CUDA 10 Memory Transaction的一个现象

1. Introduction 近日，在写一些microbenchmark分析cuda程序访存问题时，发现了一个有趣的问题。目前尚未找到合理的解释，先记录下来以待后续分析。实验平台为：NVIDIA GTX950，sm5.0，maxwell架构。 2. Global Memory A memory "request" is an instruction which accesses memory, and a "transaction" is the movement of a unit of da more ...

CUDA Sanitizer Samples使用

1. Introduction CUDA 10.1推出了新的API：The Compute Sanitizer API，提供了更底层更丰富的Instrumentation API。 https://docs.nvidia.com/cuda/sanitizer-docs/SanitizerApiGuide/index.html 目前相关文档还比较简单，本文记录下官方Samp more ...

NVIDIA存储架构速度

存储类型 Turing/Volta延迟 Pascal/Maxwell延迟 Register 6（No Bank Conflicts） 6（No Bank Conflicts） Shared 19（No more ...

Linux安装Nvidia 驱动

1. Introduction 记录使用nvidia cuda run包安装驱动和cuda toolkit的过程。 2. 下载run包 deepin15.10基于debian stable，因此使用ubuntu的底包即可： https://dev more ...

virutalbox虚拟机下使用jetpack3.2对jetson tx2刷机

1. Introduction 本文介绍了使用virtualbox里的Ubuntu16.04作为Host来刷jetson tx2的jetpack3.2包的过程。可有效解决Install JetPack 3.2 Failed "E: fopen failed with file local.db, errno = 2"的问题。 2. 环境介绍 PC的真正Host是Debian9 VirtualBox 虚拟机 VirtualBox里的Ubuntu16.04作为刷机的Host J more ...

paper阅读01-GPU Scheduling on the NVIDIA TX2: Hidden Details Revealed

以前读完论文并没有写keynotes的习惯，顶多在mendeley上做些标注，但是过段时间再看，还是需要花费一定的时间来理顺思路。所以准备从现在开始对阅读过的论文做一些自己认为重要的备注。 GPU Scheduling on the NVIDIA TX2: Hidden Details Revealed 2017 IEEE Real-Time Systems Symposiu more ...

半精度浮点数Half

1. Introduction 本文介绍了半精度浮点数的基本概念以及f32到f16转换的截断法。混合精度逐渐成为提升深度学习速度的一种有效方法，其本质上，是以运算的精度换速度，当然前提是精度需要在可接受的范围内，或者说应用本身具有容错性（error tolerant）。在cuda中，half2以及tensorcore的应用，就是对于精度损失容忍性的体现。在线进制转换工具 2. 半精度浮点数 2.1 位宽 more ...

gpgpusim runtime的dockerfile

Introduction 之前写过一篇在docker里跑gpgpusim（下称参考文献1），今天花了一点时间，写了个完整的dockerfile，并上传到了docker hub上去。现在简化一下运行的步骤。 gpgpusim-runtime 在docker hub的地址： https://hub.docker.com/r/findhao/gpgpusim_runtime/ 运行执行参考文 more ...

PTXPlus笔记

修改PTXPlus做实验的几个建议