使用GPGPU-SIM做实验 1. Introduction 本文说明了使用gpgpusim做实验需要注意的问题以及做出的修改。 强烈不推荐使用gpgpusim做实验。 如果是改SASS,建议maxas或者asfermi(尽管他们可能会有这样那样的问题,而且使用起来难度不小)。使用模拟器,是被reviewer攻击的常用点,除非你有足够强有力的解释,否则这会成为你论文的掣肘。 使用模拟器发的A,一般工作量会很多。 more ...
cuda寄存器限制launch_bound和maxrregcount 一个CUDA程序如果使用的寄存器数量过多,会导致在SM上同时驻留的线程和block数量减少,继而导致程序性能不足。 __launch_bounds__和maxrregcount都可以用来限制cuda程序的寄存器数量,但是两者是不同的机制。 __launch_bounds__ __global__ more ...
nvida jetson Tegra k,x系列ubuntu系统源设置 由于是arm平台,使用的应该是arm hf。教育网支持ipv6,改为国内的源更新会更快,速度可到10MB/s. 国内教育网的源 deb http://ipv6.mirrors.ustc.edu.cn/ubuntu-ports/ xenial main restricted universe multiverse deb-src http://ipv6.mirrors.ustc.edu.cn/ubuntu-ports/ xenial main rest more ...
Nvidia Jetson Tegra X系列CPU、GPU状态监测工具TX-Utils使用说明 1. Introduction 我写了一个简单的获取和分析nvidia tegra x系列板子运行状况的工具tx-utils。 2. Github项目地址 https://github.com/FindHao/tx-utils 安装依赖: sudo pip3 install openyxl more ...
在docker里跑gpgpusim 1. Introduction gpgpusim在虚拟机里跑起来非常慢,而自己配机器的环境又可能会出现这样那样的问题。本文给出了一种使用gpgpusim提供的vbox虚拟机进行编译,在host的docker环境下运行的方法。 2. 使用gpgpusim官方vbox虚拟机 gpgpusim官方提供了vbox虚拟机文件的下载,大概7G多, http://ece.ubc.ca/~taylerh/files/gpgpu-sim/gpgpu-sim.vm.tar.gz 直接从vbox里打开就行。里面的系统是ubuntu more ...
CUDA程序通用makefile文件模板 去掉了sdk里通用makefile的一些内容,比如交叉编译。 # Location of the CUDA Toolkit,默认的路径即可 CUDA_PATH ?= "/usr/local/cuda" more ...
远程调试nvidia jetson tk1 tx1 cuda板子 Introduction Nvidia针对异构本身有一套开发平台,叫NVIDIA® Nsight™,有很强的debug和程序分析工具。 有Nsight Visual Studio和Ns more ...
Nsight编译器设置保留编译过程 Introduction 之前记录过NVCC编译过程,但是在修改独立makefile时,可能会比较麻烦,而且如果是nsight里的项目,每次build makefile都会被重置。 但实际上nsight有设置编译参数的选项。 (本文将不定期更新,以完善nsight的build设置说明) 编译器设置 在项目上右键,弹出菜单的最后一个即为properties。 展开Build--》Setting more ...
GPU基础知识 Introduction 本文内容主要系摘录翻译自Ang Li博士的毕业论文。 1. GPU历史 Arch. Release Year Compute Capability Process Most hi more ...
Nvidia-docker 在docker里安装caffe2 Introduction 发现nvidia开始搞nvidia-docker! 如果GPU是共享资源,比如在服务器上,可能不同的用户需要不同的运行环境,但是像vbox这样的重量级虚拟机又过于笨重而且也不支持GPU的直接虚拟化。这时候,共享GPU的环境配置就成了一个大问题,尤其是在配置的应用可能会产生冲突的情况下。 nvidia-docker完美解决了这个问题! docker之前也写过一些简易的入门教程: Docker学 more ...