TVM简介

TVM

FGPA,CPU, GPU

1.什么是TVM?

是一个支持GPU,CPU,FPGA指令生成的开源编译器框架

2.特点

基于图和算符结构来优化指令生成,最大化硬件执行效率。其中使用了很多方法
来改善硬件执行速度,包括算符融合、数据规划、基于机器学习的优化器等。它
向上对接Tensorflow、Pytorch等深度学习框架,向下兼容GPU、CPU、ARM、
TPU等硬件设备。

3.整体架构

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传
TVM是一个端到端的指令生成器。
整个架构是基于图描述结构,不论是对指令的优化还是指令生成,一个图结构
清晰的描述了数据流方向,操作之间的依赖关系等。

4.主要特点

1、基于GPU、TPU等硬件架构,将张量运算作为一个基本的算符,通过把一个深
度学习网络描述成图结构来抽象出数据计算流程。在这样的图结构基础上,更方便
记忆优化。同时能够有更好的向上向下兼容性,同时支持多种深度学习框架和硬件
架构。
2、巨大的优化搜索空间。在优化图结构方面,其不再局限于通过某一种方式,而是
通过机器学习方法来搜索可能的空间来最大化部署效率。这种方式虽然会导致编译器
较大的计算量,但是更加通用。
TVM提供了一个非常简单的端到端用户接口,通过调用TVM的API可以很方便的进行
硬件部署。比如:

import tvm as t# 将keras模型输入到TVM,指定部署的硬件GPU,然后进行优化和代码生成。
graph, params = t.fronted.from_keras(keras_model)
target = t.target.cuda()
graph, lib, params = t.compiler.build(graph, target, params)

TVM也提供了Java、C++和python界面供用户统一调用。

5.图结构基本优化

TVM图优化策略:
算符融合:将可以在硬件上用一个算符完成的多个连续运算合并;
常量折叠:将可以预先计算的数据放在编译器中完成,减少硬件计算;
存储规划:预先为中间数据分配存储空间来存储中间值,避免中间数据无法存储在片上而增加片外
存储开销;
数据规划:重新排列数据有利于硬件计算。

6.张量计算

TVM采用Halide思想,通过使用schedule来对张量计算进行等价变换,从中计算出执行效率最高的
schedule结构。整个schedule流程如下:
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

还增加了三种针对GPU和TPU的schedule方式:spicile memory scope,
tensorrization, latency hiding。

并行化计算:

需要考虑两点问题:并行度、数据共享。
TVM提出了memory scope的概念,其将数据计算进行可并行和不可并行分类,对于可以并行计算的,
就可以使用多线程来并行计算,而不可并行,则需要等待被依赖数据计算完成。

存储读写优化

7.自动优化器

一个机器学习模型来寻找最优化的schedule结构。其包含两部分:一部分是基于schedule方式产生
所有可能的计算结构;另外一个是机器学习代驾模型来预测可能性。

8.编译流程

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3030967.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

LeetCode96:不同的二叉搜索树

题目描述 给你一个整数 n ,求恰由 n 个节点组成且节点值从 1 到 n 互不相同的 二叉搜索树 有多少种?返回满足题意的二叉搜索树的种数。 代码 /*dp[i]:表示i个节点有dp[i]个不同的二搜索叉树递推公式:dp[i] dp[j-1] * dp[i-j], j…

【C语言—猜数字小游戏】

一、游戏规则 电脑自动生成一个1~100范围内的随机数,由玩家猜测本轮生成的随机数是什么,系统根据玩家猜测数据的⼤⼩给出猜⼤了或猜⼩了的反馈,直到玩家猜对,游戏结束。 如何生成随机数:【C语言】/*如何生成随机值*/-C…

嵌入式学习70-复习(wireshark使用和http协议)

--------------------------------------------------------------------------------------------------------------------------------- wireshark 1.sudo wireshark 2.选择 any , 3.搜索 http/tcp 54 为 发送的数据包 58 回复的数据包 请求报文 请求报文…

【QA】Java集合常用的函数

文章目录 前言Collection接口通用函数 | Collections工具类通用函数 | List接口 Set接口List接口ArrayListLinkedList Set接口TreeSetHashSetLinkedHashSet Map接口通用函数TreeMapHashMapLinkedHashMap 前言 本文介绍Java集合中常用的函数。 Collection接口 通用函数 | Co…

cmake调用MSVC编译时报C2071、C2061、C2059、C2449等错误的解决方案

文章目录 1. 问题复述2. 问题原因3. 解决方案 1. 问题复述 项目一直在linux下编译,这次偶然要在windows下使用msvc编译,结果一堆报错,根据报错信息发现语法也没有问题,报错信息如下: 查找文献说是因为有中文注释导致…

Springboot集成Eureka实现注册中心-11

Spring Cloud Netflix Eureka是Spring Cloud Netflix子项目的核心组件之一,主要用于微服务架构中的服务治理。 什么是注册中心 在微服务架构中往往会有一个注册中心,每个微服务都会向注册中心去注册自己的地址及端口信息,注册中心维护着服务…

我觉得POC应该贴近实际

今天我看到一位老师给我一份测试数据。 这是三个国产数据库。算是分布式的。其中有两个和我比较熟悉,但是这个数据看上去并不好。看上去第一个黄色的数据库数据是这里最好的了。但是即使如此,我相信大部分做数据库的人都知道。MySQL和PostgreSQL平时拿出…

栈和队列初级题目(包含四个题)

目录 一、原题链接: 二、有效的括号: ​编辑代码实现: 三、用队列实现栈: 四、用栈实现队列: 五、设计循环队列: 六、读书分享: 一、原题链接: 20. 有效的括号 225. 用队列实…

机器学习-12-sklearn案例03-flask对外提供服务

整体思路 训练一个模型,把模型保存 写一个基于flask的web服务,在web运行时加载模型,并在对应的接口调用模型进行预测并返回 使用curl进行测试,测试通过 再创建一个html页面,接受参数输入,并返回。 目录结…

西湖大学英语听力考试音频无线发射系统-英语听力发射系统浅析

西湖大学英语听力考试音频无线发射系统-英语听力发射系统浅析 由北京海特伟业科技任洪卓发布于2024年5月10日 西湖大学,这所矗立于时代前沿的高等学府,始终秉持着创新精神和追求卓越的坚定信念,不断致力于教学质量的提升与学术研究的深化。其…

Sql Server 2016数据库定时备份

一、 配置备份计划任务 选中“维护计划“--右键--“维护计划向导” 完成

详解Python测试框架Pytest的参数化

🍅 视频学习:文末有免费的配套视频可观看 🍅 点击文末小卡片,免费获取软件测试全套资料,资料在手,涨薪更快 上篇博文介绍过,Pytest是目前比较成熟功能齐全的测试框架,使用率肯定也不…

一次完整的GC流程

Java堆中内存区分 Java的堆由新生代(Young Generation)和老年代(Old Generation)组成。新生代存放新分配的对象,老年代存放长期存在的对象。 新生代(Young)由年轻区(Eden&a…

语义分割——脑肿瘤图像分割数据集

引言 亲爱的读者们,您是否在寻找某个特定的数据集,用于研究或项目实践?欢迎您在评论区留言,或者通过公众号私信告诉我,您想要的数据集的类型主题。小编会竭尽全力为您寻找,并在找到后第一时间与您分享。 …

2024年首季:AGV项目大盘点,有过1亿的项目

导语 大家好,我是智能仓储物流技术研习社的社长,老K。专注分享智能仓储物流技术、智能制造等内容。 新书《智能物流系统构成与技术实践》 2024年第一季度,中国智慧物流行业迎来了一个重要的里程碑。 根据新战略移动机器人产业研究所的初步统计…

Numpy求最大、最小值、求累乘、累和

Numpy求最大、最小值 代码举例: ​ 输出结果为: ​ 在这个例子中,我们首先导入了NumPy库,然后创建了一个3x3的矩阵A。接着,我们使用np.max()函数来求矩阵A的最大值,并将结果存储在变量max_value中&#xff…

MyBatis——MyBatis入门程序

一、数据准备 二、开发步骤 1、引入依赖 <dependencies><dependency><groupId>org.mybatis</groupId><artifactId>mybatis</artifactId><version>3.5.15</version></dependency><dependency><groupId>c…

netty配置SSL、netty配置https(开发)

netty配置SSL、netty配置https&#xff08;开发&#xff09; 我们在开发下使用ssl&#xff0c;所用的证书将不被客户端信任。 转自&#xff1a;https://lingkang.top/archives/netty-pei-zhi-ssl 方案一 快速。使用netty提供的临时签发证书 private static SslContext sslC…

python实现背单词程序

欢迎关注我👆,收藏下次不迷路┗|`O′|┛ 嗷~~ 目录 一.前言 二.代码 三.使用 四.分析 一.前言 背单词是学习英语的一个重要环节,它有很多好处,以下是其中一些主要的好处: 提高词汇量

未授权访问:Memcached 未授权访问漏洞

目录 1、漏洞原理 2、环境搭建 3、未授权访问 防御手段 今天继续学习各种未授权访问的知识和相关的实操实验&#xff0c;一共有好多篇&#xff0c;内容主要是参考先知社区的一位大佬的关于未授权访问的好文章&#xff0c;还有其他大佬总结好的文章&#xff1a; 这里附上大…