大模型市场爆发式增长,但生成式AI成功的关键是什么?

进入2024年,大模型市场正在爆发式增长。根据相关媒体的总结,2024年1-4 月被统计到的大模型相关中标金额已经达到2023年全部中标项目披露金额的77%左右;其中,从项目数量来看,应用类占63%、算力类占21%、大模型类占13%、数据类占4%,而从金额看则是算力类占62.5%、应用类占37.2%,而大模型和数据类项目金融几乎可以忽略不计。

换言之,当前中国的大模型市场正在爆发,但主要的采购资金都投向了算力和应用,而数据类的项目采购资金接近于零。在2024年4月底的一场亚马逊云科技交流活动中,亚马逊云科技大中华区产品部总经理陈晓建强调,“企业需要的是懂业务、懂用户的生成式AI应用,而打造这样的应用需要从数据做起。”

自从整个市场卷起生成式AI浪潮后,亚马逊云科技作为全球第一大云厂商,与很多客户展开了大模型与生成式AI的合作,特别是将生成式AI用于生产业务中。通过深入生成式AI实践,亚马逊云科技的团队发现大模型并不是全部,真正想要发挥大模型的业务价值,数据是一个很重要能力——基础模型依赖于大规模高质量数据集,生成式AI的差异化优势来源于企业专有数据,生成式AI应用产生的大量新数据也需要及时有效地加以管理和利用。

首先,生成式AI基础模型微调和预训练需要将海量的多样化原始数据转化为高质量的大数据集,这对数据存储、清洗和治理提出了严峻挑战。Amazon S3、文件存储服务Amazon FSx for Lustre、Amazon EMR Serverless和Amazon Glue、Amazon DataZone等亚马逊云科技的数据服务,解决了从原始数据集到基础模型训练的数据存储、清洗和治理等三大挑战,构成了第一项关键的数据能力。

其次,生成式AI基础模型的局限性之一在于无法及时拥有企业专有数据,因此通过技术手段加速数据与模型的结合就是第二项关键的数据能力。检索增强生成(Retrieval-Augmented Generation,RAG)通过将数据转换为向量并存储到向量数据库中,将语义的关联性转化为向量间的数学距离问题,以实现内容的关联性计算。

亚马逊云科技已经在八种数据存储中添加了向量搜索功能,为生成式AI应用提供更高的灵活性。例如,亚马逊云科技专门构建了图数据库Amazon Neptune,并为其推出了分析数据库引擎,能够提升80倍的图数据分析速度,使用内置算法可在几秒钟分析数百亿个连接,通过将图和向量数据一起存储能够实现更快的向量搜索。

第三,生成式AI应用对基础模型的频繁调用,将导致成本的增加和响应的延迟,因此处理生成式AI应用新生成的数据、提升模型调用效率,是第三项关键的数据能力。Amazon Memory DB、Amazon OpenSearch Serverless等可有效帮助企业建立这方面的数据能力。

Amazon Music就通过Amazon OpenSearch将1亿首歌曲编码成向量并进行索引,为全球用户提供实时音乐推荐,Amazon Music目前在Amazon OpenSearch中管理着10.5亿个向量,能够处理每秒高达7,100次的查询峰值,有效支撑其推荐系统。

亚马逊云科技大中华区产品部总经理陈晓建表示:“亚马逊云科技构建数据基座的三大核心能力,涵盖从基础模型训练到生成式AI应用构建的重要场景,能够帮助企业轻松应对海量多模态数据,提升基础模型能力。亚马逊云科技正在帮助各个行业、各种规模的企业打造强健的数据基座,在确保用户业务和数据安全的前提下,将数据的独特价值赋予基础模型和生成式AI应用,加速企业业务增长。”

当前,中国大模型市场的采购主体是算力和应用,对于数据服务的采购接近于零,这为大模型和生成式AI的真正落地以及发挥实效带来了挑战。亚马逊云科技提出的生成式AI成功的三大关键数据能力,值得引起市场中大模型项目采购方的重视。相信在不久的未来,“无数据、不模型”将成为整个大模型与生成式AI市场的主旋律。(文/宁川)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3019477.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

交换机端口隔离

拓扑图 配置 port-isolate mode命令用来配置端口隔离模式。 缺省情况下,端口隔离模式为二层隔离三层互通。 端口隔离包括双向隔离和单向隔离。接口的单向隔离是指若在接口A上配置它与接口B隔离,则从接口A发送的报文不能到达接口B,但从接口…

MATLAB画图,重磅教程MATLAB的美图及强大的绘图功能|

目录 1.plot() 函数: 2.scatter() 函数: 3.histogram() 函数: 4.bar() 函数: 5.plot3() 函数: 6.imshow() 函数: 7.surf() 函数: 福利:免费送资料 MATLAB(Matrix…

【基于 PyTorch 的 Python深度学习】5 机器学习基础(1)

前言 文章性质:学习笔记 📖 学习资料:吴茂贵《 Python 深度学习基于 PyTorch ( 第 2 版 ) 》【ISBN】978-7-111-71880-2 主要内容:根据学习资料撰写的学习笔记,该篇主要介绍了机器学习的基本任务、机器学习的一般流程&…

第七章 TypeScript函数的介绍和使用

函数,一个再熟悉不过的话题了,之前几章里面我们也多次提到过,而且提到过各种各样的 TS 内和函数相关的内容今天,咱们来详细说一下函数内的各种详细内容的使用 文章目录 一、函数的可选参数二、函数内的虚拟 this三、函数的重载 一…

DInet

(1)数据: 1):随机获取5帧参考帧 2):处理这5帧连续帧,:source_frames:连续5帧的crop_moth b)audio_list:连续5帧的每一帧对应的5帧音频mel特征 c):refs:fintune 固定参考帧&#xff0…

懒洋洋作业讲解

懒洋洋作业讲解 环境配置 1.软件下载:DCloud - HBuilder、HBuilderX、uni-app、uniapp、5、5plus、mui、wap2app、流应用、HTML5、小程序开发、跨平台App、多端框架 2.软件介绍 HBuilder是由DCloud(数字天堂)推出的一款面向HTML5的Web开发…

【ArcGISPro】后台选项卡详解

添加后台选项卡 添加后的界面 文件变化 Config.daml修改内容对应文件详情 Classname就是我们在点击控件后具体执行的内容 BackstageTab1ViewModel与BackstageTab1 BackstageTabButton 1 执行效果 执行代码 读者直接往OnClick中添加执行的代码即可 尝试修改 代码 效果 Backs…

Java性能优化(一):Java基础-ArrayList和LinkedList

引言 集合作为一种存储数据的容器,是我们日常开发中使用最频繁的对象类型之一。JDK为开发者提供了一系列的集合类型,这些集合类型使用不同的数据结构来实现。因此,不同的集合类型,使用场景也不同。 很多同学在面试的时候&#x…

打破次元壁!Stable Diffusion将现实影像转成二次元动画,推特转赞10k+,网友:都可以重做《神奇宝贝》动漫了

破次元壁计划已启动! 就在最近,有网友分享了一个用Stable Diffusion打造二次元动画的工具,直接在网上爆火。 先快来看一波效果。 万物皆可妙化为二次元,耳机也可蜕变成小兔兔: 瞧!连易拉罐的拉环也化身成…

考研管理类联考(专业代码199)数学基础【3】函数、方程、不等式

一、函数 1.一次函数 y kx b(k≠0) 的图象及性质 2.二次函数y ax^2 bx c的图象和性质 3.指数函数y a^x ( a>0,且a≠1)的图象和性质 4.对数函数y logₐx ( a>0,且a≠1)的图象与性质 二、方程 1.一元…

开抖音小店需要交多少保证金?全类目选择,一篇了解

哈喽~我是电商月月 做抖音小店前大家都会搜索“入驻抖音小店需要准备什么东西?”其中就包含了一项:类目保证金的缴纳 那到底要交多少钱?很多新手朋友还是不太了解 今天我就给大家解答这个问题,首先,我们要知道抖店的…

Mybatis 源码分析

《黑马架构师_源码系列-主流框架&中间件》-- MyBatis (讲师:子慕) * 手写持久层框架-仿写mybatis * Mybatis架构设计&主要组件 * Mybatis如何完成的初始化? * Mybatis如何完成的sql解析及执行? * Mybatis如何设置的参数? * Mybat…

List的两种实现

前置知识: 数组 baseAddress:数组的首地址 dataTypeSize:数组中元素类型的大小,如int为4字节 为什么数组索引从0开始,假如从1开始不行吗? 在根据数组索引获取元素的时候,会用索引和寻址公式来计…

网络安全之DHCP详解

DHCP:Dynamic Host Configration Protocol 动态主机配置协议 某一协议的数据是基于UDP封装的,当它想确保自己的可靠性时,这个协议要么选确认重传机制,要么选周期性传输。 DHCP是确认重传,【UDP|DHCP】,当DHCP分配完地…

这个Python库Streamlit,5分钟内搭建可视化WEB应用

在数据科学的世界里,将分析结果快速、直观地呈现给非技术背景的决策者,是一项重要的技能。而Streamlit,这个开源的Python库,正是为此而生。它允许数据科学家和工程师通过少量的代码,快速创建和分享数据应用。今天&…

citylava:城市场景中VLMs的有效微调

citylava:城市场景中VLMs的有效微调 摘要IntroductionRelated WorkVision-Language ModelsVLMs in Driving Methodology CityLLaVA: Efficient Fine-Tuning for VLMs in City Scenario 摘要 在城市广阔且动态的场景中,交通安全描述与分析在从保险检查到事故预防的各…

QGraphicsItem的prepareGeometryChange 和 update方法区别

prepareGeometryChange 这个函数用于为图形的几何形状变化做准备。在改变一个项目的边界矩形之前调用此函数,以保持 QGraphicsScene 的索引是最新的。如果必要的话,prepareGeometryChange() 会调用 update()。QGraphicsScene认为所有图元的boundingRect…

一个圈圈的机制玩法

什么是一个圈圈,说白了就是一个撸广告的平台,只是引入了减产机制,九维机制和分成机制,再加上有央企背景,做的一个区块链平台。 玩法很简单,就是撸广告获取能量,然后获取绿色能量,等…

AI绘画Stable DIffusion 室内设计—普通人秒变精装设计师,轻松接单!

AI 绘画赚 300 块不算多,但只用了10分钟。 大家好,我是灵魂画师向阳 一直以来精装设计师对专业特别是美学的把握,是我们普通人无法启迪的。但是AI时代来了,普通人只要把房子毛坯的照片交给AI绘图工具,10分钟轻松就能…

区块链 | NFT 相关论文:Preventing Content Cloning in NFT Collections(三)

🐶原文: Preventing Content Cloning in NFT Collections 🐶写在前面: 这是一篇 2023 年的 CCF-C 类,本博客只记录其中提出的方法。 F C o l l N F T \mathbf{F_{CollNFT}} FCollNFT​ and Blockchains with Native S…