一文看尽:各大数据公司和 AI 结合进展

一、前言

前面给大家梳理了一下大数据领域领先厂商 snowflake 和 databricks 的最新进展,还挺受欢迎,都是大几千的阅读量。没有看过的可以翻看下面的链接:

大模型时代最懂数据的公司 databricks

snowflake 不再是个数据仓库公司了

应该说大数据公司和 AI 结合是理所应当,No Data No AI,接下来再完整梳理下常见的大数据公司和 AI 的进展,供大家参考,相信可以启发大家对这个行业有了解,对正在从事相关工作的同事肯定就更有帮助。

百度智能云云数据库,开启了特惠专场!热销规格新用户免费使用,欢迎参与!

二、先上总结

惯例,先给结论,详细的慢慢到来!

大数据厂商和大模型结合,大的分类可以分两类:

  • 一类是 AI fox BigData,利用大模型本身的能力改造已有的业务,从结合的深浅,可以分为解决方案层面宣传,简单叠加,以及深度改造。其中Palantir AIP 和帆软算结合的比较深入。

  • 一类是 BigData for AI,给大模型提供配套的工具链,基础设施等。分两大类,一类是做一些垂直领域的,比如做数据治理,数据提取或者提供向量能力。一类是提供比较全的工具链,如星环,databricks。星环甚至还切入了应用领域。

1、AI for BigData

1.1 解决方案层面宣传

1.1.1 科杰

和 AI 结合主要还是强调自身底座的数据能力可以支撑 AI,属于解决方案层面,没有看到具体的AI和产品结合的部分。

1.1.2 邦盛科技

专注实时数据处理,暂未看到和大模型结合的产品。

1.1.3 博睿数据

已有产品应用算力调度观测。(Bonree ONE可以对任务执行、算力调度过程、算力调优结果进行观测分析,以评估算力调度的可行性,为各类数字化应用提供稳定、高效的算力支持)。

1.2 简单叠加大模型能力

1.2.1 观远

chat2answer,通过问问题直接出答案。

智能化应用,帮助用户智能总结,智能决策。有点类似 AIP。

1.2.2 思迈特

AI for BI

对话式 BI ,提问直接出结果(表格,图表),看 demo 像是直接依赖大模型的能力。

对AI 的利用较浅,结合也不算深入。

1.2.3 永洪

能力类似chat2answer,做得比较浅。

1.3 深度改造已有产品

1.3.1 帆软

主要思路是 AI for BI,利用 AI 的能力深度改造当前 BI 产品线。(数据编辑,生成公式,生成图表,智能解读,智能美化等。

1.3.2 Palantir AIP

大模型能力和原有平台进行了深度融合,包括提供了决策能力等。(观远的智能化应用有点类似,但是观远应该做的比较浅)

2、BigData for AI

2.1 垂直领域产品赋能大模型

2.1.1 亿信华辰

AI 的能力融合到了BI 和数据治理两方面。

- AI for BI

- AI for 数据治理:智能关系构建,扫描敏感信息,智能映射元数据等。

2.1.2 Unstructured

做数据提取等工作,给 RAG 或者大模型 SFT 准备语料。

2.1.3 ES

提供向量能力,AI search。

2.2 提供基础大模型配套工具链

2.2.1 星环

- 发布知识平台,包括知识管理,语料清洗加工,大模型基础服务几部分。

- 其中语料清洗加工服务,支持20+主流文档格式、数据化学公式、复杂语料处理、语料自动标注及筛选、多视角体系化资产编目和数据治理等。

- 大模型运营平台,提供一站式大模型生产应用全流程开发工具链。

- 垂直领域问答产品(RAG+垂直领域知识),类似我们的 DBSC 包含了数据库知识

- 继续更新大数据平台,分布式数据库等。

2.2.2 Databricks

- 通过统一元数据,统一存储格式,开放的 data lake 架构解决数据治理的问题。

- 收购 moscaic ai 补齐 AI 全链条能力,数据平台和 AI 平台两者有融合的趋势(元数据打通)

AI4DB 深度结合产品,包括在编辑框,语法层面结合,不是简单的对话框。

三、各厂商详细说明

下面是各个厂商的一些更详细说明,没耐心的可以看上面的简介就够了,可以跳过到最后面。

3.1 帆软

  •  BI 厂商,收入 14.6 亿
  •  三个产品:FineReport(大屏,报表)、FineBI(敏捷 BI 产品)、简道云(低代码平台,在线表单,业务流程,仪表盘)
  •  推 AI for BI 概念

图片

FineChatBI,三大能力组件,五大 AI 价值场景,其中三大能力组件:

三大组件分别是数据编辑能力、模型构建能力、分析函数能力,在实现可视化能力和分析能力并行的同时,进一步降低数据分析的使用门槛。

五大 AI 价值场景:

  • 智能数据编辑,可以按照用户的描述进行数据编辑;
  • 智能生成公式,根据用户的问题,由AI撰写复杂的def函数或其他函数;
  • 智能生成图表:根据用户需求,生成图表;
  • 智能解读,将已有的分析结论,自动生成「分析文档」供阅读;
  • 智能美化,AI辅助进行仪表板布局、样式调整。

总结:主要思路是 AI for BI,利用 AI 的能力深度改造当前 BI 产品线。(数据编辑,生成公式,生成图表,智能解读,智能美化等)

3.2 思迈特

  • BI 厂商,主要能力:基于传统BI上的智能问数
  • 思迈特主要聚焦在BI能力层,项目实施中底层的数据治理基本都是与第三方合作,在传统数据治理方面可以合作
  • 提供对话式分析能力
  • 总结:对话式 BI ,提问直接出结果(表格,图表),看 demo 像是直接依赖大模型的能力。对AI 的利用较浅,结合也不算深入。

3.3 亿信华辰

BI 和数据治理厂商,两个产品:

首先是数据治理平台

  • 睿治-智能数据治理平台:十大产品模块可独立或组合使用,打通数据治理全过程,适应各类不同的数据治理场景应用。
  • 数据治理:在IDC发布的《中国数据治理市场份额,2022》报告中,蝉联数据治理解决方案市场份额第一。
  • AI 和数据治理的结合:
    1. 基于存储过程、SQL、数据库定义自动理解数据关系
    2. 智能扫描识别、标记敏感数据
    3. 内置常规数理统计算法,支持绑定机器学习算法

图片

国产化BI工具
  • 覆盖数据分析完整流程,提供从数据接入,到数据整合与处理、指标管理、再到数据分析和应用等一系列功能。
  • BI 里面加了 AI 的能力

图片

总结:AI 的能力融合到了 BI 和数据治理两方面。其中 AI for 数据治理包括智能关系构建,扫描敏感信息,智能映射元数据等

3.4 观远

BI 厂商,SaaS 化产品,相比帆软主要特点在易用性,底层数据引擎分布式能力,性能上有优势(帆软新版本也优化较大)

当前,观远数据已进入零售与消费、金融、高科技、互联网等近 10 个行业,标杆客户包括联合利华、LVMH、招商银行、宁波银行、安踏、元气森林、小红书、蜜雪冰城、扬子江药业、华润集团等 400 多家企业。

和 AI 结合,主要是观远数据 BI Copilot 和 智能化应用:帮助智能总结,智能决策,找出问题和预警。

其中智能化应用主要是内置一些 AI 算子,可以做智能预警,时序预测,趋势分析,归因分析,评分卡等功能(可能是小模型做的)。

图片

总结:chat2answer和 智能化应用(帮助用户智能总结,智能决策。有点类似 AIP)

3.5 永洪

  • 借助 LLM 智能,革新 SQL 查询与分析方式,自然语言交互零门槛,自动化优化性能,灵活处理复杂需求,高效完成数据分类、翻译等任务,助力企业实现深度洞察与决策提速。
  • 直接转成 SQL 查询,给结果,依赖大模型能力,能力比较弱。

3.6 星环

星环科技的定位从 Data Infra 进一步延伸到 AI Infra,为企业客户打造 AI 基础设施,打造从语料处理、模型训练、知识库建设等的一整套的工具链,帮助企业快速建立行业大模型,快速使用AIGC。

星环科技整合大数据、人工智能等技术,推出知识平台 Transwarp Knowledge Hub(TKH),为企业提供一个全面、高效、智能的数据处理和知识管理解决方案。

星环的知识平台 TKH 包括知识存储与服务、语料开发与知识构建、大模型基础服务等几个重要部分。

星环科技发布了一站式多场景语料平台 Transwarp Corpous Sudio(TCS),覆盖了语料获取、清洗、加工、治理、应用和管理的全生命周期,支持 20+ 主流文档格式、数据化学公式、复杂语料处理、语料自动标注及筛选、多视角体系化资产编目和数据治理等。

星环科技推出大模型运营平台 Transwarp Sophon LLMOps,提供一站式企业级大模型生产及应用全流程开发工具链,助力企业构建自己的专属大模型。

基于无涯大模型,星环知识平台 TKH 打造了无涯·问知、无涯·问数、无涯·金融、无涯·工程等AI原生应用,可应用于金融、能源、制造、工程等多个领域,通过数据分析和知识管理,满足企业不同类型的知识应用需求,提升企业业务效率和竞争力。

星环大数据云平台推出 TDC 5.0,将原来的多个 TDH 集群统一纳管,统管多个 TDH 集群,形成物理上分散、逻辑上统一的企业级一体化大数据平台。

星环科技推出了分布式交易型数据库 KunDB 4.0,高可用能力与Oracle兼容性提升,支持跨系统多租户部署。

星环大数据开发工具 TDS 4.0,增加了数据实时同步、数据入湖向导、智能化数据资产盘点、数据资产门户、数据服务编排等功能。

星环大数据安全与隐私保护工具软件 Transwarp Defensor 是星环科技自主研发的大数据安全与隐私保护安全管理平台,致力于帮助企业建设以数据为中心的数据安全防护体系。

星环数据要素流通平台 Transwarp Navier 通过提供隐私计算环境,使得数据供需双方可以进行安全的数据交易。而 Transwarp Navier 3.1 则新增了全链路智能合约确保安全合规、数据流通全链路行为监控与分析、实时告警与阻断等。

总结:

  • 发布知识平台,包括知识管理,语料清洗加工,大模型基础服务几部分。
  • 其中语料清洗加工服务,支持20+主流文档格式、数据化学公式、复杂语料处理、语料自动标注及筛选、多视角体系化资产编目和数据治理等。
  • 大模型运营平台,提供一站式大模型生产应用全流程开发工具链。
  • 垂直领域问答产品(RAG+垂直领域知识),类似我们的 DBSC 包含了数据库知识
  • 继续更新大数据平台,分布式数据库等

3.7 科杰

定位 dataops ,EDAP + BML + 数据标注 + 数据湖,具体产品和架构如下:

图片

和 AI 的关系,强调自身底座能力:加速 ChatGPT AI 大模型的商业化落地其底层逻辑离不开数据基础设施和数据能力的体系化建设。自主研发的云原生湖仓一体数据智能平台 KeenData Lakehouse,采用国际领先的湖仓一体架构重复分融合了数据湖和数据仓库各自的优势,实现一套数据、一套任务在湖和仓之上无缝调度和管理,面对不同行业的 AI 大模型 KeenData Lakehouse 提供数据集成、数据标注、数据算法、数据分析、数据治理等一站式数据底座能力。

总结:和 AI 结合主要还是强调自身底座的数据能力可以支撑 AI,属于解决方案层面,没有看到具体的 AI 和产品结合的部分。

3.8 邦盛科技

金融科技发家,专注大数据实时智能领域,主要产品

  • 流立方:大数据实时智能处理平台:
  • 图立方:实时图指标存算一体平台
  • 算立方:时序批式计算引擎
  • 数据实时加工平台 PipeACE
  • 三核决策平台:决策引擎
  • 设备指纹 Pro

总结:专注实时数据处理,暂未看到和大模型结合的产品。

3.9 博睿数据

博睿数据是一家专注于 IT 运维管理领域的企业,主要提供应用性能监测服务、销售应用性能监测软件及提供其他相关服务。

美国类似企业,2005 年起美国相继诞生了 Dynatrace、New Relic、Datadog 等企业,产品研发方向为一体化平台。

公司是国内 APM 领域龙头,已经连续三年市占率第一(20%)。

国际电信联盟(ITU)于 2023 年 12 月正式发布智能运维(AIOps)标准,博睿数据作为参编单位参与了该国际标准的制定

总结:和大模型结合的点,已有产品应用算力调度观测。Bonree ONE 可以对任务执行、算力调度过程、算力调优结果进行观测分析,以评估算力调度的可行性,为各类数字化应用提供稳定、高效的算力支持。

3.10 Databricks

理念上:要从通用智能到数据智能,从单独的大模型到 compound AI系统,大模型时代最懂企业数据的公司,坚持企业数据的价值。

  • 收购 Mosaic AI,从而实现从数据准备,模型构建,部署,评估,治理全链条有能力
  • data lake 支持 JSON,解决 string 效率不高,而大模型时代半结构化数据,稀疏数据大量新增,需要新的数据结构才能处理的问题。
  • 数据治理还是 AI 的难点。开放存储,开放访问,统一元数据是理想的架构

图片

  • 通过统一元数据的 metrics 实现业务到数据的映射,从而能理解业务数据

图片

  •  lakehouse monitoring 支持大数据,AI两个场景,说明 lakehouse 确实做的比较深入了

图片

  • 支持用自然语言修改代码,以及在 SQL 语句里面直接插入自然语言,向量的接口等。AI4DB 体验结合得比简单的对话框更自然。

图片

图片

总结:

- 通过统一元数据,统一存储格式,开放的 data lake 架构解决数据治理的问题。

-  收购 moscaic ai 补齐 AI 全链条能力,数据平台和 AI 平台两者有融合的趋势(元数据打通)

-  AI4DB 深度结合产品,包括在编辑框,语法层面结合,不是简单的对话框。

3.12 Unstructured

做 RAG,SFT 数据准备的:

类似的数据准备的开源产品还有很多,比如:

  • OmniParse
  • sparrow

总结:做数据提取等工作

3.13 ES

图片

AI Search产品,突出 serverless 能力,所以叫 datalake

3.14 Palantir AIP

Foundry/Gotham 中的 GenAI 能力开发平台,基于 AIP 开发的 GenAI 能力可以极大拓展Foundry/Gotham 中数据分析、决策制定的范围和场景,也拓展了用户与 Foundry/Gotham 的交互方式(自然语言交互)

Foundry/Gotham 原本只支持开发基于固定业务逻辑、统计算法、优化算法、传统 AI 模型等的分析和决策能力(如库存分配算法),这些算法和模型在语义分析方面相对较弱;引入 AIP,用户可以开发基于 LLM 的分析和决策能力(如提炼客户关切点),完成更多语义相关的分析和决策任务

总结:大模型能力和原有平台进行了深度融合,包括提供了决策能力等。(观远的智能化应用有点类似,但是观远应该做的比较浅)。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3227412.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

PHP工单预约表单系统小程序源码

🔧【高效办公新利器】工单预约表单系统大揭秘 💼【一键提交,工单管理新高度】 你还在为繁琐的工单提交流程头疼吗?工单预约表单系统,让你的工单管理步入高效时代!只需简单几步,填写必要信息&a…

关于气象探测设备的介绍

气象探测设备概述 气象探测设备是用于收集、记录和分析大气环境信息的专用工具。它们能够实时监测气温、湿度、气压、风速、风向、降雨量等多种气象要素,为天气预报、气候研究、农业生产和环境保护等领域提供重要数据支持。气象探测设备种类繁多,包括地…

昇思学习打卡-13-文本解码原理--以MindNLP为例

文章目录 搜索方法集束搜索(beam search)贪心搜索(greedy search) 采样池处理结果 一个文本序列的概率分布可以分解为每个词基于其上文的条件概率的乘积 搜索方法 集束搜索(beam search) Beam search通过在每个时间步保留最可能的 num_beams 个词,并从中最终选择出…

【网络安全】Oracle:SSRF获取元数据

未经许可,不得转载。 文章目录 前言正文漏洞利用 前言 Acme 是一家广受欢迎的播客托管公司,拥有庞大的客户群体。与许多大型运营公司一样,Acme 采用了Apiary的服务,使用户能够安全高效地管理他们的播客。 Apiary 于2017年初被Or…

【短小精悍】仅需6GB显存,你就可以跑起来清华智谱的ChatGLM-6B-Int4大模型

【短小精悍】仅需6GB显存,你就可以跑起来清华智谱的ChatGLM-6B-Int4大模型 版本环境一、序二、ChatGLM-6B-Int4大模型2.1 简介2.2 模型 三、运行环境3.1 下载模型3.2 下载环境3.3 下载代码 四、运行4.1 运行代码4.2 运行结果4.3 GPU使用情况 五、相关问题5.1 window…

Jenkins 构建 Web 项目:构建服务器和部署服务器分离, 并且前后端在一起的项目

构建命令 #!/bin/bash cd ruoyi-ui node -v pnpm -v pnpm install pnpm build:prod # 将dist打包成dist.zip zip -r dist.zip dist cp dist.zip ../dist.zip

(一)、python程序--模拟电脑鼠走迷宫

一、绪论 1、简介 电脑鼠走迷宫是一种比赛,制作实物电脑鼠小车在迷宫找目标点,用时最短者获胜。考验参赛选手软硬件结合的能力。 2、走迷宫模拟软件中已实现功能 1、点击迷宫墙壁可编辑迷宫,并且可保存和加载迷宫形状文件; 2、…

【记录】LaTex|LaTex 代码片段 Listings 添加带圆圈数字标号的箭头(又名 LaTex Tikz 库画箭头的简要介绍)

文章目录 前言注意事项1 Tikz 的调用方法:newcommand2 标号圆圈数字的添加方式:\large{\textcircled{\small{1}}}\normalsize3 快速掌握 Tikz 箭头写法:插入点相对位移标号node3.1 第一张图:插入点相对位移3.2 第二张图&#xff1…

MySQL CONCAT函数的简单使用

CONCAT函数用于将mysql中查询多列的值拼成一列显示, 使用示例: SELECT CONCAT(attr_name,":",attr_value) FROM pms_sku_sale_attr_value WHERE sku_id1; 上面SQL语句使用CONCAT函数将attr_name、attr_value两列的值拼成一列&am…

计算机组成原理:408考研|王道|学习笔记II

系列目录 计算机组成原理 学习笔记I 计算机组成原理 学习笔记II 目录 系列目录第四章 指令系统4.1 指令系统4.1.1 指令格式4.1.2 扩展操作码指令格式 4.2 指令的寻址方式4.2_1 指令寻址4.2_2 数据寻址 4.3 程序的机器级代码表示4.3.1 高级语言与机器级代码之间的对应4.3.2 常用…

非线性系列(三)—— 非线性求解器算法分类

1. 总体认知 CAE中的非线性方程组求解主要依赖牛顿法(及牛顿法的变体),步骤如下 以线搜索方法为例,流程如下: 2. 方法分类 适用范围大类小类描述牛顿法雅可比矩阵难获取拟牛顿法 Broyden(Secant method)、…

Linux基础指令解析+项目部署环境

文章目录 前言基础指令部署项目环境总结 前言 Linux的魅力在于其强大的可定制性和灵活性,这使得它成为了众多开发者和运维人员的首选工具。然而,Linux的指令系统庞大而复杂,初学者往往容易迷失其中。因此,本文将带领大家走进Linu…

【第27章】MyBatis-Plus之Mybatis X 插件

文章目录 前言一、安装指南二、核心功能1.XML 映射跳转2.代码生成3. 重置模板 三、JPA 风格提示四、常见问题解答1. JPA 提示功能无法使用?2. 生成的表名与预期不符? 五、代码生成模板配置1. 默认模板2. 重置默认模板3. 自定义模板内容3.1 实体类信息3.2…

前端JS特效第28集:JQuery电影选座插件

JQuery电影选座插件&#xff0c;先来看看效果&#xff1a; 部分核心的代码如下(全部代码在文章末尾)&#xff1a; <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">&l…

2024-07抖音/快手/小红书/视频号/美团无人直播技术:最新不封号无人直播的操作方法详细介绍

2024年最新研究出来的无人直播技术&#xff0c;目前不封号&#xff0c;用途大大的&#xff0c;可带货&#xff0c;可引流&#xff0c;可获客。 手机自动直播源码通常涉及到实时流媒体技术和应用开发&#xff0c;它涉及以下几个关键部分&#xff1a; 摄像头接入&#xff1a;使用…

YOLOv8改进 | 注意力机制| 利用并行子网络构建深度较浅但性能卓越的网络【全网独家】

秋招面试专栏推荐 &#xff1a;深度学习算法工程师面试问题总结【百面算法工程师】——点击即可跳转 &#x1f4a1;&#x1f4a1;&#x1f4a1;本专栏所有程序均经过测试&#xff0c;可成功执行&#x1f4a1;&#x1f4a1;&#x1f4a1; 专栏目录 &#xff1a;《YOLOv8改进有效…

[Spring] SpringBoot基本配置与快速上手

&#x1f338;个人主页:https://blog.csdn.net/2301_80050796?spm1000.2115.3001.5343 &#x1f3f5;️热门专栏: &#x1f9ca; Java基本语法(97平均质量分)https://blog.csdn.net/2301_80050796/category_12615970.html?spm1001.2014.3001.5482 &#x1f355; Collection与…

“LNMP环境搭建实战指南:从零开始配置CentOS 7下的Nginx、MySQL与PHP“

目录 1.前言 2.准备工作 2.1.环境信息 2.2.关闭SELinux和firewalld 3.安装Nginx 3.1.运行以下命令&#xff0c;安装Nginx 3.2.运行以下命令&#xff0c;查看Nginx版本 4.安装MySQL 4.1.更新秘钥 4.2.配置MySQL的YUM仓库 4.3.安装MySQL 4.4.查看MySQL版本 4.5.启动…

Let‘s Encrypt性价比最高的申请SSL证书

SSL/TLS证书作为确保网站数据传输安全性的重要手段&#xff0c;受到了广大网站运营者的青睐。然而&#xff0c;高昂的证书费用往往成为许多小型网站和个人博客的负担。 申请Lets Encrypt免费泛域名SSL证书步骤 1. 登录来此加密网站&#xff0c;输入域名&#xff0c;可以勾选泛…

二分查找算法【折半查找算法】

二分查找算法 二分查找算法&#xff0c;也称为折半查找&#xff0c;是一种在有序数组中查找特定元素的高效算法。它的工作原理是通过不断地将搜索区间减半来缩小目标值可能存在的范围&#xff0c;直至找到目标值或确定目标值不存在于数组中。二分查找的关键在于每次比较都能排…