为什么AI越来越像玄学

毫无疑问,AI大模型的发展已经超出了人类的理解能力,我们把大模型称之为“黑箱”,甚至因sora引起了大佬之间的舌战,有人认为sora懂物理世界,有人认为sora只会预测token,修改像素,但是为什么一个大模型能够操纵像素生成如此复杂场景的视频依然令双方费解。

在这里插入图片描述

机器学习的发展史

机器学习的发展史是一个漫长而多彩的过程,涉及了多个领域和技术的创新和应用。

  • 推理期(20世纪50-70年代初):这一时期的主要思想是认为只要给机器赋予逻辑推理能力,机器就具有智能。代表性的成果有A.Newell和H.Simon的“逻辑理论家”和“通用问题求解”程序,以及M.Minsky和S.Papert的《感知器》一书。
  • 知识期(20世纪70年代中期):这一时期的主要思想是认为要使机器具有智能,就必须设法使机器拥有知识。代表性的成果有E.A.Feigenbaum的“知识工程”和“专家系统”,以及T.Mitchell的“版本空间”算法。
  • 学科形成期(20世纪80年代):这一时期是机器学习正式成为一个独立学科领域并快速发展的时期,各种机器学习技术百花齐放。代表性的成果有决策树、神经网络、贝叶斯分类器、支持向量机、AdaBoost等。
  • 繁荣期(20世纪90年代至今):这一时期是机器学习得到广泛应用和认可的时期,统计学方法占主导,深度学习技术诞生并急速发展。代表性的成果有随机森林、梯度提升树、LSTM、卷积神经网络、强化学习等。
深度学习的发展史

神经网络的由来可以追溯到20世纪40年代,当时一些科学家提出了人工神经元的概念,模拟了生物神经元的结构和功能。1958年,Rosenblatt提出了感知器模型,是第一个能够进行学习和分类的神经网络。1969年,Minsky和Papert发表了《感知器》一书,指出了感知器的局限性,即只能处理线性可分的问题,不能处理异或等非线性问题。这导致了神经网络的第一次低潮。

1986年,Rumelhart等人提出了反向传播算法,使得多层神经网络可以通过梯度下降法进行有效的训练。这引发了神经网络的第二次高潮,出现了很多新的神经网络模型和应用,如Hopfield网络、玻尔兹曼机、自编码器、卷积神经网络等。但是,由于计算资源的限制,以及统计学习理论的发展,神经网络又逐渐被支持向量机等其他机器学习方法所取代。

2006年,Hinton等人提出了深度信念网络和贪婪逐层预训练的方法,成功地训练了一个深度神经网络,并在图像识别和语音识别等任务上取得了突破性的结果。 这开启了神经网络的第三次高潮,也就是深度学习的时代。随着计算能力的提升,数据量的增加,优化算法的改进,以及网络结构的创新,深度神经网络在各个领域都展现出了强大的性能和潜力,如图像生成、自然语言处理、强化学习等。
在这里插入图片描述

为什么深度学习能够一骑绝尘

深度学习神经网络能够在许多机器学习任务中取得优异的表现,主要有以下几个原因:

  • 深度学习神经网络可以自动从数据中学习到合适的特征表示,而不需要人工设计或选择特征,这样可以减少人为的偏见和误差,提高模型的泛化能力和适应性。
  • 深度学习神经网络可以利用多层的非线性变换,来拟合复杂的函数关系,表达更高层次的抽象概念,捕捉数据的内在结构和规律。
  • 深度学习神经网络可以处理高维的数据,如图像、语音、文本等,而不需要降维或压缩,这样可以保留数据的完整性和信息量,提高模型的精度和效率。
  • 深度学习神经网络可以利用大量的数据和计算资源,来训练更大规模的模型,从而提升模型的性能和能力。
  • 深度学习神经网络可以借鉴和模仿人类的认知和学习机制,如注意力、记忆、迁移、元学习等,来实现更智能和灵活的机器学习。

当然,深度学习神经网络并不是万能的,也有一些局限和挑战,如训练难度、理解性、鲁棒性、可信度等,需要不断地探索和优化。

神经网络AI大模型难以理解

神经网络AI大模型难以理解的原因有以下几点:

  • 神经网络AI大模型通常包含了海量的参数和层次,其内部的运算和信息流动非常复杂,难以用直观的方式来解释。
  • 神经网络AI大模型的训练过程涉及了很多随机性和不确定性,如初始化、正则化、优化器、批量归一化等,这些都会影响模型的行为和输出,但很难量化和控制。
  • 神经网络AI大模型的学习能力往往超越了人类的认知范围,它们可以从大量的数据中提取出隐含的特征和规律,但这些特征和规律可能并不符合人类的常识和逻辑,或者无法用人类的语言来表达。
  • 神经网络AI大模型的输出往往缺乏可靠性和可信度,它们可能会产生错误的、不一致的、不可解释的、甚至有害的结果,但却没有给出相应的置信度或原因。
AI大模型优化越来越像玄学

大模型优化是指在训练大规模的深度学习模型时,如何选择合适的超参数、优化器、损失函数、正则化方法等,以提高模型的性能和泛化能力。大模型优化有时被称为玄学,是因为它往往缺乏统一的理论指导,而需要依赖经验、直觉、实验等,而且不同的模型和数据集可能需要不同的优化策略,很难找到一个通用的最优解。

大模型优化的难度和复杂度也随着模型规模的增长而增加,因为大模型往往涉及更多的参数、更大的数据量、更高的计算资源和更长的训练时间,这些都会给优化带来挑战。 例如,大模型可能会遇到梯度消失、梯度爆炸、过拟合、欠拟合、局部最优等问题,需要采用一些特殊的技巧和方法来解决,如学习率衰减、动量法、批量归一化、残差连接、注意力机制、数据增强、模型蒸馏、知识蒸馏等。

大模型优化的目标是找到一个能够在给定的数据集和任务上达到最佳性能的模型,但是这个目标并不容易实现,因为模型的性能受到多种因素的影响,如模型结构、数据质量、训练方法、评估指标等,而这些因素之间又存在着复杂的相互作用和依赖关系。 因此,大模型优化需要不断地尝试、调整、评估和改进,而这个过程往往没有固定的规则和步骤,而是需要根据具体的情况和目的来灵活地进行。

总之,大模型优化是一门既有科学性又有艺术性的学问,它需要结合理论和实践,运用创造力和逻辑思维,不断地探索和优化,才能找到最适合的模型和方法。 这也是为什么大模型优化有时被人们戏称为玄学,因为它往往需要一些不可预测和不可复制的因素,如灵感、直觉、运气等,而这些因素很难用科学的方法来解释和验证。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/2809133.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

算法练习-组合总和【回溯算法】(思路+流程图+代码)

难度参考 难度:困难 分类:回溯算法 难度与分类由我所参与的培训课程提供,但需 要注意的是,难度与分类仅供参考。且所在课程未提供测试平台,故实现代码主要为自行测试的那种,以下内容均为个人笔记&#xff0…

软件测试人员的基本功包括些什么?

软件测试人员的基本功包括哪些呢?接下来该问题的阐述结构如下: 1、一看软件测试基本流程 2、明确软件测试的基本功有哪些 3、如何牢固掌握这些基本功 软件测试基本流程 上图就是软件测试的基本流程 1)需求评审 2)计划编写 …

stm32利用CubeMX实现外部中断触发数码管加减数

首先打开proteus绘制电路图,如下: 然后打开CubeMX,配置晶振和GPIO: 接下来就是生成keil工程文件,用keil打开。 新建一个desplay.h文件:下面是全部代码 #ifndef __DESPLAY_H #define __DESPLAY_H #endif#i…

【C++】多态概念(入门)

介绍: 多态的概念:通俗来说,多态就是多种形态,具体点就是去完成某个行为,当不同的对象去完成时会产生出不同的状态。比如扫红包操作,同样是扫码动作,不同的用户扫 得到的不一样的红包&#xff0…

五.AV Foundation 视频播放 - 标题和字幕

引言 本篇博客主要介绍使用AV Foundation加载视频资源的时候,如何获取视频标题,获取字幕并让其显示到播放界面。 设置标题 资源标题的元数据内容,我们需要从资源的commonMetadata中获取,在加载AVPlayerItem的时候我们已经指定了…

03|JOIN关联查询优化

1. mysql关联算法 1.1 嵌套循环连接 Nested-Loop Join(NLJ) 算法 先去t2表(驱动表)拿一行数据,然后去t1表(被驱动表)做关联, 关联之后把结果集存下来最后返回. 1.2 基于块的嵌套循环连接 Block Nested-Loop Join(BNL)算法 1.把 t…

Vulnhub靶机:DC8

一、介绍 运行环境:Virtualbox 攻击机:kali(10.0.2.15) 靶机:DC8(10.0.2.61) 目标:获取靶机root权限和flag 靶机下载地址:https://www.vulnhub.com/entry/dc-8,367/…

Linux字符设备驱动中同类型多设备节点的创建---一个驱动程序支持多个同类型设备

文章目录 前言1 代码解析1.1 驱动层1.2 应用层 2 运行结果总结 前言 本期分享的内容相对比较简单,那就是同时注册多个同类型的字符设备驱动,那么这样我们就可以同时支持多个同类型的设备了!下面来带大家看一下: 1 代码解析 1.1 …

基于springboot+vue的精准扶贫管理系统(前后端分离)

博主主页:猫头鹰源码 博主简介:Java领域优质创作者、CSDN博客专家、阿里云专家博主、公司架构师、全网粉丝5万、专注Java技术领域和毕业设计项目实战,欢迎高校老师\讲师\同行交流合作 ​主要内容:毕业设计(Javaweb项目|小程序|Pyt…

从Unity到Three.js(outline 模型描边功能)

指定模型高亮功能,附带设置背景颜色,获取随机数方法。 百度查看说是gltf格式的模型可以携带PBR材质信息,如果可以这样,那就完全可以在blender中配置好材质导出了,也就不需要像在unity中调整参数了。 import * as THRE…

Autosar 开篇

背景 AUTOSAR(Automotive Open System Architecture)是一个跨汽车行业的标准化软件架构,旨在促进汽车电子系统的开发和部署。下面是AUTOSAR发展的一些关键点: 起源和背景: AUTOSAR最初于2003年由汽车制造商宝马、戴姆…

使用GPT生成python图表

首先,生成一脚本,读取到所需的excel表格 import xlrddata xlrd.open_workbook(xxxx.xls) # 打开xls文件 table data.sheet_by_index(0) # 通过索引获取表格# 初始化奖项字典 awards_dict {"一等奖": 0,"二等奖": 0,"三等…

MCU多核异构通信原理

摘要: 本文结合瑞萨RZ/G2L 多核处理器,给大家讲述一下多核异构设计及通信的原理。 随着电子技术的不断发展,以及市场需求的日益增长,嵌入式系统不仅要求执行复杂的控制任务,还需要实时地采集和处理数据。 为了满足这…

HarmonyOS开发行业前景就业分析与实例解析

HarmonyOS的简介 鸿蒙系统(HarmonyOS)是华为公司自主研发的一种全场景分布式操作系统,旨在为各种设备提供统一的开发和运行环境。它的编程基础主要建立在多种技术和语言之上,包括鸿蒙系统的核心框架和应用程序开发框架。 本章将…

Easy-Jmeter: 性能测试平台

目录 写在开始1 系统架构2 表结构设计3 测试平台生命周期4 分布式压测5 压力机管理6 用例管理6.1 新增、编辑用例6.2 调试用例6.3 启动测试6.4 动态控量6.5 测试详情6.6 环节日志6.7 实时数据6.8 测试结果 7 测试记录7 用例分析8 系统部署8.1普通部署8.2容器化部署 写在最后 写…

【技术分享】使用nginx完成动静分离➕集成SpringSession➕集成sentinel➕集成seata

🥳🥳Welcome 的Huihuis Code World ! !🥳🥳 接下来看看由辉辉所写的关于技术点的相关分享吧 目录 🥳🥳Welcome 的Huihuis Code World ! !🥳🥳 一、 使用nginx完成动静分离 1.下载…

【数据集】世界水评估方案指标:灌溉面积/灌溉用水等

世界水评估方案指标 概述(Overview)数据下载(Data Download)案例1:F. Irrigated lands案例2:G. Irrigated water use参考World Water Development Report II-Indicators for World Water Assessment Programme 概述(Overview) 在关于全球环境变化和可持续发展的辩论…

微信小程序(1)- 小程序开发工具

1. 小程序开发工具下载 地址:官网 微信小程序账号只要开发者满足开发资质都可以进行注册,并且会获得对应的 开发者 ID。一个完整的开发者 ID 由 小程序 ID(AppID)和一个 小程序密钥(AppSecret)组成。小程…

JAVA算法和数据结构

一、Arrays类 1.1 Arrays基本使用 我们先认识一下Arrays是干什么用的,Arrays是操作数组的工具类,它可以很方便的对数组中的元素进行遍历、拷贝、排序等操作。 下面我们用代码来演示一下:遍历、拷贝、排序等操作。需要用到的方法如下 public…

嵌入式学习第二十天!(进程)

进程基本概念: 1. 进程: 程序:存放在外存中的一段数据组成的文件 进程:是一个程序动态执行的过程,包括进程的创建、进程的调度、进程的消亡 2. 进程相关命令: 1. top: 动态查看当前系统中的所有进程信息…