CVPR`24 | 4D编辑哪家强?浙大首次提出通用指导4D编辑框架:Instruct 4D-to-4D

文章链接:https://arxiv.org/pdf/2406.09402
项目地址:https://immortalco.github.io/Instruct-4D-to-4D/

今天和大家一起学习的是Instruct 4D-to-4D,可以通过2D扩散模型实现4D感知和时空一致性,以生成高质量的指令引导的动态场景编辑结果。

传统的2D扩散模型在动态场景编辑中的应用通常会导致不一致,主要原因在于其固有的逐帧编辑方法。为了解决将指令引导的编辑扩展到4D的复杂性,本文的关键洞察是将4D场景视为伪3D场景,解耦为两个子问题:在视频编辑中实现时间一致性,并将这些编辑应用于伪3D场景。基于此,本文首先通过引入anchor感知注意模块来增强Instruct-Pix2Pix (IP2P)模型,以实现批处理和一致性编辑。

此外,本文还在滑动窗口模式下集成了光流引导的外观传播,以实现更精确的逐帧编辑,并结合基于深度的投影来管理伪3D场景的大量数据,随后通过迭代编辑实现收敛。本文在各种场景和编辑指令中对文中的方法进行了广泛评估,结果表明其在空间和时间上一致性方面表现出色,并且在细节和清晰度上显著提升。值得注意的是,Instruct 4D-to-4D具有通用性,适用于单目和具有挑战性的多摄像头场景。

介绍

通过渲染合成逼真的新视角图像,神经辐射场(NeRF)及其变体已经成为3D甚至4D动态场景的主要神经表示方法。除了仅仅表示现有场景之外,越来越多的人对通过场景编辑从原始场景创建新的、多样化的场景产生了兴趣。对于用户来说,最方便和直接的方式来传达场景编辑操作是通过自然语言——这一任务被称为指令引导的编辑。

在2D图像任务中,已经通过2D扩散模型,即 Instruct-Pix2Pix (IP2P)取得了成功。然而,将这一能力扩展到以NeRF表示的3D或4D场景却面临显著挑战。困难在于NeRF表示的隐式特性,缺乏直接修改参数以实现目标方向的方式,同时在新维度中出现的复杂性也大大增加。最近,在指令引导的3D场景编辑方面取得了显著进展,例如Instruct-NeRF2NeRF (IN2N)。IN2N通过从2D扩散模型(如IP2P)蒸馏来实现3D编辑,即生成经过IP2P编辑的多视图图像,并将它们拟合到NeRF表示的场景中。由于扩散模型生成结果的高度多样性,IP2P可能会产生多视图不一致的图像,同一对象在不同视图中的外观可能会不同。因此,IN2N通过在NeRF上进行训练来整合结果,使其收敛到“平均”编辑结果,这在理论上是合理的,但在实践中往往会遇到挑战。

将编辑任务从3D进一步扩展到4D,引入了基本的困难。在超出3D场景的额外时间维度中,不仅需要每帧3D场景切片的3D空间一致性,还需要不同帧之间的时间一致性。值得注意的是,由于最近的4D NeRF模型对场景中每个绝对3D位置的特性进行建模,而不是单个对象的运动,因此不同帧中的同一对象并非由相同的参数建模。这种偏差阻碍了NeRF通过拟合不一致的多视图图像实现空间一致性,使得IN2N流程无法有效地在4D场景上执行编辑。

本文引入了Instruct 4D-to-4D,是在指令引导的4D场景编辑中首次尝试,克服了上述问题。本文的关键洞察是将4D场景视为伪3D场景,其中每个伪视图是一个视频,包含了同一视角的所有帧。随后,对伪3D场景的任务可以以类似于真实3D场景的方式进行处理,分解为两个子问题:1)为每个伪视图实现时间一致的编辑,2)使用第(1)步中的方法编辑伪3D场景。然后,我们可以用视频编辑方法解决(1),并利用蒸馏引导的3D场景编辑方法解决(2)。

本文特别利用了一种anchor感知注意力模块来增强IP2P模型。在本文的模块中,“anchor”是一对图像及其编辑结果,作为IP2P生成的参考。增强后的IP2P现在支持批量输入多个图像,并且IP2Ppipeline中的自注意力模块被替换为针对本批次anchor图像的交叉注意力机制。因此,IP2P基于当前图像与anchor图像之间的相关性生成编辑结果,确保在该批次内进行一致的编辑。然而,注意力模块可能无法始终正确关联不同视图中的对象,从而引入潜在的不一致性。

为此,本文进一步提出了一种光流引导的滑动窗口方法来促进视频编辑。利用RAFT为每帧预测光流,以建立相邻帧之间的像素对应关系。这使能够将一个帧的编辑结果传播到下一个帧,类似于一种扭曲效果。结合增强的IP2P和光流技术,本文可以按时间顺序编辑视频,通过分段处理帧并在每个段落应用编辑,同时将编辑效果传播到下一个段落。这个过程涉及利用光流来初始化基于前几帧的编辑,然后使用增强的IP2P,其中前一个段落的最后一帧作为anchor。

在处理包含大量视角的4D场景时,每个视角的计算成本很高。 为了解决这个问题,本文采用了受ViCA-NeRF 启发的策略,基于关键视角来编辑伪3D场景。首先随机选择关键伪视角,并使用前面提到的方法进行编辑。然后对于每一帧,采用基于深度的投影将关键视角的结果扭曲到其他视角,并利用加权平均来聚合外观信息,从而获得所有帧的编辑结果。鉴于4D场景的复杂性,本文应用IN2N的迭代编辑过程,以逐步生成编辑后的帧并在编辑后的帧上拟合NeRF,直到场景收敛为止。

本文进行了广泛的实验,涵盖单目和多摄像头动态场景,验证了文中方法的有效性。评估结果显示,本文的方法在实现更锐利的渲染结果和显著增强的细节方面具有显著能力,并且在4D编辑中保证了空间-时间一致性(见下图1)。

本文的贡献主要体现在三个方面:

  • 引入了Instruct 4D-to-4D,这是一个简单而有效的框架,通过从2D扩散模型的蒸馏来将4D场景作为伪3D场景进行指导编辑;

  • 提出了基于anchor感知的IP2P和光流引导的滑动窗口方法,实现了对任意长度的长视频或伪视角的高效和一致的编辑;

  • 借助所提出的方法,开发了一个pipeline来迭代生成完整和一致编辑的数据集,在各种任务中实现了高质量的4D场景编辑。本文的工作是首次探索和解决通用指导4D场景编辑的任务,为这一有前景的领域奠定了基础。

方法

本文提出了Instruct 4D-to-4D,这是一个新颖的pipeline,通过从Instruct-Pix2Pix (IP2P) 中提炼来编辑4D场景,IP2P是一种强大的2D扩散模型,支持指导图像编辑。本文方法的基本思想源于ViCA-NeRF,这是一种基于关键视角的编辑方法。将4D场景视为伪3D场景,其中每个伪视角是多帧视频,本文应用基于关键视角的编辑方法,分为两个步骤:关键伪视角编辑和从关键伪视角传播到其他视角,如下图2所示。本文提出了几个关键组件,在这些步骤中强化和实现空间和时间一致性,生成4D一致的编辑结果。

基于anchor的IP2P用于一致的批量生成

批量生成与伪3D卷积。将伪视图的编辑过程视为编辑视频。因此,在编辑每帧时,需要强制实现时间上的一致性。受到之前视频编辑工作的启发,本文在IP2P中一起编辑一批图像,并增强IP2P中的UNet,使其在生成时考虑整个批次。本文将其 的2D卷积层升级为 的3D卷积层,通过重复使用原始的卷积核参数。

基于anchor感知的注意力模块。受限于GPU内存,本文无法一次性编辑伪视图的所有帧,需要将生成过程分成多个批次。因此,保持批次之间的一致性至关重要。借鉴于Tune-a-Video 的思路,本文不是从头开始生成新批次的编辑结果,而是允许模型参考一个在所有生成批次中共享的anchor帧,及其原始和编辑后的版本,以将编辑风格从anchor帧“传播”到新的编辑批次。通过将IP2P中的自注意力模块替换为针对anchor帧的交叉注意力模型,能够在当前图像和anchor图像之间建立连接,通过模仿anchor的风格生成新的编辑图像,从而延续anchor的一致编辑风格。值得注意的是,本文使用anchor注意力IP2P与Tune-a-Video有所不同,后者在当前帧和上一帧之间查询交叉注意力而非anchor帧。我们的设计还进一步促进了下面章节的修复过程,该过程也需要集中关注当前帧的现有部分。

有效性。下图3展示了不同版本的IP2P生成结果。原始的IP2P编辑所有图像时存在不一致性,即使是同一个批次中的图像也有不同的颜色分布。通过引入anchor感知注意力层,IP2P能够将整个批次作为一个整体生成,因此在同一个批次内生成一致的编辑结果。然而,它仍然无法在不同批次之间生成一致的图像。采用相同anchor图像跨批次参考的全面anchor感知IP2P能够为所有6个图像在2个批次中生成一致的编辑结果,这表明即使没有额外训练,anchor感知IP2P也能够实现一致的编辑结果。

光流引导滑动窗口方法用于伪视图编辑

光流作为4D Warping。为了确保伪视图的时间一致性,本文需要在不同帧之间找到像素的对应关系。传统的3D场景编辑方法(如ViCA-NeRF、RAFT)利用基于深度的Warping来找到不同视角之间的对应关系,使用NeRF预测的深度和相机参数进行确定性Warping。然而,在4D中,没有这样明确的方法。因此,本文使用光流估计网络RAFT来预测光流,其格式为每个像素的2D运动向量,可以推导出另一帧中的对应像素。利用RAFT,本文能够在相邻帧之间进行像素的Warping,就像在3D中一样。由于每个伪视图都是在固定的摄像机位置拍摄的,光流能够很好地完成这项任务。

滑动窗口方法。本文借鉴了视频编辑方法的思想来编辑伪视图。然而,这些方法主要专注于短视频,并通过在单个批次中编辑所有帧来进行视频编辑,因此无法处理长视频。因此,本文提出了一种新颖的滑动窗口(宽度为 ,即最大允许的批处理大小)方法,利用了基于anchor的IP2P和光流。如上图2(a)所示,对于当前包含 个图像的窗口,例如帧 、、、,我们首先通过4D Warping逐一将帧 的编辑结果传播到所有这些 个图像上。对于未匹配的像素,即对应于帧 中遮挡部分的像素,本文将它们的值设置为其原始值,从而获得原始和Warping后编辑图像的融合图像。

接着,类似于ViCA-NeRF中的思路,本文使用IP2P对滑动窗口中每个视角的融合图像进行修补和再绘制,通过向融合图像添加噪声,并使用IP2P进行去噪,使生成的编辑图像在Warping结果上遵循相似的模式,同时重新绘制整个图像使其看起来自然合理。为了确保整个伪视图的风格一致,本文使用第一帧作为所有窗口共享的anchor,这样模型将以类似第一个视角的一致风格生成图像。由于一个伪视图的摄像机位置固定,不同帧之间有许多共同的物体,因此这种方法非常有效,能够为窗口中的帧生成一致的编辑结果。

完成当前窗口的编辑后,本文将窗口向前移动 帧。因此,对于总共 帧的伪视图,本文的Instruct 4D-to-4D只需要调用 IP2P 次。通过缓存同一视角相邻帧之间的光流预测,本文可以高效实现时间一致的伪视图编辑。

基于Warping的伪视图传播

生成第一帧图像。由于本文需要将编辑后的伪视图传播到所有其他视图并确保空间一致性,因此在所有关键伪视图中以一种空间一致的方式编辑第一帧非常重要 - 它们不仅用于启动当前伪视图的编辑,还用作所有后续生成的anchor或参考。因此,本文首先在任意一个关键伪视图中编辑一帧作为第一帧,然后使用本文的anchor感知IP2P与其一起作为anchor来生成其他第一帧。通过这种方式,所有第一帧都以一致的风格进行编辑,这对于编辑关键伪视图是一个良好的起点。

从关键视图传播到其他视图。在编辑关键伪视图之后,类似于ViCA-NeRF 的方法,本文将它们的编辑结果传播到所有其他关键视图。ViCA-NeRF使用基于深度的空间Warping来从同一时间步的另一个视图Warping图像,而本文还提出了基于光流的时间Warping,从同一视图的前一帧进行Warping。通过这两种类型的Warping,本文可以从多个来源Warping编辑后的图像。

本文按时间顺序逐步传播每个时间步骤。在时间步骤 进行传播时,对于每个视图 上的帧 ,本文将其编辑版本作为两个来源Warping结果的加权平均值:(1) 使用时间Warping从同一视图的前一帧 的编辑结果;以及 (2) 使用空间Warping从一个关键视图中当前帧的编辑结果。通过对所有时间步骤进行帧的传播,本文得到一个包含所有编辑帧的一致性编辑数据集。本文使用这样的数据集来训练NeRF朝向编辑结果。 通过这种传播方法,本文能够在 个耗时的 IP2P 生成中高效地生成一整套一致编辑的帧数据集,其中 为所有 个伪视图中的关键伪视图数,在本文的实验中 n = 5,而 V 可能超过20。这种高效性使得本文能够部署一个迭代的pipeline来更新数据集。

整体编辑 pipeline

迭代式数据集更新。借鉴 IN2N 的思想,本文在基准方法上应用迭代式数据集替换,使用文中的方法重复生成完整的数据集,并在其上适配本文的NeRF。在每次迭代中,本文首先随机选择几个伪视图作为这次生成中的关键视图。本文使用文中的方法为所有这些关键伪视图的第一帧生成空间一致的编辑结果,然后使用滑动窗口方法来传播这些编辑结果到所有伪视图。在获得所有编辑的关键伪视图后,本文再次使用文中的方法为所有其他伪视图生成空间和时间上一致的编辑结果,最终得到一个一致的编辑数据集。本文用这个编辑过的数据集替换原始的4D数据集,并在其上适配NeRF模型。

通过并行化和退火策略提高效率。在本文的pipeline中,NeRF只需要在数据集上进行训练并提供当前的渲染结果,而IP2P只需要根据NeRF的渲染结果生成新的数据集 - IP2P和NeRF之间几乎没有依赖和交互。因此,本文通过在两个GPU上异步运行这两部分来并行化pipeline。在第一个GPU上,持续训练NeRF并在渲染缓冲区中缓存NeRF的渲染结果;而在第二个GPU上,应用本文的迭代数据集生成pipeline来生成新的数据集,使用来自渲染缓冲区的图像,并更新用于训练NeRF的数据集。通过最小化交互,最大化了并行化,从而显著减少了训练时间。

另一方面,为了改善生成结果和收敛速度,本文采用了来自HiFA 的退火技巧来对NeRF进行精细编辑。高层次的思路是使用噪声水平来控制渲染结果与IP2P编辑结果的相似性。本文在高噪声水平下生成数据集,以生成充分编辑的结果,然后逐渐退火噪声水平,使其与NeRF正在收敛到的编辑结果保持一致,并进一步细化这些结果。与IN2N总是在随机噪声水平下生成不同,本文的Instruct 4D-to-4D 能够快速收敛到高质量的编辑结果。

通过这两种技术,本文的Instruct 4D-to-4D能够在几个小时内编辑一个包含20个视图和数百帧的大规模4D场景。

实验

编辑任务和NeRF主干。本文用于评估的4D场景是通过单手持相机和多相机阵列捕捉的,包括:(I) DyCheck 和 HyperNeRF 中的单目场景,这些是简单的、以物体为中心的场景,使用单个移动相机;(II) DyNeRF/N3DV 中的多相机场景,包括具有面向前方视角和人类运动结构的室内场景。对于单目场景,本文将所有帧视为单个伪视图进行编辑。本文使用NeRFPlayer 作为NeRF主干,以生成高质量的4D场景渲染结果。

基线方法。Instruct 4D-to-4D是首个致力于指导式4D场景编辑的工作。以前没有研究专注于相同的任务,而唯一类似的工作Control4D 尚未发布其代码。因此,无法与现有方法进行基线比较。为了展示本文的Instruct 4D-to-4D的有效性,本文构建了一个基线方法IN2N-4D,将IN2N 平稳地扩展到4D,它会迭代地生成一个编辑过的帧并将其添加到数据集中。本文定性和定量地比较Instruct 4D-to-4D与IN2N-4D的结果。为了量化结果,由于本文的pipeline的模型都在使用生成的图像训练NeRF,本文使用传统的NeRF 指标来评估结果,即在IP2P生成的图像(从纯噪声生成,因此不会依赖于NeRF的渲染图像)与NeRF的渲染结果之间的PSNR、SSIM和LPIPS。本文在补充材料中进行了Instruct 4D-to-4D各个变体的消融研究。

定性结果。本文的定性结果显示在图下6、下图5和下图4中。与基线方法IN2N-4D的定性比较如下图5和下图6所示。如下图5所示,在将单目场景中的猫变成狐狸的任务中,IN2N-4D生成模糊的结果,并出现多个人工痕迹:多个耳朵、多个鼻子和嘴巴等。而本文的Instruct 4D-to-4D生成了逼真的结果,狐狸的形状与原始场景中的猫非常吻合,毛发上有清晰的纹理,没有任何痕迹。

这些结果表明,本文的anchor-aware IP2P、基于光流的Warping和滑动窗口方法用于伪视图编辑,能够产生伪视图的时间一致性编辑结果。相比之下,IN2N-4D中原始的IP2P生成了每帧不一致的编辑图像,最终导致了4D NeRF上的奇怪结果。下图6展示了多摄像头场景上的风格转移结果。本文并行化的Instruct 4D-to-4D在短短两小时内实现了一致的风格转移结果,而IN2N-4D则需要比本文的Instruct 4D-to-4D长24倍的时间,仍无法使4D NeRF收敛到指定的风格。这表明,4D场景编辑具有极高的难度,而本文 Instruct 4D-to-4D通过迭代生成完整的编辑数据集的策略,实现了高效的编辑。所有这些结果共同显示,本文设计的Instruct 4D-to-4D是合理且有效的,能够以非常高效的方式生成高质量的编辑结果。

上图5的实验展示了单目场景mochi-high-five在不同指令下的表现,包括对猫的局部编辑,以及整个场景的风格转移指令。本文的Instruct 4D-to-4D在Fox和Tiger指令下实现了逼真的局部编辑结果,如虎纹的清晰和一致。在风格转移指令下,编辑后的场景忠实地反映了指定的风格。这些结果展示了Instruct 4D-to-4D在各种指令下编辑单目场景的出色能力。

上图4的实验展示了其他风格转移结果,包括HyperNeRF和DyCheck中的单目场景,以及DyNeRF中的多摄像头场景。Instruct 4D-to-4D始终以高保真度展现各种风格的风格转移结果,颜色明亮,外观清晰。

定量比较。本文在多摄像头咖啡马提尼场景上对文中的Instruct 4D-to-4D和基线方法IN2N-4D进行了量化比较,结果见下表1。与定性比较结果一致,本文的Instruct 4D-to-4D显著且一致地优于基线方法IN2N-4D。这表明,由Instruct 4D-to-4D训练的NeRF比基线方法更好地适应了IP2P生成的编辑结果,进一步验证了本文Instruct 4D-to-4D的有效性。

消融研究:变量与设置。 本文通过与以下几种变体的比较来验证本文的设计选择:

  • 视频编辑。这个变体作为本文Instruct 4D-to-4D的最基本实现,使用任何视频编辑方法编辑每个伪视图帧,并使用3D Warping将编辑结果传播到其他帧。本文使用了一个零损耗文本驱动的视频编辑模型,FateZero,通过预训练的稳定扩散模型。本文遵循Fatezero官方实现中的风格编辑和属性编辑设置。由于它们只能处理8个视频帧的批处理,本文采用逐批次的伪视图编辑策略。

  • 不使用光流的anchor感知IP2P。在这个变体中,本文在没有光流引导的情况下进行视频编辑,即anchor感知IP2P直接使用相同的扩散模型设置编辑所有训练图像。

  • 单次伪视图传播。在这个变体中,本文仅进行一次伪视图传播,即所有剩余的伪视图从4个随机选择的关键伪视图中进行Warping,然后在这些编辑图像上训练NeRF直至收敛。

消融研究的任务是在DyNeRF数据集的咖啡马提尼上应用“如果由梵高绘制”的操作。由于“视频编辑”变体不使用主文中的扩散模型IP2P来编辑视频,因此本文无法使用主文中的度量标准。因此,与IN2N 一致,本文使用CLIP 相似度来评估编辑操作的成功程度。

消融研究:结果。定性结果显示在下图7和演示视频中。大多数变体未能对场景进行足够的编辑,呈现出阴沉的外观,并且缺乏梵高典型的色彩。这表明本文Instruct 4D-to-4D的设计选择是有效的且至关重要,可以实现高质量的编辑。

量化比较结果显示在下表2中。本文完整的Instruct 4D-to-4D在消融任务中实现了显著更高的CLIP相似度,表明本文的设计是有效的。此外,观察到视频编辑策略甚至无法比IN2N-4D获得更好的指标,这表明即使将其转换为伪3D场景,编辑4D场景仍然是一个非常困难的任务。

结论

Instruct 4D-to-4D,这是第一个通过将4D场景视为伪3D场景,并采用迭代策略利用2D扩散模型编辑伪3D场景的指导性4D场景编辑框架。定性实验结果显示,Instruct 4D-to-4D在包括单目和多摄像头场景在内的多种任务中实现了高质量的编辑结果。Instruct 4D-to-4D还显著优于基线方法,即将现有最先进的3D编辑方法简单扩展到4D场景,显示了这一任务的难度和复杂性,以及本文方法的成功。希望本文的工作能够激发更多关于4D场景编辑的未来研究。

参考文献

[1] Instruct 4D-to-4D: Editing 4D Scenes as Pseudo-3D Scenes Using 2D Diffusion

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3269740.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

selenium----CSS表达式选择元素

前面我们学习了根据 id、class属性、tag名 选择元素。 如果我们要选择的 元素 没有id、class 属性,或者有些我们不想选择的元素 也有相同的 id、class属性值,怎么办呢?这时候我们通常可以通过 CSS selector 语法选择元素。 选择元素 通过 …

22.jdk源码阅读之Thread(上)

1. 写在前面 Java 中的 Thread 类是多线程编程的基础,也是我们日常工作中用的比较多的类,但是你真的了解它吗?下面这几个问题你是否有思考过? start() 和 run() 方法有什么区别?什么是线程的生命周期?什么…

邮件攻击案例系列三:动态 IP 池爆破员工邮箱钓鱼重要客户

案例描述 2023 年 11 月,某制造业企业员工 Emily 接到海外客户电话,向其核实一封电子邮件的真实性,因为客户认为,该邮件所给出的链接不像是该公司的官网网址。Emily 查看自己的邮箱,并未发现客户所说的邮件。但从客户…

RPA:如何一次回答多个问题

洞悉技术的本质,享受科技的乐趣 先完成10%目标,迈出100%之一行动 2分钟的努力也有价值 从每天解决1个小问题开始。 本文介绍如何使用playwright来处理新页面 三句话说清楚问题 一天回答一个问题太慢了,我想一天回答 3个问题 了解基本原理 新页…

YOLOv5改进 | 卷积模块 | 即插即用的递归门控卷积gnConv

秋招面试专栏推荐 :深度学习算法工程师面试问题总结【百面算法工程师】——点击即可跳转 💡💡💡本专栏所有程序均经过测试,可成功执行💡💡💡 专栏目录: 《YOLOv5入门 改…

概率模拟(sigmoid、softmax)

概率模拟(sigmoid、softmax) 1. sigmoid1.1 sigmoid 定义1.2 sigmoid 主要特性1.3 sigmoid 的缺点1.4 代码画 sigmoid 函数图像 2. softmax2.1 softmax 定义与原理2.2 softmax 特点与优势2.3 softmax 应用场景2.4 softmax 实现方式2.5 softmax 注意事项2…

C++从入门到起飞之——友元内部类匿名对象 全方位剖析!

🌈个人主页:秋风起,再归来~🔥系列专栏:C从入门到起飞 🔖克心守己,律己则安 目录 1、友元 2、内部类 3. 匿名对象 4、完结散花 1、友元 • 友元提供了⼀种突破类访问限定符封装的…

在 Jetpack Compose 中使用 CameraX示例

在使用Jetpack Compose开发安卓应用,当在学习使用CameraX组件时发现官方提供的教程不是Compose的。教程地址如下: https://developer.android.com/codelabs/camerax-getting-started?hlzh-cn#1 与是我就记录一下,简单的示例。 内容参考&…

吴恩达的TranslationAgent学习

TranslationAgent构成 整个[TranslationAgent (github.com)]在流程上分为短文本的一次性翻译和长文本的分chunk翻译(按照Token进行划分)。 但是不论长文本翻译还是短文本翻译,总体流程遵循执行、纠正再执行的逻辑循环实现。 这种按照自省思路…

基于JSP的电子商城系统

你好呀,我是计算机学姐码农小野!如果有相关需求,可以私信联系我。 开发语言:Java 数据库:MySQL 技术:JSPJavaB/S架构 工具:Eclipse、Tomcat 系统展示 首页 管理员功能界面 用户功能界面 医…

Kylin 入门教程

Apache Kylin 是一个开源的分布式数据仓库和 OLAP(在线分析处理)引擎,旨在提供亚秒级查询响应时间,即使在处理超大规模数据集时也是如此。Kylin 可以有效地将原始数据预计算为多维数据立方体(Cube),并利用这些预计算结果来提供快速查询。本文将带你从基础知识到操作实践…

项目管理工具-Maven-创建一个mavenweb项目

文章目录 IDEA开发maven项目依赖范围 IDEA开发maven项目 点击NewProject,填写项目名字Name为javaWeb-maven,填写项目的存储地址,选择Archetype为org.apache.maven.archetypes:maven-archetype-webapp,然后再点击Create&#xff0…

Android WebViewClient 的 `shouldOverrideUrlLoading` 方法

简介 在Android开发中,WebView是一个强大的工具,可以在你的应用中显示网页内容。了解 WebViewClient 中的 shouldOverrideUrlLoading 方法是至关重要的,因为这个方法允许你控制 URL 在 WebView 中的处理方式。 在本文中,我们将详…

基于FFmpeg和SDL的音视频解码播放的实现过程与相关细节

目录 1、视频播放器原理 2、FFMPEG解码 2.1 FFMPEG库 2.2、数据类型 2.3、解码 2.3.1、接口函数 2.3.2、解码流程 3、SDL播放 3.1、接口函数 3.2、视频播放 3.3、音频播放 4、音视频的同步 4.1、获取音频的播放时间戳 4.2、获取当前视频帧时间戳 4.3、获取视…

OZON打开哈萨克斯坦市场,OZON测试开通哈萨克斯坦市场中国产品

在全球化日益深入的今天,跨境电商成为了连接不同国家和地区消费者的重要桥梁。2024年7月26日,Ozon Global宣布了一项重大扩展计划,正式将中国卖家的销售版图拓展至哈萨克斯坦市场,为中国企业打开了新的增长机遇之门。 OZON哈萨克斯…

实现共模噪声电流相互抵消的方法

共模传导路径中噪声电流相互抵消,从而使总的共模电流减小, 终达到降噪的目的。目前为实现共模噪声电流相互抵消,主要是采用动点电容抵消法。 动点电容抵消法原理 动点电容抵消法就是选取合适的动点,添加原副边跨接电容&#xff0c…

【Leetcode】二十、记忆化搜索:零钱兑换

文章目录 1、记忆化搜索2、leetcode509:斐波那契数列3、leetcode322:零钱兑换 1、记忆化搜索 也叫备忘录,即把已经计算过的结果存下来,下次再遇到,就直接取,不用重新计算。目的是以减少重复计算。 以前面提…

深度强化学习 ②(DRL)

参考视频:📺王树森教授深度强化学习 前言: 最近在学习深度强化学习,学的一知半解😢😢😢,这是我的笔记,欢迎和我一起学习交流~ 这篇博客目前还相对比较乱,后面…

【算法刷题】【力扣】| 最长回文子串|

给你一个字符串 s,找到 s 中最长的 示例 1: 输入:s "babad" 输出:"bab" 解释:"aba" 同样是符合题意的答案。示例 2: 输入:s "cbbd" 输出&#x…

全网最最实用--模型高效推理:量化基础

文章目录 一、量化基础--计算机中数的表示1. 原码(Sign-Magnitude)2. 反码(Ones Complement)3. 补码(Twos Complement)4. 浮点数(Floating Point)a.常用的浮点数标准--IEEE 754(FP32…