BLEU: a Method for Automatic Evaluation of Machine Translation

文章目录

BLEU: a Method for Automatic Evaluation of Machine Translation

背景和意义

We propose a method of automatic machine translation evaluation that is quick, inexpensive, and language-independent, that correlates highly with human evaluation, and that has little marginal cost per run.

提出了一种自动机器翻译评估方法,该方法快速、廉价且与语言无关,与人工评估高度相关,并且每次运行的边际成本很小。将这种方法作为自动替补提供给会熟练使用的人类,当需要快速或频繁的评估时,可以替代他们。


人类对机器翻译(Machine Translation, MT)的评估权衡了翻译的许多方面,包括翻译的充分性、保真度和流畅性,这相当于古代人们说的“信达雅”。发表这篇论文(2002年)之前的机器翻译评估方法,评估成本非常的昂贵,且需要花费大量的时间完成。这样对机器翻译系统的开发者是很不利的,因为系统的开发需要试错,即设计若干次就需要验证一次,而长时间的等待验证不利于机器翻译系统的迭代升级。此外,对于学术而言,也仍然需要很多的 idea 被设计实践,冗长的等待验证也不利于学术的更新。所以这篇论文的研究意义拔高了:需要一种廉价、自动、快速且语言无关的评估方法来加速机器翻译任务的评估。


The closer a machine translation is to a professional human translation, the better it is.

This is the central idea behind our proposal.

机器翻译需要与人类翻译对齐(合情合理)。机器翻译越接近于专业的人类翻译,它就越好。作为一个评估系统,且是要面向工业界和学术界的,那么必然不能局限于定性判断,必须要定量的评估结果。所以作者提出了他们设计的评估系统具备两个特点:首先,评估能输出数值;其次,评估需要一定量的人类参考文本来作为机器翻译的“参考答案”


技术原理

如何实现提出的评估系统?主要思想是:使用可变长度短语作为模板 来匹配 参考翻译句子集合,并求加权平均值得出结果。

具体来看一个简单的翻译任务。

假设源句子是中文:”我最喜欢的动物是猫咪“。

假设有两个机器 M 1 M_{1} M1 M 2 M_{2} M2 来对这个句子进行翻译:

  • M 1 M_{1} M1: My favorite animal is cat.
  • M 2 M_{2} M2: Dog is our likely animal. (假设 M 2 M_{2} M2 机器存在问题,能翻译句子但是存在故障)

假设有一个人类专业级别翻译的参考句子 R 1 R_{1} R1 。(参考句子一般不只一条,这里简化处理)

  • R 1 R_{1} R1: Cat is my favorite animal.

那么会发现: M 1 M_{1} M1 是良好的机器翻译结果, M 1 M_{1} M1 与参考翻译 R 1 R_{1} R1 匹配到很多相同的单词短语,而 M 2 M_{2} M2 则没有匹配到很多。可见,通过比较每个候选翻译和参考翻译之间的 n n n-gram 匹配,可以编写一个程序得到”候选 M 1 M_{1} M1 的排名高于候选 M 2 M_{2} M2 “的结果,且还能得到定量的数值。

BLEU 的主要任务是:将候选对象(机器翻译结果)的 n n n-gram 与参考翻译(人类专业翻译结果)的 n n n-gram 进行匹配,并计算匹配的数量。这些匹配项是与位置无关的(”把“字句和”被“字句都是可以的)。匹配的次数越多,候选者的翻译(机器翻译能力)就越好。

为了简单起见,首先关注计算 n n n-gram 匹配中 n = 1 n=1 n=1 的情况。

We fashion our closeness metric after ⋯ \cdots , appropriately modified for multiple reference translations and allowing for legitimate differences in word choice and word order.

  • modified for multiple reference translations : 这个评估方法不强求机器翻译的结果与人类专业翻译结果完全一致(词语、词位置等等),相当于增加了翻译容错性。
  • legitimate differences in word choice and word order : 源句子是”把“字句,那么机器翻译的句子是”被“字句,这是被容许的。同理,增加了翻译容错性。

考虑 n n n - gram中 n = 1 n=1 n=1 的情况

To compute this, one first counts the maximum number of times a word occurs in any single reference translation. Next, one clips the total count of each candidate word by its maximum reference count, adds these clipped counts up, and divides by the total (unclipped) number of candidate words.

  1. 首先,计算一个候选单词在任何单一参考翻译中出现的最大次数,即:候选单词的最大引用计数。

  2. 接下来,根据每个候选单词的最大引用计数限制每个候选单词的在句子中有效的总数。

    In other words, one truncates each word’s count, if necessary, to not exceed the largest count observed in any single reference for that word.

    可以截断每个单词的计数,以不超过在该单词的任何单一引用中观察到的最大计数。

  3. 最后,将这些限制后的计数,除以候选翻译句子的总数(未裁剪)。

具体来看论文的例子:

Candidate: the the the the the the the.

Reference 1: The cat is on the mat.

Reference 2: There is a cat on the mat.

第一步,计算一个候选单词(Candidate的句子里面只能是 the)在任何单一参考翻译中出现的最大次数。在 Reference 1 里面是 2 次,包括大小写;在 Reference 2 里面是 1 次;因此:候选单词 the 的最大引用计数等于 2 。

第二步:用候选单词 the 的最大引用计数 2 ,但是 Candidate 句子中 the 出现的次数是 7 ,限制每个候选单词在句子内的有效的总数就是 2 。也就是说, Candidate 句子中出现了非常的多次的 the 单词,但是有效的单词也就是 2 个。

第三步:用 2 除以 Candidate 句子中单词总数 7 得到 2 7 \frac{2}{7} 72 结果。

再看更一般的例子:

Candidate 1: It is a guide to action which ensures that the military always obeys the commands of the party.

Reference 1: It is a guide to action that ensures that the military will forever heed Party commands.

Reference 2: It is the guiding principle which guarantees the military forces always being under the command of the Party.

Reference 3: It is the practical guide for the army always to heed the directions of the party.

首先,针对第一个单词 It

第一步,候选单词 It 的最大引用计数等于 3 。

第二步:Candidate 句子中 It 出现的次数是 1 ,小于 It 的最大引用计数 3 ,不用加以限制,也就是有效的单词也就是 1 个。

第三步:用 1 除以 Candidate 句子中单词总数 18 得到 1 18 \frac{1}{18} 181 结果。

然后,针对第一个单词 the

第一步,候选单词 the 的最大引用计数等于 4 。

第二步:Candidate 句子中 the 出现的次数是 3 ,小于 It 的最大引用计数 4 ,不用加以限制,也就是有效的单词也就是 3 个。

第三步:用 3 除以 Candidate 句子中单词总数 18 得到 3 18 \frac{3}{18} 183 结果。

最后,经过比对,得到 Candidate 1 的句子的分数是 17 18 \frac{17}{18} 1817 ,这就意味着除了单词 obey 没出现在参考句子以外,其他都出现了,且都是有效的单词。


考虑 n n n - gram中 n > 1 n\gt 1 n>1 的情况

All candidate n-gram counts and their corresponding maximum reference counts are collected. The candidate counts are clipped by their corresponding reference maximum value, summed, and divided by the total number of candidate n n n - grams.

  1. 首先,计算一个候选短语在任何单一参考翻译中出现的最大次数,即:候选短语的最大引用计数。
  2. 接下来,根据每个候选短语的最大引用计数限制每个候选短语的在句子中有效的总数。
  3. 最后,将这些限制后的计数,除以候选翻译短语的总数(未裁剪)。

Candidate 1: It is a guide to action which ensures that the military always obeys the commands of the party.

Reference 1: It is a guide to action that ensures that the military will forever heed Party commands.

Reference 2: It is the guiding principle which guarantees the military forces always being under the command of the Party.

Reference 3: It is the practical guide for the army always to heed the directions of the party.

首先,针对第一个短语 It is

第一步,候选短语 It is 的最大引用计数等于 3 。

第二步:Candidate 句子中 It is 出现的次数是 1 ,小于 It is 的最大引用计数 3 ,不用加以限制,也就是有效的短语也就是 1 个。

第三步:用 1 除以 Candidate 句子中短语总数 17 得到 1 17 \frac{1}{17} 171 结果。

然后,针对短语 action which

第一步,候选短语 action which 的最大引用计数等于 0 ,也就是参考翻译中没有这样的短语。

第二步:Candidate 句子中 action which 出现的次数是 1 ,大于 action which 的最大引用计数 0 ,需要限制,也就是有效的短语也就是 0 个。

第三步:用 0 除以 Candidate 句子中短语总数 18 得到 0 17 \frac{0}{17} 170 结果。

最后,经过比对,得到 Candidate 1 的句子的分数是 10 17 \frac{10}{17} 1710


This sort of modified n n n - gram precision scoring captures two aspects of translation: adequacy and fluency. A translation using the same words ( 1 1 1 - grams) as in the references tends to satisfy adequacy. The longer n-gram matches account for fluency.

介绍完评价的具体方法后,作者认为这样的评估满足了机器翻译要求的充分性流畅性的指标。 n = 1 n=1 n=1 只能保证充分性,也就是机器翻译出来的单词在使用次数上接近人工专业翻译,因此可以充分保证机器翻译结果是接近人类的,但是没有考虑到上下文的关系,因此不能保证流畅性。 n > 1 n\gt 1 n>1 考虑到了前后词语的关系,流畅性就保证了。而且可以预料到 n n n 越大越能保证流畅性。


考虑在文本中的评估

如何在多句子测试集上计算修正的 n n n -gram 精度?

首先,计算机器翻译句子的 n n n - gram 匹配。接下来,将所有机器翻译句子的裁剪 n n n - gram 计数除以测试语料库中这个 n n n - gram 的数量,计算出整个测试语料库的修正精度分数 p n p_n pn
p n = ∑ C ∈ { C a n d i d a t e s } ∑ n − g r a m ∈ C C o u n t c l i p ( n − g r a m ) ∑ C ′ ∈ { C a n d i d a t e s } ∑ n ′ − g r a m ∈ C ′ C o u n t ( n ′ − g r a m ) = 1 + 1 + 2 + 2 + 1 1 + 2 + 3 + 2 + 1 ≤ 1 (1) \begin{align} p_{n} &= \frac{\sum_{C\in\{Candidates\}}\sum_{n-gram\in C}Count_{clip}(n-gram)}{\sum_{C^{\prime}\in\{Candidates\}}\sum_{n^{\prime}-gram\in C^{\prime}}Count(n^{\prime}-gram)} \\ &=\frac{1+1+2+2+1}{1+2+3+2+1} \le 1 \end{align}\tag{1} pn=C{Candidates}ngramCCount(ngram)C{Candidates}ngramCCountclip(ngram)=1+2+3+2+11+1+2+2+11(1)
根据公式来看,更像是在候选句子集和里面计算出所有 n n n - gram 在参考句子集里面匹配的次数,再做限制clip得到的有效 n n n - gram 次数,除以 n n n - gram 在候选句子集里面的总数。


初步实验评估和结论

1

当作者从 1 1 1 -gram 精度到 4 4 4 -gram 精度时,差异变得更强。这是因为 4 4 4 -gram 需要更长的短语匹配,这对于机器翻译来说必须准确track人类的翻译。似乎任何 n n n 值的 n n n - gram 精度分数都可以区分好的翻译和坏的翻译。

然而,度量还必须可靠地区分质量差别不大的翻译。此外,它还必须区分两种不同质量的人类翻译。后一种要求确保了当MT接近人类翻译质量时,度量的持续有效性。这里也就强调了评估系统要有很强的灵敏度。

2

论文的实验表明:这个方法可以在不同 n n n 值的 n n n - gram 精度中显著区分“人-人”、“人-机”和“机-机”翻译能力。虽然在任何单一的 n n n 值精度中似乎都有足够的评估数值,但将所有这些信号合并成一个单一的数字度量更鲁棒。


统一不同 n n n 值下的评估数值

修正后的 n n n - gram 精度随 n n n 大致呈指数衰减:修正后的 1 1 1 -gram 精度比修正后的 2 2 2 -gram 精度大得多,而 2 2 2 -gram 精度又比修正后的 3 3 3 -gram 精度大得多。

一个合理的平均方案必须考虑到这种指数衰减;修正精度的对数的加权平均值就满足了这一要求。BLEU 使用均匀权重的平均对数,相当于使用修改后的 n n n - gram 的几何平均值。使用最大 n n n 值为 4 获得了与只掌握单语言人类判断的最佳相关性,尽管 n n n 值为 3 和 n n n 值为 5 给出的结果相当。

加权几何平均值公式:
G = X 1 f 1 ⋅ X 2 f 2 ⋯ X n f n ( f 1 + f 2 + ⋯ + f n ) = ∏ X f ∑ f G=\sqrt[(f_{1}+f_{2}+\cdots+f_{n})]{X_{1}^{f_{1}}\cdot X_{2}^{f_{2}}\cdots X_{n}^{f_{n}}} = \sqrt[\sum f]{\prod X^{f}} G=(f1+f2++fn)X1f1X2f2Xnfn =fXf
百度百科定义: X X X 是权重, f f f 是变量值。

可见对数加权相加,实际上就是几何平均值再取对数,这在后面作者正式引入 BLEU 会提及。


考虑句子长度对评估系统的影响

n n n - gram 精度惩罚没有出现在任何参考翻译中的候选伪词。如果一个单词在候选翻译中出现的频率高于其最大引用计数,那么修改后的精度就会受到惩罚(通过 clip 函数进行惩罚)。这将奖励使用一个单词的次数,并惩罚使用一个单词的次数超过它在任何引用中出现的次数,即通过 n n n - gram 精度控制一个单词不会使用太多次,也不会逼迫机器使用生僻词语进行翻译。

仅修改的 n n n - gram 精度这个方法需要在适当的翻译长度内才可以执行,如果机器翻译出的句子太短了,句子中包含的词语太少,导致在不同 n n n 值的 n n n - gram 精度下都能与参考翻译进行很好的匹配,这就导致越短的句子 n n n - gram 精度就越高,这显然不合理。

此处可以参考 这个网页 。

作者的意思是:观察到良好的翻译指标还应该考虑翻译的长度;但是到目前为止,论文的主要焦点是修改后的 n n n - gram 精度,它无法正确解释太短或太长的机器翻译结果。想要获得好的评估,论文作者肯定:不仅希望所有单词都正确,而且还希望翻译覆盖整个参考句子以牺牲召回率为代价而使精度过高的唯一方法是使句子变短,以避免输出有风险的单词。因此,他们得出的结论是,只能惩罚太短的句子。为了不受到惩罚,模型需要输出足够长的句子,但如果它们不正确,就会受到精度的惩罚

使用惩罚因子对句子长度效应做惩罚

Consequently, we introduce a multiplicative brevity penalty factor. With this brevity penalty in place, a high-scoring candidate translation must now match the reference translations in length, in word choice, and in word order.

比其参考翻译句子更长的候选翻译,已经被修改后的 n n n - gram 精度所惩罚(就是 clip 过程),因此没有必要再次惩罚它们。但是短句子需要惩罚!因此引入了一个简洁的惩罚因子。有了这种简洁的惩罚,一个高得分的候选翻译现在必须在长度、单词选择和单词顺序上与参考翻译相匹配。请注意,这种简洁的惩罚因子和修改后的 n n n - gram 精度,在考虑长度效应时,都没有直接考虑源长度;相反,他们考虑目标语言中参考翻译长度的范围。

如何实现的呢?

  1. 当候选的机器翻译句子的长度与任何参考人工翻译句子的长度相同时,使简洁性惩罚数值为1.0。

    We wish to make the brevity penalty 1.0 when the candidate’s length is the same as any reference translation’s length.

    注意是 “任何” ,只要满足一个就可以!

    例如,如果有三个长度为12、15和17个单词的参考人工翻译句子,并且候选的机器翻译句子是一个简洁的12个单词,我们设置简洁性惩罚为1。

    最接近的参考句长度为“最佳匹配长度”。

  2. 当逐句计算简洁惩罚并对惩罚进行平均,那么短句子的长度偏差将受到严厉的惩罚。

    One consideration remains: if we computed the brevity penalty sentence by sentence and averaged the penalties, then length deviations on short sentences would be punished harshly.

    We first compute the test corpus’ effective reference length, r r r, by summing the best match lengths for each candidate sentence in the corpus.

    通过对语料库中每个候选机器翻译句子的最佳匹配长度求和来计算测试语料库的有效参考长度 r r r 。选择简洁性惩罚为衰减指数 r c \frac{r}{c} cr ,其中 c c c 是候选机器翻译句子的总长度,也就是:
    r c = r 1 + r 2 + ⋯ + r N c 1 + c 2 + ⋯ + c N = ( r 1 + r 2 + ⋯ + r N ) / N ( c 1 + c 2 + ⋯ + c N ) / N = r ^ c ^ \begin{align} \frac{r}{c} &= \frac{r_{1}+r_{2}+\cdots+r_{N}}{c_{1}+c_{2}+\cdots+c_{N}} \\ &= \frac{(r_{1}+r_{2}+\cdots+r_{N})/N}{(c_{1}+c_{2}+\cdots+c_{N})/N} = \frac{\hat{r}}{\hat{c}} \end{align} cr=c1+c2++cNr1+r2++rN=(c1+c2++cN)/N(r1+r2++rN)/N=c^r^
    所以衰减指数本身包含了语料库的总体。同时,只有当 r i r_{i} ri c i c_{i} ci 成对地接近时候,乘法性质的惩罚因子相对较小;如果 r i < < c i r_{i} << c_{i} ri<<ci 时候,惩罚因子就会变得非常大。


BLUE 总结

We take the geometric mean of the test corpus’ modified precision scores and then multiply the result by an exponential brevity penalty factor. Currently, case folding is the only text normalization performed before computing the precision.

We first compute the geometric average of the modified n n n -gram precisions, p n p_{n} pn, using n n n -gram up to length N N N and positive weights w n w_n wn summing to one.

Next, let c c c be the length of the candidate translation and r r r be the effective reference corpus length.

We compute the brevity penalty B P BP BP.
B P = { 1 , if  c > r e ( 1 − r c ) , if  c ≤ r (2) BP=\begin{cases} 1\text{, if }c>r \\ e^{(1-\frac{r}{c})}\text{, if }c\le r \\ \end{cases}\tag{2} BP={1, if c>re(1cr), if cr(2)
Then, B L E U = B P ⋅ exp ⁡ ( ∑ i = 1 n w n log ⁡ p n ) BLEU=BP\cdot \exp(\sum_{i=1}^{n}w_{n}\log p_{n}) BLEU=BPexp(i=1nwnlogpn) .

The ranking behavior is more immediately apparent in the log domain.
log ⁡ B L E U = min ⁡ { 0 , 1 − r c } + ∑ i = 1 n w n log ⁡ p n (3) \log{BLEU}=\min\{0,1-\frac{r}{c}\}+\sum_{i=1}^{n}w_{n}\log p_{n}\tag{3} logBLEU=min{0,1cr}+i=1nwnlogpn(3)
In our baseline, we use N N N = 4 and uniform weights w n = 1 N w_n = \frac{1}{N} wn=N1 .

取测试语料库修改后的 n n n - gram 精度分数的几何平均值,然后将结果乘以指数简洁惩罚因子。大小写折叠是计算精度之前执行的唯一文本规范化。

  1. 计算修改后的 n n n -gram 精度 p n p_{n} pn 的几何平均值,使用 n n n -gram 的长度为 N N N 且正权重 w n w_n wn 总和为 1。

  2. c c c 为候选翻译的长度, r r r 为有效参考语料库长度:计算简洁性惩罚 B P BP BP
    B P = { 1 , if  c > r e ( 1 − r c ) , if  c ≤ r BP=\begin{cases} 1\text{, if }c>r \\ e^{(1-\frac{r}{c})}\text{, if }c\le r \\ \end{cases} BP={1, if c>re(1cr), if cr

  3. 计算 B L E U BLEU BLEU
    B L E U = B P ⋅ exp ⁡ ( ∑ i = 1 n w n log ⁡ p n ) (4) BLEU=BP\cdot \exp(\sum_{i=1}^{n}w_{n}\log p_{n})\tag{4} BLEU=BPexp(i=1nwnlogpn)(4)
    也可以计算 B L E U BLEU BLEU 的对数值,这样更简单!
    log ⁡ B L E U = min ⁡ { 0 , 1 − r c } + ∑ i = 1 n w n log ⁡ p n (5) \log{BLEU}=\min\{0,1-\frac{r}{c}\}+\sum_{i=1}^{n}w_{n}\log p_{n}\tag{5} logBLEU=min{0,1cr}+i=1nwnlogpn(5)

  4. 在我们的基线中,使用 N N N = 4 也就是至多 4 4 4 - gram 精度和统一权重 w n = 1 N = 1 4 w_n = \frac{1}{N}=\frac{1}{4} wn=N1=41


BLEU 评估

  • 很少有机器翻译的句子能达到1分,除非它们与参考人类专业翻译完全相同。

    即使是人工翻译也不一定会得到1分。

    这也就能体现这个评估系统能显著区分“人-人”、“人-机”和“机-机”的翻译能力。

  • 每个句子的参考人类专业翻译越多,得分就越高。

    参考人类专业翻译越多,就意味着机器翻译出罕见词语时候也有更大的可能被匹配到,此外每个单词可能出现的频率也会更高,那么精度自然就高。

    On a test corpus of about 500 sentences (40 general news stories), a human translator scored 0.3468 against four references and scored 0.2571 against two references.

  • 作者通过 t 检验验证了自己的评估系统是可靠的。

    3

    Since a paired t-statistic of 1.7 or above is 95% significant, the differences between the systems’ scores are statistically very significant.

    The reported variance on 25-sentence blocks serves as an upper bound to the variance of sizeable test sets like the 500 sentence corpus.

    由于配对 t 统计量为 1.7 或以上的显着性为 95%,因此系统分数之间的差异在统计上非常显着。

    25 个句子块上报告的方差可作为大型测试集(如 500 个句子语料库)方差的上限。

  • 作者回答了:究竟多少参考人类翻译句子才能满足?

    作者通过随机选择 4 个参考翻译之一作为 40 个故事中每个故事的单个参考来模拟单参考测试语料库。结果发现:提出的评估系统保持与多个参考相同的排名顺序。

    这一结果表明,可以使用带有单个参考翻译的大型测试语料库,前提是这些翻译并非全部来自同一译者,这样才能保持风格非单一,因为单一风格可能会造成词汇、词位置等存在偏差。这样也为后续的评估带来便利,倘若多个参考翻译,反而又耗时耗力了。

BLEU 与人类参与的评估进行对比

把单语组分数在5个系统上的两个参考翻译的人工评估分数作为样本点,BLEU分数的函数进行线性回归。

4

结果显示:高相关系数为0.99,表明BLEU能很好地跟踪人类的判断。

5

即使是在双语组,也就是中英都能认识的双语非专业人类中进行评估,相关系数为0.96。

6

  • BLEU 评估系统可以跟人类评估成良好的相关,轨迹走势大体一致;
  • 人类翻译与机器翻译在当时(2002)年还是相差甚远。

维基百科介绍

BLEU (bilingual evaluation understudy) is an algorithm for evaluating the quality of text which has been machine-translated from one natural language to another.

BLEU 本质是一个算法,它是用来评估从一个自然语言经过机器翻译成另一个自然语言下的文本质量

Quality is considered to be the correspondence between a machine’s output and that of a human: “the closer a machine translation is to a professional human translation, the better it is” – this is the central idea behind BLEU.

一致性原则,如果机器翻译出的内容与人类专业翻译的越相近,那么这样的机器翻译内容质量就越好。

Invented at IBM in 2001, BLEU was one of the first metrics to claim a high correlation with human judgements of quality, and remains one of the most popular automated and inexpensive metrics.

BLEU 于2001年在 IBM 发明。BLEU 是最早表明与人类质量判断高度相关的指标之一,并且仍然是最受欢迎的自动化和廉价指标之一。因为 BLEU 本质是一个算法(实际上就是一个公式),因此可以编程实现自动化评判;至于廉价在于其自动评判的人工成本少的原因(在较大的文本数据集上只需要一条人类专家级参考翻译即可,但是需要不同的专家都参与一部分进行翻译)。

Scores are calculated for individual translated segments—generally sentences—by comparing them with a set of good quality reference translations. Those scores are then averaged over the whole corpus to reach an estimate of the translation’s overall quality. Intelligibility or grammatical correctness are not taken into account.

通过将各个机器翻译片段(通常是句子,实际就是 n n n - gram)与一组高质量的参考翻译进行比较来计算分数。然后对整个语料库的这些分数进行平均,以估计翻译的整体质量。比如说,整个语料库抽取 10000 条句子,投入模型进行机器翻译,然后得到结果与这 10000 条句子的参考翻译进行对比,用算法得出分数;因为是抽样的得到的,因此可以取平均值来对整个语料库进行估计。不考虑可理解性或语法正确性,这是因为对比的句子是“人类专业的翻译”,这里面就包含了可理解性和语法正确性。

BLEU’s output is always a number between 0 and 1. This value indicates how similar the candidate text is to the reference texts, with values closer to 1 representing more similar texts. Few human translations will attain a score of 1, since this would indicate that the candidate is identical to one of the reference translations. For this reason, it is not necessary to attain a score of 1. Because there are more opportunities to match, adding additional reference translations will increase the BLEU score.

BLEU 的输出始终是 0 到 1 之间的数字。该值表示候选文本(机器翻译出的文本)与参考文本(人类专业翻译出的文本)的相似程度,值越接近 1 表示文本越相似。很少有人工翻译能够获得 1 分,因为这表明候选翻译与参考翻译之一相同。因此,没有必要获得 1 分。因为有更多匹配的机会,添加额外的参考翻译会增加 BLEU 分数。

参考文中公式 ( 1 ) − ( 5 ) (1)-(5) (1)(5)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/2803759.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

一文了解L7812CV的引脚图介绍、参数解读

L7812CV简介 L7812CV是一款具有稳压功能的正向型线性稳压器&#xff0c;能够将输入电压稳定输出为12V的直流电压。它适用于各种需要12V电源的电子设备、电路和系统。 引脚图介绍 L7812CV有三个引脚&#xff0c;分别为输入引脚&#xff08;输入电压Vin&#xff09;、地引脚&…

什么是智慧公厕?智慧公厕跟传统公共厕所的区别

智慧公厕是近年来新兴起的一种公共设施&#xff0c;通过物联网技术的应用&#xff0c;实现了公厕的全面感知、全时监测、全方位精细化管理。与传统的公共厕所相比&#xff0c;智慧公厕在许多方面带来了翻天覆地的变化。本文以智慧公厕源头厂家广州中期科技有限公司&#xff0c;…

【2024.02.22】定时执行专家 V7.0 发布 - TimingExecutor V7.0 Release - 龙年春节重大更新版本

目录 ▉ 新版本 V7.0 下载地址 ▉ V7.0 新功能 ▼2024-02-21 V7.0 - 更新日志▼ ▉ V7.0 新UI设计 ▉ 新版本 V7.0 下载地址 BoomWorks软件的最新版本-CSDN博客文章浏览阅读10w次&#xff0c;点赞9次&#xff0c;收藏41次。▉定时执行专家—毫秒精度、专业级的定时任务执行…

【计算机网络】一些乱七八糟内容

MAC Media Access Control 用于在局域网&#xff08;LAN&#xff09;或广域网&#xff08;WAN&#xff09;中实现设备自动接入网络 "载波侦听多路访问"(Carrier Sense Multiple Access) CSMA/CD 是CSMA的升级版本&#xff0c;加入了序列号检测机制。 CSMA/CA 是CSM…

最优传输(Optimal Transport)

最优传输&#xff08;Optimal Transport&#xff09;是一种数学理论和计算方法&#xff0c;用于描述两个概率分布之间的距离或者对应关系。它的核心概念是如何以最佳方式将一组资源&#xff08;如质量、能量等&#xff09;从一个位置传输到另一个位置。 基本概念&#xff1a; …

金和OA UploadFileBlock接口任意文件上传漏洞

声明 本文仅用于技术交流&#xff0c;请勿用于非法用途 由于传播、利用此文所提供的信息而造成的任何直接或者间接的后果及损失&#xff0c;均由使用者本人负责&#xff0c;文章作者不为此承担任何责任 1. 产品简介 金和数字化智能办公平台&#xff08;简称JC6&#xff09;是…

Shopee平台玩具类目选品策略大揭秘

在Shopee平台上经营玩具类目&#xff0c;对于卖家来说&#xff0c;选品是至关重要的一环。只有通过精准的选品策略&#xff0c;才能在激烈的市场竞争中脱颖而出&#xff0c;提高产品的曝光度和销售业绩。以下是一些有效的选品策略&#xff0c;帮助卖家在Shopee平台上成功经营玩…

springboot210基于Springboot开发的精简博客系统的设计与实现

基于Springboot开发的精简博客系统的设计与实现 摘要 当下&#xff0c;正处于信息化的时代&#xff0c;许多行业顺应时代的变化&#xff0c;结合使用计算机技术向数字化、信息化建设迈进。以前企业对于博客信息的管理和控制&#xff0c;采用人工登记的方式保存相关数据&#…

北斗卫星技术引领智能穿戴:未来鞋履的革命

北斗卫星技术引领智能穿戴&#xff1a;未来鞋履的革命 在福建莆田市的苍然社区&#xff0c;70岁以上老人和特殊群体共400多人领到了社区免费发放的北斗定位鞋&#xff0c;该鞋内置北斗导航芯片&#xff0c;具有多种定位、足迹查询、超出范围主动报警等功能。老人穿上这双鞋&am…

[DP学习] 期望DP

一般思路 注&#xff1a;可以用方差求平方的期望 例题一 思路 重点&#xff1a;如何设状态&#xff0c;如何转移。 设状态 f[i] i 张能买到不同卡片的种类数的期望值&#xff08;直接对问题设置状态&#xff09; 状态转移&#xff1a;由于从f[i1]转移到 f[i] 时&#xff0…

Android相机调用-libusbCamera【外接摄像头】【USB摄像头】 【多摄像头预览】

有的自定义系统&#xff0c;对于自己外接的USB摄像头&#xff0c;android原生的camera和camera2都无法打开&#xff0c;CameraX也用不了。这时候就要用libusbCamera&#xff0c;这个库可以打开摄像头&#xff0c;还可以多摄像头同时预览。本文主要是同时打开3个USB摄像头的项目…

LabVIEW多场景微振动测试平台与教学应用

LabVIEW多场景微振动测试平台与教学应用 在多种工程实践中&#xff0c;微振动的测试与分析对于评估结构的稳定性及其对环境的影响至关重要。针对这一需求&#xff0c;开发了一套基于NI-cDAQ和LabVIEW的多场景微振动测试平台&#xff0c;提高微振动测试的精确度与灵活性&#x…

ArcgisForJS如何使用ArcGIS Server发布的切片地图服务?

文章目录 0.引言1.准备海量地理数据2.ArcGIS Server发布切片地图服务3.ArcgisForJS使用ArcGIS Server发布的切片地图服务 0.引言 ArcGIS Server是一个由Esri开发的地理信息系统&#xff08;GIS&#xff09;服务器软件&#xff0c;它提供了许多功能&#xff0c;包括发布切片地图…

Kotlin 进阶 学习 委托

1.接口委托 package com.jmj.jetpackcomposecompositionlocal.byStudy/*** 接口委托*/ interface HomeDao{fun getAllData():List<String> }interface ADao{fun getById(id:Int):String }class HomeDaoImpl:HomeDao{override fun getAllData(): List<String> {ret…

嵌入式学习笔记总结Day23----minshell项目总结

今天进行了linux系统高级编程io阶段学习的结尾&#xff0c;完成了一个minshell的小项目。 一、项目介绍 利用Linux中IO接口实现MiniShell&#xff0c;实现常用的shell指令的实现。 项目想要实现需要思考的地方有&#xff1a; 1.如何打印终端命令 2.如何接受终端命令 3.实现对…

windows前后端项目部署

装好windows虚拟机 1.远程连接 计算机右击属性&#xff0c;高级防火墙设置&#xff0c;远程连接服务允许 2.安装jdk,tomcat&#xff0c;解压工具 把安装包拖进去 双击安装解压软件 jdk安装 双击安装 配置环境变量&#xff08;复制jdk路径&#xff09; 计算机右击属性高级…

苹果分拣检测YOLOV8NANO

苹果分拣&#xff0c;可以检测成熟、切片、损坏、不成熟四种类型&#xff0c;YOLOV8NANO&#xff0c;训练得到PT模型&#xff0c;然后转换成ONNX&#xff0c;OPENCV的DNN调用&#xff0c;支持C,PYTHON 苹果分拣检测YOLOV8NANO&#xff0c;检测四种类型苹果

好用免费的项目管理工具

禅道 禅道 &#xff08; https://www.zentao.net/ &#xff09;是一款流行的项目管理和缺陷跟踪软件。它的主要功能包括项目管理、需求管理 、缺陷跟踪 、测试管理 、文档管理 、负载统计与报表 、自定义工作流 、访问控制与权限管理等。支持私有化部署&#xff0c;可完全控制…

代码随想录算法训练营第39天| Leetcode 62.不同路径、Leetcode 63. 不同路径 II

文章目录 Leetcode 62.不同路径Leetcode 63. 不同路径 II Leetcode 62.不同路径 题目链接&#xff1a;Leetcode 62.不同路径 题目描述&#xff1a; 一个机器人位于一个 m x n 网格的左上角 &#xff0c;机器人每次只能向下或者向右移动一步。机器人试图达到网格的右下角。问总…

数通HCIE学员心得:跨界、转行,我在誉天开启人生新篇章

大家好&#xff0c;我是来自誉天的田同学。 我和誉天的故事开始于22年的8月份。毕业之后&#xff0c;由于对自身专业的不喜欢&#xff0c;我对未来感到非常迷茫。也就是这个时候&#xff0c;我接触到了誉天&#xff0c;开启了我的人生新篇章。 一开始我就想着要转行&#xff…