Protobuf序列化原理学习

Protobuf 序列化原理学习

1. 基本概念

  • 消息:由于Protocp Buffer主要用于数据存储、网络通信的场景,将结构化的数据(数据结构或对象)进行序列化,生成二进制串来保存或传输。把要序列化的结构化数据称为**消息**。

  • T - L - V 的数据存储方式:即 Tag - Length - Value标识 - 长度 - 字段值 存储方式。以 标识 - 长度 - 字段值 表示单个数据,最终将所有数据拼接成一个字节流。

  • T - V的数据存储方式:即 Tag - Value标识 - 字段值 存储方式。VarintZigzag 编码后的格式就是这种,不需要记录长度,每个字节的最高位去记录下一个字节是否属于当前数字。

2. 三个结论

  • 结论1Protocol Buffer将消息中的每个字段进行编码,然后利用T - L - V存储方式对数据进行存储,最终得到一个二进制字节流。

  • 结论2Protocol Buffer对于不同数据类型采用不同的序列化方式(编码方式 & 数据存储方式)

在这里插入图片描述

  • 对于存储Varint编码数据,就不需要存储字节长度 Length,所以实际上Protocol Buffer的存储方式是 T - V

  • Protocol Buffer采用其他编码方式(如LENGTH_DELIMITED)则采用T - L - V

  • 结论3:因为 Protocol Buffer对于数据字段值的 独特编码方式 & T - L - V数据存储方式,使得 Protocol Buffer序列化后数据量体积如此小

3. 编码方式

3.1 Varint 编码

  • 定义:一种变长的编码方式
  • 原理:用字节表示数字:值越小的数字,使用越少的字节数表示
  • 作用:通过减少表示数字的字节数从而进行数据压缩

如:

  • 对于 int32 类型的数字,一般需要 4个字节 表示;
  • 若采用 Varint编码,对于很小的 int32 类型 数字,则可以用 1个字节 来表示
  • 虽然大的数字会需要 5 个 字节 来表示,但大多数情况下,消息都不会有很大的数字,所以采用 Varint方法总是可以用更少的字节数来表示数字

Varint 编码的不足:

在计算机内,负数一般会被表示为很大的整数。(因为计算机定义负数的符号位为数字的最高位

因此,使用**Varint** 编码负数一定需要5个bytes。

解决方案: Protocol Buffer 定义了 sint32 / sint64 类型表示负数,先使用 Zigzag 编码(将 有符号数 转换成 无符号数),再采用 Varint编码,从而用于减少编码后的字节数。

3.2 Zigzag 编码

  • 定义:一种变长的编码方式

  • 原理:使用 无符号数 来表示 有符号数字;

  • 作用:使得绝对值小的数字都可以采用较少字节来表示;

  • Zigzag 编码 是补充 Varint编码在 表示负数 的不足,从而更好的帮助 Protocol Buffer进行数据的压缩

  • 所以,如果提前预知字段值是可能取负数的时候,记得采用sint32 / sint64 数据类型

  1. 对于int32 / int64 类型的字段值(正数),Protocol Buffer直接采用 Varint编码
  2. 对于sint32 / sint64 类型的字段值(负数),Protocol Buffer会先采用 Zigzag 编码,再采用 Varint编码

参考文献

摘抄搬运自:

Protocol Buffer 序列化原理大揭秘 - 为什么Protocol Buffer性能这么好?_flowbuf 的序列化价值-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3267053.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

Activiti学习之入门个人任务(07)

这里写目录标题 一、分配任务负责人1.1 固定分配1.2 表达式分配1.2.1 UEL表达式1.2.2 使用流程变量分配任务1.2.3 注意事项 1.3 监听器分配 二、查询任务2.1 查询负责人待办2.2 关联businessKey 三、办理任务 一、分配任务负责人 1.1 固定分配 在进行业务流程建模时指定固定的…

vdb:虚拟数据库

将文件虚拟成数据库,序列化写入、反序列化读取、直接读取。

离散型制造业中,MES系统的应用场景

在离散型制造业中,MES(制造执行系统)系统的应用场景极为丰富且关键,它贯穿于整个生产过程的各个环节,从生产计划到生产执行,再到质量控制和物料管理,都发挥着不可替代的作用。以下是离散制造业中…

本地化部署一个简单的AI大模型,Llama3.1

7 月 23 日消息,Meta 今晚正式发布llama3.1,提供 8B、70B 及 405B 参数版本。 Meta 称 4050 亿参数的 Llama 3.1-405B 在常识、可引导性、数学、工具使用和多语言翻译等一系列任务中,可与 GPT-4、GPT-4o、Claude 3.5 Sonnet 等领先的闭源模型…

收藏:高性价比https证书

在当今的数字化世界中,网络安全已经成为了每个网站所有者的首要关注点,为了保护网站的安全,防止数据被窃取或篡改,使用SSL证书已经成为了一种标准的做法,SSL证书是一种用于加密网站和用户之间数据传输的证书&#xff0…

[240726] Mistral AI 发布新一代旗舰模型 | Node.js 合并 TypeScript 文件执行提案

目录 Mistral AI 发布新一代旗舰模型:Mistral Large 2Node.js 合并 TypeScript 文件执行提案:--experimental-strip-types Mistral AI 发布新一代旗舰模型:Mistral Large 2 Mistral AI 宣布推出新一代旗舰模型 Mistral Large 2,该…

2024新版 黑马程序员《C++零基础入门》笔记——第一章19 cin中文乱码的解决

1.cin中文乱码的解决 2.代码实践 # include "iostream" # include "windows.h" using namespace std;int main() {SetConsoleOutputCP(CP_UTF8);string str;cin >> str;cout << str << endl;return 0; } 注意&#xff0c;勾选之后以后也…

【echarts】中如何设置曲线展示最新值、最大值、最小值

需要用到的属性&#xff1a;图表标注 series-line. markPoint 默认可以通过 type直接标注&#xff1a;‘min’ 最小值、‘max’ 最大值、‘average’ 平均值。 markPoint: {data: [{type: max},{type: min}]}如何展示最新值 如果要展示最新值得话&#xff0c;需要设置 标注…

如何让C++程序自动生成dump文件?以及如何分析dump文件?

目录 1、API函数SetUnhandledExceptionFilter介绍 2、调用SetUnhandledExceptionFilter设置异常处理函数 3、调用MiniDumpWriteDump函数导出包含异常上下文的dump文件 4、dump文件的多种生成方式 5、使用Windbg分析dump文件 6、最后 C++软件异常排查从入门到精通系列教程…

数业智能心大陆:定制你的专属心理健康方案

在快速变化的社会中&#xff0c;随着人们对自我健康认识的不断加深&#xff0c;心理健康已成为影响生活质量的关键因素&#xff0c;许多成年人在其一生中会遇到心理健康问题。在探索人类心理奥秘的旅程中&#xff0c;我们发现&#xff0c;每个人的心理状态和需求都是独一无二的…

mmdetection训练后评估指标,验证Loss

项目场景&#xff1a; 对mmdetection框架下训练好的log.json文件进行评估。 问题描述 使用框架底下自带的评估文件&#xff0c;不能对loss进行评估。也就是文件&#xff1a;tools/analysis_tools/analyze_logs.py 解决方案&#xff1a; 自己做了评估loss的代码&#xff0c;目…

使用nginx解决本地环境访问线上接口跨域问题

前言 前端项目开发过程中&#xff0c;经常会遇到各种各样的跨域问题。 虽然大部分时候&#xff0c;由脚手架自带的proxy功能即可解决问题&#xff0c;如webpack&#xff0c;vite等&#xff1b;但是若没有通过脚手架搭建项目&#xff0c;或者必须使用某些特殊规则转发时&#…

C语言常见字符函数和字符串函数精讲

目录 引言 一、字符函数 1.字符分类函数 2.字符转换函数 二、字符串函数 1.gets、puts 2.strlen 3.strcpy 4.strncpy 5.strcat 6.strncat 7.strcmp 8.strncmp 9.strstr 10.strchr 11.strtok 12.strlwr 13.strupr 引言 在C语言编程中&#xff0c;字符函数…

Python小工具——监听某网站的数据变化并进行邮件通知

目录 一、需求描述 二、解析 三、实例代码 一、需求描述 监听自考网2024年广东省6月份的毕业生学历注册进度&#xff0c;这是网址&#xff1a;https://www.chsi.com.cn/xlcx/count_zk.jsp&#xff0c; 如上图所示&#xff0c;我们想知道这个红色的空格啥时候被填满&#xf…

Linux下使用gdb进行调试入门级

个人名片&#xff1a; &#x1f393;作者简介&#xff1a;嵌入式领域优质创作者&#x1f310;个人主页&#xff1a;妄北y &#x1f4de;个人QQ&#xff1a;2061314755 &#x1f48c;个人邮箱&#xff1a;[mailto:2061314755qq.com] &#x1f4f1;个人微信&#xff1a;Vir2025WB…

linux modetest常用命令

1 通过help有哪些参数 130|:/ # modetest -h usage: modetest [-acDdefMPpsCvrw]Query options:-c list connectors-e list encoders-f list framebuffers-p list CRTCs and planes (pipes)Test options:-P <plane_id><crtc_id>:<w>x&l…

主机加固|防勒索病毒|产线工控安全

在当今数字化转型的大潮中&#xff0c;工业控制系统&#xff08;ICS&#xff09;作为制造业的核心命脉&#xff0c;其安全性与稳定性直接关系到企业的生产效率和运营安全。然而&#xff0c;随着网络攻击手段的不断进化&#xff0c;尤其是勒索病毒的肆虐&#xff0c;工控安全已成…

ctfshow 框架复现 工具版

工具 首先下载工具PHPGGC GitHub地址 ./phpggc -lweb466 Laravel5.4 是这个版本的漏洞那么我们去看看那个poc链是这个版本的 Laravel/RCE2可以 命令 ./phpggc -i Laravel/RCE2 题目提示要base64编码提交 ./phpggc Laravel/RCE2 system ls /|base64成功RCE https://31…

Pytorch使用教学5-视图view与reshape的区别

有同学后台留言问为什么view有时可对张量进行形变操作&#xff0c;有时就会报错&#xff1f;另外它和reshape功能好像一致&#xff0c;有什么区别呢&#xff1f;本文就带你了解PyTorch中视图的概念。 在PyTorch中对张量进行形变操作时&#xff0c;很多同学也会使用view方法&am…

4.6 replicaset controller

想系统学习k8s源码&#xff0c;云原生的可以加&#xff1a;mkjnnm 介绍 简介 replicaset controller是kube-controller-manager组件中众多控制器中的一个&#xff0c;是 replicaset 资源对象的控制器&#xff0c;其通过对replicaset、pod 2种资源的监听&#xff0c;当这2种资…