Protobuf序列化原理学习

Protobuf序列化原理学习

news/2025/3/3 18:43:59/文章来源:https://blog.csdn.net/shenfenxihuan/article/details/140712069

Protobuf 序列化原理学习

1. 基本概念

消息：由于Protocp Buffer主要用于数据存储、网络通信的场景，将结构化的数据（数据结构或对象）进行序列化，生成二进制串来保存或传输。把要序列化的结构化数据称为**消息**。
T - L - V 的数据存储方式：即 Tag - Length - Value，标识 - 长度 - 字段值 存储方式。以 标识 - 长度 - 字段值 表示单个数据，最终将所有数据拼接成一个字节流。
T - V的数据存储方式：即 Tag - Value，标识 - 字段值 存储方式。Varint和Zigzag 编码后的格式就是这种，不需要记录长度，每个字节的最高位去记录下一个字节是否属于当前数字。

2. 三个结论

结论1：Protocol Buffer将消息中的每个字段进行编码，然后利用T - L - V存储方式对数据进行存储，最终得到一个二进制字节流。
结论2：Protocol Buffer对于不同数据类型采用不同的序列化方式（编码方式 & 数据存储方式）

在这里插入图片描述

对于存储Varint编码数据，就不需要存储字节长度 Length，所以实际上Protocol Buffer的存储方式是 T - V；
若Protocol Buffer采用其他编码方式（如LENGTH_DELIMITED）则采用T - L - V
结论3：因为 Protocol Buffer对于数据字段值的 独特编码方式 & T - L - V数据存储方式，使得 Protocol Buffer序列化后数据量体积如此小

3. 编码方式

3.1 `Varint` 编码

定义：一种变长的编码方式
原理：用字节表示数字：值越小的数字，使用越少的字节数表示
作用：通过减少表示数字的字节数从而进行数据压缩

如：

对于 int32 类型的数字，一般需要 4个字节表示；
若采用 Varint编码，对于很小的 int32 类型数字，则可以用 1个字节来表示
虽然大的数字会需要 5 个字节来表示，但大多数情况下，消息都不会有很大的数字，所以采用 Varint方法总是可以用更少的字节数来表示数字

Varint 编码的不足：

在计算机内，负数一般会被表示为很大的整数。（因为计算机定义负数的符号位为数字的最高位）

因此，使用**Varint** 编码负数一定需要5个bytes。

解决方案： Protocol Buffer 定义了 sint32 / sint64 类型表示负数，先使用 Zigzag 编码（将有符号数转换成无符号数），再采用 Varint编码，从而用于减少编码后的字节数。

3.2 `Zigzag` 编码

定义：一种变长的编码方式
原理：使用无符号数来表示有符号数字；
作用：使得绝对值小的数字都可以采用较少字节来表示；
Zigzag 编码是补充 Varint编码在表示负数的不足，从而更好的帮助 Protocol Buffer进行数据的压缩
所以，如果提前预知字段值是可能取负数的时候，记得采用sint32 / sint64 数据类型

对于int32 / int64 类型的字段值（正数），Protocol Buffer直接采用 Varint编码
对于sint32 / sint64 类型的字段值（负数），Protocol Buffer会先采用 Zigzag 编码，再采用 Varint编码

参考文献

摘抄搬运自：

Protocol Buffer 序列化原理大揭秘 - 为什么Protocol Buffer性能这么好？_flowbuf 的序列化价值-CSDN博客

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://xiahunao.cn/news/3267053.html

如若内容造成侵权/违法违规/事实不符，请联系瞎胡闹网进行投诉反馈，一经查实，立即删除！

相关文章

Activiti学习之入门个人任务（07）

Activiti学习之入门个人任务（07）

这里写目录标题一、分配任务负责人1.1 固定分配1.2 表达式分配1.2.1 UEL表达式1.2.2 使用流程变量分配任务1.2.3 注意事项 1.3 监听器分配二、查询任务2.1 查询负责人待办2.2 关联businessKey 三、办理任务一、分配任务负责人 1.1 固定分配在进行业务流程建模时指定固定的…

阅读更多...

vdb：虚拟数据库

vdb：虚拟数据库

将文件虚拟成数据库，序列化写入、反序列化读取、直接读取。

阅读更多...

离散型制造业中,MES系统的应用场景

离散型制造业中,MES系统的应用场景

在离散型制造业中，MES（制造执行系统）系统的应用场景极为丰富且关键，它贯穿于整个生产过程的各个环节，从生产计划到生产执行，再到质量控制和物料管理，都发挥着不可替代的作用。以下是离散制造业中…

阅读更多...

本地化部署一个简单的AI大模型，Llama3.1

本地化部署一个简单的AI大模型，Llama3.1

7 月 23 日消息，Meta 今晚正式发布llama3.1，提供 8B、70B 及 405B 参数版本。 Meta 称 4050 亿参数的 Llama 3.1-405B 在常识、可引导性、数学、工具使用和多语言翻译等一系列任务中，可与 GPT-4、GPT-4o、Claude 3.5 Sonnet 等领先的闭源模型…

阅读更多...

收藏：高性价比https证书

在当今的数字化世界中，网络安全已经成为了每个网站所有者的首要关注点，为了保护网站的安全，防止数据被窃取或篡改，使用SSL证书已经成为了一种标准的做法，SSL证书是一种用于加密网站和用户之间数据传输的证书&#xff0…

阅读更多...

[240726] Mistral AI 发布新一代旗舰模型 | Node.js 合并 TypeScript 文件执行提案

[240726] Mistral AI 发布新一代旗舰模型 | Node.js 合并 TypeScript 文件执行提案

目录 Mistral AI 发布新一代旗舰模型：Mistral Large 2Node.js 合并 TypeScript 文件执行提案：--experimental-strip-types Mistral AI 发布新一代旗舰模型：Mistral Large 2 Mistral AI 宣布推出新一代旗舰模型 Mistral Large 2，该…

阅读更多...

2024新版黑马程序员《C++零基础入门》笔记——第一章19 cin中文乱码的解决

2024新版黑马程序员《C++零基础入门》笔记——第一章19 cin中文乱码的解决

1.cin中文乱码的解决 2.代码实践 # include "iostream" # include "windows.h" using namespace std;int main() {SetConsoleOutputCP(CP_UTF8);string str;cin >> str;cout << str << endl;return 0; } 注意，勾选之后以后也…

阅读更多...

【echarts】中如何设置曲线展示最新值、最大值、最小值

【echarts】中如何设置曲线展示最新值、最大值、最小值

需要用到的属性：图表标注 series-line. markPoint 默认可以通过 type直接标注：‘min’ 最小值、‘max’ 最大值、‘average’ 平均值。 markPoint: {data: [{type: max},{type: min}]}如何展示最新值如果要展示最新值得话，需要设置标注…

阅读更多...

如何让C++程序自动生成dump文件？以及如何分析dump文件？

目录 1、API函数SetUnhandledExceptionFilter介绍 2、调用SetUnhandledExceptionFilter设置异常处理函数 3、调用MiniDumpWriteDump函数导出包含异常上下文的dump文件 4、dump文件的多种生成方式 5、使用Windbg分析dump文件 6、最后 C++软件异常排查从入门到精通系列教程…

阅读更多...

数业智能心大陆：定制你的专属心理健康方案

数业智能心大陆：定制你的专属心理健康方案

在快速变化的社会中，随着人们对自我健康认识的不断加深，心理健康已成为影响生活质量的关键因素，许多成年人在其一生中会遇到心理健康问题。在探索人类心理奥秘的旅程中，我们发现，每个人的心理状态和需求都是独一无二的…

阅读更多...

mmdetection训练后评估指标，验证Loss

mmdetection训练后评估指标，验证Loss

项目场景： 对mmdetection框架下训练好的log.json文件进行评估。问题描述使用框架底下自带的评估文件，不能对loss进行评估。也就是文件：tools/analysis_tools/analyze_logs.py 解决方案： 自己做了评估loss的代码，目…

阅读更多...

使用nginx解决本地环境访问线上接口跨域问题

使用nginx解决本地环境访问线上接口跨域问题

前言前端项目开发过程中，经常会遇到各种各样的跨域问题。虽然大部分时候，由脚手架自带的proxy功能即可解决问题，如webpack，vite等；但是若没有通过脚手架搭建项目，或者必须使用某些特殊规则转发时&#…

阅读更多...

C语言常见字符函数和字符串函数精讲

C语言常见字符函数和字符串函数精讲

目录引言一、字符函数 1.字符分类函数 2.字符转换函数二、字符串函数 1.gets、puts 2.strlen 3.strcpy 4.strncpy 5.strcat 6.strncat 7.strcmp 8.strncmp 9.strstr 10.strchr 11.strtok 12.strlwr 13.strupr 引言在C语言编程中，字符函数…

阅读更多...

Python小工具——监听某网站的数据变化并进行邮件通知

Python小工具——监听某网站的数据变化并进行邮件通知

目录一、需求描述二、解析三、实例代码一、需求描述监听自考网2024年广东省6月份的毕业生学历注册进度，这是网址：https://www.chsi.com.cn/xlcx/count_zk.jsp， 如上图所示，我们想知道这个红色的空格啥时候被填满&#xf…

阅读更多...

Linux下使用gdb进行调试入门级

Linux下使用gdb进行调试入门级

个人名片： 🎓作者简介：嵌入式领域优质创作者🌐个人主页：妄北y 📞个人QQ：2061314755 💌个人邮箱：[mailto:2061314755qq.com] 📱个人微信：Vir2025WB…

阅读更多...

linux modetest常用命令

linux modetest常用命令

1 通过help有哪些参数 130|:/ # modetest -h usage: modetest [-acDdefMPpsCvrw]Query options:-c list connectors-e list encoders-f list framebuffers-p list CRTCs and planes (pipes)Test options:-P <plane_id><crtc_id>:<w>x&l…

阅读更多...

主机加固|防勒索病毒|产线工控安全

主机加固|防勒索病毒|产线工控安全

在当今数字化转型的大潮中，工业控制系统（ICS）作为制造业的核心命脉，其安全性与稳定性直接关系到企业的生产效率和运营安全。然而，随着网络攻击手段的不断进化，尤其是勒索病毒的肆虐，工控安全已成…

阅读更多...

ctfshow 框架复现工具版

ctfshow 框架复现工具版

工具首先下载工具PHPGGC GitHub地址 ./phpggc -lweb466 Laravel5.4 是这个版本的漏洞那么我们去看看那个poc链是这个版本的 Laravel/RCE2可以命令 ./phpggc -i Laravel/RCE2 题目提示要base64编码提交 ./phpggc Laravel/RCE2 system ls /|base64成功RCE https://31…

阅读更多...

Pytorch使用教学5-视图view与reshape的区别

Pytorch使用教学5-视图view与reshape的区别

有同学后台留言问为什么view有时可对张量进行形变操作，有时就会报错？另外它和reshape功能好像一致，有什么区别呢？本文就带你了解PyTorch中视图的概念。在PyTorch中对张量进行形变操作时，很多同学也会使用view方法&am…

阅读更多...

4.6 replicaset controller

4.6 replicaset controller

想系统学习k8s源码，云原生的可以加：mkjnnm 介绍简介 replicaset controller是kube-controller-manager组件中众多控制器中的一个，是 replicaset 资源对象的控制器，其通过对replicaset、pod 2种资源的监听，当这2种资…

阅读更多...

最新文章