HTTP传输大文件

一 概述

        早期网络传输的文件非常小,只是一些几K大小的文本和图片,随着网络技术的发展,传输的不仅有几M的图片,还有可以达到几G和几十G的视频。

        在这些大文件传输的情况下,100M的光纤或者4G移动网络都会因为网络压力导致在上传或者下载的情况下导致网络传输链路挤的“满满当当”。

二 网络中大文件传输之数据压缩

        通常浏览器在发送请求时都会带上"Accept-Encoding"头字段,该字段用来声明浏览器支持的压缩格式列表,例如gzip,deflate,br等,这样服务器就可以从中选择一种压缩算法,并将其放进"Content-Encoding"响应头中,最后将元数据压缩后发给浏览器。

        这种情况下下,如果压缩率是50%,也就是100K数据可以变成50K大小的文件进行传输,从网络的角度考虑,就类似于网络提升了一倍。

        这种方法的缺点是,gzip等压缩算法通常只是对文本文件有较好的压缩率,而图片,音频,视频的多媒体文件由于本身已经是高度压缩的,此时再使用gzip处理不会变小(甚至还有可能会增大一点),所以这种方法就不适用了。

        由于这种方法对文本类型的数据压缩效果比较好,所以大部分网站会使用该技术作为"保底"。例如,Nginx里就会使用"gzip on"指令,启用对"text/html"的压缩。

三 网络中大文件传输之数据分块传输

        相对于数据压缩那种将大文件整体变小来说,数据分块传输可以保证在大文件无法因压缩处理变小的时候,可以将其拆解,分成多个小块,然后将这些小块批发给浏览器,浏览器收到后会对拆解后的文件再进行组装复原。

        这样的好处是,在浏览器的和服务器的内存中都不会再内存中保存文件的全部,每次只是发送一小部分,从而网络不会被大文件占用,内存,宽带等资源就会被节省。

        这种"化整为零"的思路在HTTP协议里就是通过"chunked"分块传输编码,在响应报文里用头字段"Tranfer-Encoding:chunked"来表示,意思就是报文中的body部分不是一次性发送过来,而是分成许多块的"chunk"并进行逐个发送。

        分块传输也可以用于"流式数据",例如由数据库动态生成的表单页面,这种情况下body数据的长度是未知的,无法在头字段"Content-Length"里给出确切的长度,所以只能通过chunked方式分块发送。

        "Tranfer-Encodeing:chunked"和"Content-Length"这两个字段是互斥的,也就是说响应报文中的两个字段是不可以同时出现的,一个响应报文的传输长度要么已经知道了,要么是未知的(chunked)。

四 分块传输的编码规则

        分块传输的编码规则类似于响应头,同样采用了明文的方式。

  • 每个分块包含两部分,长度头和数据块。
  • 长度头是以CRLF(回车换行,即\r\n)结尾的一行明文,用16进制数字表示长度。
  • 数据块紧跟其后,最后同样使用CRLF结尾,但数据不包含CRLF。
  • 最后用一个长度为0的块(即最后的空行)来表示结束,即"0\r\n\r\n"。

        图示:

 注意:浏览器在收到分块传输的数据之后会自动按照规则去掉分块编码,重新组装出内容。

五 大文件传输之范围请求

        有了分块传输编码,服务器就可以轻松地收发大文件了,但对于上 G 的超大文件,还有一些问题需要考虑。

        比如,你在看当下正热播的某穿越剧,想跳过片头,直接看正片,或者有段剧情很无聊,想拖动进度条快进几分钟,这实际上是想获取一个大文件其中的片段数据,而分块传输并没有这个能力。

        HTTP 协议为了满足这样的需求,提出了“范围请求”(range requests)的概念,允许客户端在请求头里使用专用字段来表示只获取文件的一部分,相当于是客户端的“化整为零”。

        范围请求不是 Web 服务器必备的功能,可以实现也可以不实现,所以服务器必须在响应头里使用字段“Accept-Ranges: bytes”明确告知客户端:“我是支持范围请求的”。

        如果不支持的话该怎么办呢?服务器可以发送“Accept-Ranges: none”,或者干脆不发送“Accept-Ranges”字段,这样客户端就认为服务器没有实现范围请求功能,只能老老实实地收发整块文件了。

        请求头 Range 是 HTTP 范围请求的专用字段,格式是“bytes=x-y”,其中的 x 和 y 是以字节为单位的数据范围。

        要注意 x、y 表示的是“偏移量”,范围必须从 0 计数,例如前 10 个字节表示为“0-9”,第二个 10 字节表示为“10-19”,而“0-10”实际上是前 11 个字节。

        Range 的格式也很灵活,起点 x 和终点 y 可以省略,能够很方便地表示正数或者倒数的范围。假设文件是 100 个字节,那么:

  • “0-”表示从文档起点到文档终点,相当于“0-99”,即整个文件;
  • “10-”是从第 10 个字节开始到文档末尾,相当于“10-99”;
  • “-1”是文档的最后一个字节,相当于“99-99”;
  • “-10”是从文档末尾倒数 10 个字节,相当于“90-99”。

六 服务器收到Range字段后的响应过程

  1.         第一,它必须检查范围是否合法,比如文件只有 100 个字节,但请求“200-300”,这就是范围越界了。服务器就会返回状态码 416,意思是“你的范围请求有误,我无法处理,请再检查一下”。
  2.         第二,如果范围正确,服务器就可以根据 Range 头计算偏移量,读取文件的片段了,返回状态码“206 Partial Content”,和 200 的意思差不多,但表示 body 只是原数据的一部分。
  3.         第三,服务器要添加一个响应头字段 Content-Range,告诉片段的实际偏移量和资源的总大小,格式是“bytes x-y/length”,与 Range 头区别在没有“=”,范围后多了总长度。例如,对于“0-10”的范围请求,值就是“bytes 0-10/100”。
  4.         最后剩下的就是发送数据了,直接把片段用 TCP 发给客户端,一个范围请求就算是处理完了。

有了范围请求之后,HTTP 处理大文件就更加轻松了,看视频时可以根据时间点计算出文件的 Range,不用下载整个文件,直接精确获取片段所在的数据内容。不仅看视频的拖拽进度需要范围请求,常用的下载工具里的多段下载、断点续传也是基于它实现的,要点是:

  1. 先发个 HEAD,看服务器是否支持范围请求,同时获取文件的大小;
  2. 开 N 个线程,每个线程使用 Range 字段划分出各自负责下载的片段,发请求传输数据;
  3. 下载意外中断也不怕,不必重头再来一遍,只要根据上次的下载记录,用 Range 请求剩下的那一部分就可以了。

七 多段数据

        刚才说的范围请求一次只获取一个片段,其实它还支持在 Range 头里使用多个“x-y”,一次性获取多个片段数据。这种情况需要使用一种特殊的 MIME 类型:“multipart/byteranges”,表示报文的 body 是由多段字节序列组成的,并且还要用一个参数“boundary=xxx”给出段之间的分隔标记。

        多段数据的格式与分块传输也比较类似,但它需要用分隔标记 boundary 来区分不同的片段,可以通过图来对比一下。

        每一个分段必须以“- -boundary”开始(前面加两个“-”),之后要用“Content-Type”和“Content-Range”标记这段数据的类型和所在范围,然后就像普通的响应头一样以回车换行结束,再加上分段数据,最后用一个“- -boundary- -”(前后各有两个“-”)表示所有的分段结束。

参考:把大象装进冰箱:HTTP传输大文件的方法 (geekbang.org)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/252811.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

大文件传输有哪些方式可用?大文件传输有哪些方式?

大文件传输有哪些方式可用?大文件传输有哪些方式?互联网时代,速度决定效率。在企业生产过程中需要进行信息数据交换、搬运。这时就需要进行大文件传输。方方面面的行业都要涉及到大文件传输。例如影视行业需要每天进行视频素材的传输&#xf…

大文件如何快速上传

之前仿造uploadify写了一个HTML5版的文件上传插件,没看过的朋友可以点此先看一下~得到了不少朋友的好评,我自己也用在了项目中,不论是用户头像上传,还是各种媒体文件的上传,以及各种个性的业务需求,都能得到…

如何快速传输大文件,介绍大文件快速方法

现在,企业比以往任何时候都面临着一个重大挑战:需要一个快速共享文件的解决方案。但是,并非所有快速文件传输解决方案都以相同的速度传输文件。文件大小、端点位置、路径、设备、防火墙、网络系统和加密需求都会限制文件的传输速度。 什么是快…

如何快速地向服务器传大文件,大文件如何快速传输

在这个互联网时代,信息更新速度逐渐加快。用户在进行文件传输时,一定是希望既稳定又快速的,并且还能够保证安全。但是通常来讲,FTP文件传输并不能同时实现这三点的,特别是上传大文件时,FTP上传文件速度明显…

快速传输大文件,怎么通过网络传大文件给对方(1G以上)

在生活和工作中,我们总是要发送一些比较大的文件给别人,或者在自己的设备之间。在互联网日益发达的今天,我们可以用什么方法通过互联网快速传输大文件,发送1G以上的文件? 一、使用QQ传 在电脑上打开QQ,选…

新装win10系统的桌面没有“我的电脑”图标解决办法

新装win10系统的桌面是没有“我的电脑”图标,需要我们自己配置,以下是具体步骤: 1、可以看到桌面上面没有我的电脑; 2、在桌面空白处点击右键,选择“个性化”; 3、选择“主题”,再选择“更改桌…

Win系统 - Win10 电脑桌面的 WiFi 图标不见了怎么办?

我们在使用电脑是,有时回发现电脑右下角的WiFi图标不见了,这让我们身份不方便,因为我们不知道是否连上WiFi了没有,连上谁的WiFi,今天教你怎么把它显示出来。

【图标消失】Win10我的电脑/回收站的图标消失

步骤: (右键)-个性化-主题-(下滑找到)相关的设置-桌面图标设置-勾选计算机/回收站-确定

win10我的电脑图标不见了的恢复方法

1.在桌面空白处单击鼠标右键, 2.选择最下方个性化选项 3,选择主题选项,并选择桌面图标设置 4.把计算机图标勾上,点击确定即可.

Win10电脑桌面上没有‘我的电脑’图标

NO.1 在电脑屏幕随机处右击,找到个性化设置 NO.2 进入个性化后,点击主题,往下翻找到桌面图标设置 NO.3 进入桌面图标设置后,把计算机(M)打钩即可,我的电脑图标就出现了

Win10系统如何在桌面添加我的电脑图标

步骤1:电脑桌面空白处鼠标右键选择个性化 步骤2:在个性化里找到主题,点击进入主题! 步骤3:依次点击相关设置-------桌面图标设置! 步骤4:桌面图标里有一个计算机,现在是未勾选状态,所…

win10的计算机 桌面图标不见了怎么办,Win10我的电脑怎么放在桌面?Win10此电脑图标不见了的解决方法...

电脑安装官方原版Windows10系统之后,发现桌面上只有一个回收站,而我的电脑(此电脑)图标不见了,我们要如何找回呢?那么Win10我的电脑怎么放在桌面?装机之家分享一下Win10此电脑图标不见了的解决方法。 Win10此电脑图标不…

Java编程基础篇

目录 计算机、程序和Java概述计算机组成 基本程序设计标识符数值数据类型格式化控制台输出输入输出重定向输入重定向输出重定向输入输出重定向方法重载变量的范围 数组声明数组变量创建数组初始化数组可边长参数二维数组静态变量、常量和方法静态变量 限定字符串StringBuilder和…

java编程语言基础

1. Java的注释方式有哪几种?如何书写? 单行注释:用两个正斜线“//”注释掉斜线后的同行文本。 多行注释:“/”和“/”符号用于多行代码的注释。用“/”打开注释,“/”关闭注释。所有在二者之间的文本都会…

JAVA的编程基础(上)

1. JAVA的基本语法 1.1 注释 单行注释:// 多行注释:/* */ 文档注释:/** */ 注意:单行注释可以嵌套,多行注释和文档注释不可以嵌套 1.2 关键字 含义:在编程语言中,已经被赋予一些特殊含义…

JAVA编程基础复习

Java入门 Java概述 计算机语言总的来说可以分成三类: 机器语言:计算机可以识别的语言,二进制编码。 汇编语言:英文缩写的标识符。 高级语言:接近人类自然语言,Java就是一种高级语言。 Java划分为三个技术…

Java 基础编程入门

一、什么是Java Java是一种编程语言二、应用场景 非windows平台下互联网环境的开发首选三、Java语言特点 1、应用面广 2、简单易学(相对于C/C) 3、面向对象(更符合我们看待事物的特点) 4、跨平台(一处编译,处处运行) 5、多线程(提升系统性能) 单线…

Java编程基础(1)

1.Java基本语法 (1)Java程序的基本格式: 修饰符 class 类名 { 程序代码 } 如果Java程序要运行,则必须要有main方法,main方法是程序运行的入口 格式: 修饰符 class 类名{ public static void main&…

Java编程基础之网络编程

网络编程 文章目录 网络编程概述C/S和B/S网络通信协议网络编程要素 IP类UDP协议数据传输发送端接收端udp数据传输丢失问题 TCP概述Socket客户端ServerSocket服务端Socket**服务器代码**客户端代码 文件上传实现客户端服务端多线程版 概述 C/S和B/S 网络通信协议 协议:protoco…

Java 基础

Java 基础知识点整理 Java 语言是一种优秀的编程语言,由 C 语言、C 语言发展而来。Java 语言提供了一些有效的新特性,使得使用 Java 比 C 更容易写出“无错代码”。 Java特性和优点 面向对象编程的思想,更简单有效,Java 省略了 …