git 对象压缩及垃圾对象清理

git 对象压缩及垃圾对象清理

这篇文章让我们来看看 git 的对象压缩机制,前面的几篇文章我们提到,在执行 git add 命令会会把文件先通过 zlib 压缩后放入到「暂存区」,我们先看看这个步骤:

我们这个实例中有一个 1.28m 的 index.js 文件:

在这里插入图片描述

初始化一个仓库,然后执行 git add . 命令把文件添加到「暂存区」,在 04-git 中的概念 文章里我们说过这个命令会生成一个「blob 对象」(也就是在一个 .git/objects 文件中生成一个经过 zlib 压缩的文件):

在这里插入图片描述
在这里插入图片描述

从上图可以看到 index.js 文件体积明显减少了很多,能帮我们节省磁盘空间,而通过 git cat-file <hashId> 就可以查看源文件。

我们先执行一下 commit,此时就会生成一个「tree 对象」和一个「commit 对象」,因为这两个文件存储的是索引,所以非常小。

在这里插入图片描述
在这里插入图片描述

如果我们稍微修改 index.js 文件中的几个字符在重新执行 git add . 命令看看会发生什么:

在这里插入图片描述

可以很明显的看到又多一个差不多大小的文件,我们可以设想到如果我们的原始文件很大,或者执行了非常多次的 add、commit 命令,这个 objects 文件将变得非常大:

在这里插入图片描述
在这里插入图片描述

但是我们的「工作目录」才只有一个 1.28m 的文件,同时每次只是修改了几个字符,对比起来 .git 文件是不是太大了(上图只执行了4次的add、commit操作,当文件多了会更明显)。针对这个问题 Git 提供了一个命令: git gc,这个命令可以把 Git 对象进行压缩。

在这里插入图片描述

在经过 dalta 压缩后,GIt 对象(.git/objects文件中的文件)都会被删除,同时在 .git/objects/pack 文件夹中生成相应的压缩文件:

在这里插入图片描述
在这里插入图片描述

可以看到经过压缩后 .git/objects 文件夹体积又变小了,

.pack 文件体积较大,我们可以很明显猜到这就是存储我们文件的地方,而 .idx 文件储存的就是索引,因为 .git/objects 文件夹里的对象都清除了,但是我们还是可以通过执行 git log 或者其他命令获取到对象相关的信息:

在这里插入图片描述

通过 cat-file 命令还是能查看到「commit 对象」、「tree 对象」、「blob 对象」:

在这里插入图片描述

通过这个 .idx 文件我们就能快速到找到 .pack 文件中对应的 commit 或者 blob的内容。

查看压缩文件

我们可以通过 git verify-pack -v <fileName> 命令来查看压缩文件:

在这里插入图片描述

从上图可以看到,.pack 文件保存了之前 add、commit 生成的「commit 对象」、「tree 对象」、「blob 对象」。我们来重点看看标注的地方:

黄色框内的数字就是文件的大小及压缩等信息,红色线就是第一次add的生成的「blob 对象」,蓝色线就是之后3次 add 生成「blob 对象」,后面同时还带上了第一次add的生成的「blob 对象」,说明记录的只是文件的差异,因此在经过压缩后 .git/objects 文件大小会明显降低。

压缩的作用

在传输过程中减少带宽,减少本地磁盘的占用空间。

我们在执行 push 的时候,推送的就是压缩的 pack 文件(减少带宽,较少上传时间),但是我们本地的仓库并没有被压缩:

在这里插入图片描述

我们来看一个更明显的例子,拉取 vue 的代码:

git clone git@github.com:vuejs/vue.git

在这里插入图片描述

可以看到有 62255 个对象,.git 文件大小为 31.51MB。

在这里插入图片描述

从 .git/objects 文件中也可以看到下载的对象都是经过压缩的。 Git 也提供了一个 unpack-objects 命令来帮助我们把对象解压出来。

不过我们不能直接把 .git/objects/pack 文件夹中的 .pack 文件进行解压,需要移动到其他文件夹中:

在这里插入图片描述

在上图中我们把 .pack 文件移动到 .git 目录下:

在这里插入图片描述
之后执行解压缩命令 git unpack-objects < .git\pack-6abcda5b8a6ba30f796c774e6177e10757ff9865.pack :

在这里插入图片描述

可以看到相比起压缩的 .pack 文件,解压出来的对象占用空间更大,如果我们 clone 仓库的时候,对象没有压缩,那么我们将耗费更多的带宽及下载时间。

垃圾对象清理

我们在执行一些 Git 操作的时候,会生成一些「blob 对象」等,这些没有被引用的对象就是垃圾对象。

什么意思呢,比如我们重复修改一个文件,每次修改后都执行 add 命令添加到「暂存区」,之后执行 commit 保存版本,那么在期间生成的一些「blob 对象」没有被引用(只有最后一次 add 生成的「blob 对象」才被引用了),这些就是垃圾对象。前面说了如果这些文件非常大,那么就会导致 .git 文件变得非常大,因此清理垃圾对象非常重要。

我们来看看下面的示例,执行三次 add 命令和一次 commit,那么就会生成 5 个对象:

在这里插入图片描述
在这里插入图片描述

通过 cat-file 命令来看看「commit 对象」到底引用了哪些对象:

在这里插入图片描述

可以看 7a(「tree 对象」)、d8(「blob 对象」)、c8(「commit 对象」)都是存在引用的,8f、37 文件里的就是垃圾对象。

Git 也提供了一些命令来让我们查看未引用的对象:

git fsck --dangling 或者 git prune -n

在这里插入图片描述

清除命令

  • git prune
  • git gc

git gc 在压缩对象的时候也会执行 git prune。

在执行 git gc 进行压缩后,可以看到 .pack 文件里实际只有三个对象,其余两个垃圾对象并没有被记录下来:

在这里插入图片描述

分支

如果我们在分支上进行 add、commit 操作,之后把这个分支删除掉,那么对于我们来说在分支上生成的这些对象都是垃圾,都是需要清除的,但是对于 Git 来说这些却不是垃圾对象,因为它会觉得我们可能会需要执行 checkout 命令把这些对象重新取出来。

比如我们新建一个 newBranch 分支,修改文件并执行 add 、commit,然后切换回 master 分支把这个分支删除掉:

在这里插入图片描述

在这里插入图片描述

可以看到我们执行 git prune -n 并没有提示有任何的垃圾对象,执行 git prune 删除也没反应。

其实通常我们是不需要删除这种对象的,除非我们非常确定这个对象该删除(存在一些秘密信息或者大量无用文件),那么我们可以执行一下命令:

git -c gc.reflogExpire=0 -c gc.reflogExpireUnreachable=0 -c gc.rerereresolved=0 -c gc.rerereunresolved=0  -c gc.pruneExpire=now gc "$@"

地址

文章仓库地址:https://github.com/leopord-lau/easy-git

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/345552.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

6.php开发-个人博客项目Tp框架路由访问安全写法历史漏洞

目录 知识点 php框架——TP URL访问 Index.php-放在控制器目录下 ​编辑 Test.php--要继承一下 带参数的—————— 加入数据库代码 --不过滤 --自己写过滤 --手册&#xff08;官方&#xff09;的过滤 用TP框架找漏洞&#xff1a; 如何判断网站是thinkphp&#x…

​比特币大跌的 2 个原因

撰文&#xff1a;秦晋 原文来自Techub News&#xff1a;​比特币大跌的 2 个原因 比特币迎来大跌&#xff01;1 月 23 日凌晨&#xff0c;比特币跌破 40000 美元&#xff0c;为去年 12 月 4 日以来首次&#xff0c;日内跌超 3%。这是自 1 月 10 日美国证监会审批通过 11 只比…

Conda python运行的包和环境管理 入门

Conda系列&#xff1a; 翻译: Anaconda 与 miniconda的区别Miniconda介绍以及安装 Conda 是一个功能强大的命令行工具&#xff0c;用于在 Windows、macOS 和 Linux 上运行的包和环境管理。 本 conda 入门指南介绍了启动和使用 conda 创建环境和安装包的基础知识。 1. 准备…

学习推荐!!HTML5+CSS3从入门到精通

获取方式&#xff1a; 《HTML 5 CSS3从入门到精通》 《HTML5CSS3从入门到精通目录》 第1章 Web开发新时代 第2章 从HTML、XHTML到HTML5 第3章 创建HTML5文档 第4章 实战HTML5表单 第5章 实战HTML5画布 第6章 HTML5音频与视频 第7章 Web存储 第8章 离线应用 第9章 Workers多线…

K8S的HPA

horiztal Pod Autoscaling&#xff1a;pod的水平自动伸缩&#xff0c;这是k8s自带的模块&#xff0c;它是根据Pod占用cpu比率到达一定的阀值&#xff0c;会触发伸缩机制 Replication controller 副本控制器&#xff1a;控制pod的副本数 Deployment controller 节点控制器&…

从开发、部署到维护:SAAS与源代码小程序的全流程对比

在数字化时代&#xff0c;小程序已成为企业开展业务的重要工具。然而&#xff0c;小程序开发过程中存在多种形式&#xff0c;其中SAAS版本小程序和源代码小程序是最常见的两种。乔拓云SaaS系统作为业界领先的SaaS服务平台&#xff0c;为企业提供高效、便捷的小程序解决方案。与…

echarts 去掉x轴或y轴中的刻度线(分割x轴数值的线)

解决方法 将 xAxis 或者 yAxis 对象下的 axisTick 属性配置 show: false&#xff0c;代码如下&#xff1a; xAxis: {type: category,data: [Mon, Tue, Wed, Thu, Fri, Sat, Sun],//添加以下配置axisTick: { show: false} },效果

【大数据】Flink 系统架构

Flink 系统架构 1.Flink 组件1.1 JobManager1.2 ResourceManager1.3 TaskManager1.4 Dispatcher 2.应用部署2.1 框架模式2.2 库模式 3.任务执行4.高可用设置4.1 TaskManager 故障4.2 JobManager 故障 Flink 是一个用于状态化并行流处理的分布式系统。它的搭建涉及多个进程&…

大厂咋做多系统数据同步方案的?

1 背景 业务线与系统越来越多&#xff0c;系统或业务间数据同步需求也越频繁。当前互联网业务系统大多MySQL数据存储与处理方案&#xff1a; 随信息时代爆炸&#xff0c;大数据量场景下慢慢凸显短板&#xff0c;如&#xff1a;需对大量数据全文检索&#xff0c;对大量数据组合…

java web mvc-02-struts2

拓展阅读 Spring Web MVC-00-重学 mvc mvc-01-Model-View-Controller 概览 web mvc-03-JFinal web mvc-04-Apache Wicket web mvc-05-JSF JavaServer Faces web mvc-06-play framework intro web mvc-07-Vaadin web mvc-08-Grails Struts2 Apache Struts是一个用于创…

Mybatis四大组件

一、Mybatis四大组件 SqlSessionFactoryBuild、SqlSessionFactory、SqlSession、Mapper。 二、SqlSession四大对象 Executor、StatementHandler、ParameterHandler、ResultSetHandler。 这里阐述一下上图的流程 Exeutor发起sql执行任务 1、先调用statementHandler中的pre…

【昕宝爸爸小模块】深入浅出之为什么POI的SXSSFWorkbook占用内存更小

➡️博客首页 https://blog.csdn.net/Java_Yangxiaoyuan 欢迎优秀的你&#x1f44d;点赞、&#x1f5c2;️收藏、加❤️关注哦。 本文章CSDN首发&#xff0c;欢迎转载&#xff0c;要注明出处哦&#xff01; 先感谢优秀的你能认真的看完本文&…

C++ -- 入门(引用)

1.引用 1.1引用的概念 引用不是新定义一个变量&#xff0c;而是给已存在变量取了一个别名&#xff0c;编译器不会为引用变量开辟内存空间&#xff0c;它和它引用的变量共用同一块内存空间。 比如&#xff1a;李逵&#xff0c;在家称为"铁牛"&#xff0c;江湖上人称&q…

搭建Android开发环境—— 熟悉Android开发工具,掌握Android移动端开发环境的搭建、项目导入,并能够将项目部署到模拟器和真机进行测试。

搭建Android开发环境 一、实验目的 熟悉Android开发工具&#xff0c;掌握Android移动端开发环境的搭建、项目导入&#xff0c;并能够将项目部署到模拟器和真机进行测试。 二、实验设备及器件 1、JDK1.8安装包 2、Android Studio安装包 三、实验内容 完成JDK和Android Stud…

java web mvc-06-play framework intro

拓展阅读 Spring Web MVC-00-重学 mvc mvc-01-Model-View-Controller 概览 web mvc-03-JFinal web mvc-04-Apache Wicket web mvc-05-JSF JavaServer Faces web mvc-06-play framework intro web mvc-07-Vaadin web mvc-08-Grails 开源 The jdbc pool for java.(java …

中仕教育:“三不限”事业编的含义

所谓“三不限”&#xff0c;是指在报考事业单位时&#xff0c;对考生的户籍、年龄、学历不作任何限制。所以全国各地的考生只要符合招聘条件&#xff0c;都可以报考。所以每一年的三不限岗位竞争压力都比较大&#xff0c;报考人数都有很多。 ‘三不限’岗位招考信息在哪里看?…

测试用例评审流程

1:评审的过程 A:开始前做好如下准备 1、确定需要评审的原因 2、确定进行评审的时机 3、确定参与评审人员 4、明确评审的内容 5、确定评审结束标准 6、提前至少一天将需要评审的内容以邮件的形式发送给评审会议相关人员。并注明详审时间、地点及偿参与人员等。 7、 在邮件中提醒…

智慧之光:ChatGPT 引领工作效率新纪元

随着科技的不断发展&#xff0c;人工智能&#xff08;AI&#xff09;已经逐渐融入我们的日常生活和工作中。其中&#xff0c;ChatGPT 作为一种先进的 AI 技术&#xff0c;正逐步改变我们的工作方式&#xff0c;提升我们的工作效率。本文灸哥将介绍如何利用ChatGPT提升工作效率&…

数据结构(C语言版)代码实现(三)——单链表部分代码实现

目录 格式 头文件 宏定义 线性表的单链表存储结构 按位查找 插入元素 删除元素 头插法建立单链表 合并非递减单链表 其他基本操作 完整版 测试代码&#xff08;主函数&#xff09; 测试结果 格式 参考 2.3节 线性表的链式表示和实现 头文件 宏定义 #pragma onc…

基于机会网络编码(COPE)的卫星网络路由算法matlab仿真

目录 1.程序功能描述 2.测试软件版本以及运行结果展示 3.核心程序 4.本算法原理 4.1机会网络编码&#xff08;COPE&#xff09;概述 4.2COPE算法原理 4.2.1 编码机会预测 4.2.2 编码决策 4.2.3 数据包编码 4.2.4 数据包传输 4.2.5 数据包解码 5.完整程序 1.程序功能…