git底层原理以及丢失文件找回和坑爹案例(一招干没我2个月的项目)

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了git底层原理以及丢失文件找回和坑爹案例(一招干没我2个月的项目)相关的知识,希望对你有一定的参考价值。

参考技术A 为啥要写这篇文章呢?因为 2017-03-28日清 晨 的一次情趣使然的提交干掉了我2个月的项目。。。

为啥能干掉2个月的?因为是个人没事做着玩的所以2个月一直没提交过。

工作环境 是 win10+sourcetree+git+unreal工程

记得那是一个朦朦胧胧的清晨(雾霾),我兴奋的从床上跳了起来(我的项目终于告一段落)。我打开电脑,打开sourcetree提交一下以免夜长梦多。

我整理了文件并且对比了变化。把整理过的文件add了一下,然后成功的commit(都TMD的是错觉 sourcetree bug了根本没add成功)之后我点击了push。。然后sourcetree 提示了一堆异常,其中有一条叫我用终端执行  git reset --hard 理由是我的工作区有垃圾文件,叫我清空下!

我不由自主的考虑了一下,

听sourcetree的,你说执行就执行~

然后我打开了终端执行了那条命令之后突然感觉哪里不对

我打开工作目录发现git清空了我2个月的项目,什么都没有了,真TMD的干净。

然后我去网上搜索如何找回。发现了好多方法,比如git reflog 这样就能看见自己的所有commit

然后在 git reset  --hard 后面写上你想要的commit id  就能找到文件

然后我执行完 git reflog后 发现根本没有我最后的那次提交。突然间恍然大悟,刚刚sourcetree 可能bug了导致commit失败了

然后我发现了另一条命令 git fsck --lost-found  执行后会出现一堆文件 在 .git/lost-found  文件夹里 不过是这个样子的

网上老哥说了 用 git show 2e43cd56ee4fb08664cd843cd32836b54fbf594a 就能看见内容

原来 2进制的文件看不见

然后我再次发现了新命令 find .git/objects -type f | xargs ls -lt | sed 110q    q前面是你要打印的行

这个命令已经脱离git了,他是终端的一个 查找命令 就是查找 .git/objects 文件夹下的普通文件 按照时间排序后 打印在终端里 sed 110q 是你要打印多少行。

要看懂这个命令就需要了解git底层的工作原理

讲一下git 原理

GIT对象模型

SHA

所有用来表示项目历史信息的文件,是通过一个40个字符的(40-digit)“对象名”来索引的,对象名看起来像这样:

6ff87c4664981e4397625791c8ea3bbb5f2279a3

你会在Git里到处看到这种“40个字符”字符串。每一个“对象名”都是对“对象”内容做SHA1哈希计算得来的,(SHA1是一种密码学的哈希算法)。这样就意味着两个不同内容的对象不可能有相同的“对象名”。

这样做会有几个好处:

Git只要比较对象名,就可以很快的判断两个对象是否相同。

因为在每个仓库(repository)的“对象名”的计算方法都完全一样,如果同样的内容存在两个不同的仓库中,就会存在相同的“对象名”下。

Git还可以通过检查对象内容的SHA1的哈希值和“对象名”是否相同,来判断对象内容是否正确。

对象

每个对象(object) 包括三个部分: 类型 , 大小 和 内容 。大小就是指内容的大小,内容取决于对象的类型,有四种类型的对象:"blob"、"tree"、 "commit" 和"tag"。

“blob” 用来存储文件数据,通常是一个文件。

“tree” 有点像一个目录,它管理一些 “tree” 或是 “blob” (就像文件和子目录)

一个 “commit” 只指向一个"tree",它用来标记项目某一个特定时间点的状态。它包括一些关于时间点的元数据,如时间戳、最近一次提交的作者、指向上次提交(commits)的指针等等。

一个 “tag” 是来标记某一个提交(commit) 的方法。

几乎所有的Git功能都是使用这四个简单的对象类型来完成的。它就像是在你本机的文件系统之上构建一个小的文件系统。

与SVN的区别

Git与你熟悉的大部分版本控制系统的差别是很大的。也许你熟悉Subversion、CVS、Perforce、Mercurial 等等,他们使用 “增量文件系统” (Delta Storage systems), 就是说它们存储每次提交(commit)之间的差异。Git正好与之相反,它会把你的每次提交的文件的全部内容(snapshot)都会记录下来。这会是在使用Git时的一个很重要的理念。

Blob对象

一个blob通常用来存储文件的内容.

你可以使用 git show 命令来查看一个blob对象里的内容。假设我们现在有一个Blob对象的SHA1哈希值,我们可以通过下面的的命令来查看内容:

$ git show 6ff87c4664

Note that the only valid version of the GPL as far as this project

is concerned is _this_ particular version of the license (ie v2, not

v2.2 or v3.x or whatever), unless explicitly otherwise stated.

...

一个"blob对象"就是一块二进制数据,它没有指向任何东西或有任何其它属性,甚至连文件名都没有.

因为blob对象内容全部都是数据,如两个文件在一个目录树(或是一个版本仓库)中有同样的数据内容,那么它们将会共享同一个blob对象。Blob对象和其所对应的文件所在路径、文件名是否改被更改都完全没有关系。

Tree 对象

一个tree对象有一串(bunch)指向blob对象或是其它tree对象的指针,它一般用来表示内容之间的目录层次关系。

git show 命令还可以用来查看tree对象,但是 git ls-tree 能让你看到更多的细节。如果我们有一个tree对象的SHA1哈希值,我们可以像下面一样来查看它:

$ git ls-tree fb3a8bdd0ce

100644 blob 63c918c667fa005ff12ad89437f2fdc80926e21c    .gitignore

100644 blob 5529b198e8d14decbe4ad99db3f7fb632de0439d    .mailmap

100644 blob 6ff87c4664981e4397625791c8ea3bbb5f2279a3    COPYING

040000 tree 2fb783e477100ce076f6bf57e4a6f026013dc745    Documentation

100755 blob 3c0032cec592a765692234f1cba47dfdcc3a9200    GIT-VERSION-GEN

100644 blob 289b046a443c0647624607d471289b2c7dcd470b    INSTALL

100644 blob 4eb463797adc693dc168b926b6932ff53f17d0b1    Makefile

100644 blob 548142c327a6790ff8821d67c2ee1eff7a656b52    README

...

就如同你所见,一个tree对象包括一串(list)条目,每一个条目包括:mode、对象类型、SHA1值 和名字(这串条目是按名字排序的)。它用来表示一个目录树的内容。

一个tree对象可以指向(reference): 一个包含文件内容的blob对象, 也可以是其它包含某个子目录内容的其它tree对象. Tree对象、blob对象和其它所有的对象一样,都用其内容的SHA1哈希值来命名的;只有当两个tree对象的内容完全相同(包括其所指向所有子对象)时,它的名字才会一样,反之亦然。这样就能让Git仅仅通过比较两个相关的tree对象的名字是否相同,来快速的判断其内容是否不同。

(注意:在submodules里,trees对象也可以指向commits对象. 请参见 Submodules 章节)

注意:所有的文件的mode位都是644 或 755,这意味着Git只关心文件的可执行位.

Commit对象

"commit对象"指向一个"tree对象", 并且带有相关的描述信息.

你可以用 --pretty=raw 参数来配合 git show 或 git log 去查看某个提交(commit):

$ git show -s --pretty=raw 2be7fcb476

commit 2be7fcb4764f2dbcee52635b91fedb1b3dcf7ab4

tree fb3a8bdd0ceddd019615af4d57a53f43d8cee2bf

parent 257a84d9d02e90447b149af58b271c19405edb6a

author Dave Watson  1187576872 -0400

committer Junio C Hamano  1187591163 -0700

Fix misspelling of 'suppress' in docs

Signed-off-by: Junio C Hamano

你可以看到, 一个提交(commit)由以下的部分组成:

一个 tree 对象: tree对象的SHA1签名, 代表着目录在某一时间点的内容.

父对象 (parent(s)): 提交(commit)的SHA1签名代表着当前提交前一步的项目历史. 上面的那个例子就只有一个父对象; 合并的提交(merge commits)可能会有不只一个父对象. 如果一个提交没有父对象, 那么我们就叫它“根提交"(root commit), 它就代表着项目最初的一个版本(revision). 每个项目必须有至少有一个“根提交"(root commit). 一个项目可能有多个"根提交“,虽然这并不常见(这不是好的作法).

作者 : 做了此次修改的人的名字, 还有修改日期.

提交者 (committer): 实际创建提交(commit)的人的名字, 同时也带有提交日期. TA可能会和作者不是同一个人; 例如作者写一个补丁(patch)并把它用邮件发给提交者, 由他来创建提交(commit).

- 注释 用来描述此次提交.

注意: 一个提交(commit)本身并没有包括任何信息来说明其做了哪些修改; 所有的修改(changes)都是通过与父提交(parents)的内容比较而得出的. 值得一提的是, 尽管git可以检测到文件内容不变而路径改变的情况, 但是它不会去显式(explicitly)的记录文件的更名操作. (你可以看一下 git diff 的 -M 参数的用法)

一般用 git commit 来创建一个提交(commit), 这个提交(commit)的父对象一般是当前分支(current HEAD), 同时把存储在当前索引(index)的内容全部提交.

对象模型

现在我们已经了解了3种主要对象类型(blob, tree 和 commit), 好现在就让我们大概了解一下它们怎么组合到一起的.

如果我们一个小项目, 有如下的目录结构:

$>tree

.

|-- README

`-- lib

|-- inc

|   `-- tricks.rb

`-- mylib.rb

2 directories, 3 files

如果我们把它提交(commit)到一个Git仓库中, 在Git中它们也许看起来就如下图:

你可以看到: 每个目录都创建了 tree对象 (包括根目录), 每个文件都创建了一个对应的 blob对象 . 最后有一个 commit对象 来指向根tree对象(root of trees), 这样我们就可以追踪项目每一项提交内容.

标签对象

一个标签对象包括一个对象名(译者注:就是SHA1签名), 对象类型, 标签名, 标签创建人的名字("tagger"), 还有一条可能包含有签名(signature)的消息. 你可以用 git cat-file 命令来查看这些信息:

$ git cat-file tag v1.5.0

object 437b1b20df4b356c9342dac8d38849f24ef44f27

type commit

tag v1.5.0

tagger Junio C Hamano  1171411200 +0000

GIT 1.5.0

-----BEGIN PGP SIGNATURE-----

Version: GnuPG v1.4.6 (GNU/Linux)

iD8DBQBF0lGqwMbZpPMRm5oRAuRiAJ9ohBLd7s2kqjkKlq1qqC57SbnmzQCdG4ui

nLE/L9aUXdWeTFPron96DLA=

=2E+0

-----END PGP SIGNATURE-----

点击 git tag , 可以了解如何创建和验证标签对象. (注意: git tag 同样也可以用来创建 "轻量级的标签"(lightweight tags), 但它们并不是标签对象, 而只一些以 "refs/tags/" 开头的引用罢了).

然后我从这一堆文件里整理出了 tree文件 并且总结出了规律

运行  find .git/objects -tpe f | xargs ls -lt | sed 100q 后会得到最近改动的100个文件

-r--r--r-- 1 qipaworld 197608     57103 3月  25 07:23 .git/objects/31/68e9047b751d98f7c280dab676cff4af3cb8f6  文件以这种形式显示在终端里

git cat-file -t 3168e9047b751d98f7c280dab676cff4af3cb8f6 就能看见文件类型   把最后一个/去掉 复制从objects/ 后面的所有东西放在-t后面

然后找到tree类型的文件

每个红框框选的区域里的类型应该是同一种,选一个cat 一下看看就行了

找到tree后 git cat-file -p 4452fd53aa36018b20a6556dc3649f50a4be4561 ^tree

就能看见tree里面的结构

然后就能知道 哪个blob对应哪个文件了。是不是很屌?

我搞了一晚上终于找到了某个tree并且跟到了文件目录。然后发现并没有我的项目文件,当时已经是半夜12点多了,我静静的看着屏幕

我连add都没成功就提示我commit成功了

以后谁叫你 reset --hard你就干他,别问我为什么

最终结果就是项目消失了,但是还好unreal 有自动保存功能,而自动保存的文件目录被我加到了git忽略列表里。找回了一部分

最后加一些git常用命令

查看、添加、提交、删除、找回,重置修改文件

git help  # 显示command的help

git show # 显示某次提交的内容 git show $id

git co --  # 抛弃工作区修改

git co . # 抛弃工作区修改

git add  # 将工作文件修改提交到本地暂存区

git add . # 将所有修改过的工作文件提交暂存区

git rm  # 从版本库中删除文件

git rm  --cached # 从版本库中删除文件,但不删除文件

git reset  # 从暂存区恢复到工作文件

git reset -- . # 从暂存区恢复到工作文件

git reset --hard # 恢复最近一次提交过的状态,即放弃上次提交后的所有本次修改

git ci  git ci . git ci -a # 将git add, git rm和git ci等操作都合并在一起做                                    git ci -am "some comments"

git ci --amend # 修改最后一次提交记录

git revert <$id> # 恢复某次提交的状态,恢复动作本身也创建次提交对象

git revert HEAD # 恢复最后一次提交的状态

查看文件diff

git diff  # 比较当前文件和暂存区文件差异 git diff

git diff  # 比较两次提交之间的差异

git diff .. # 在两个分支之间比较

git diff --staged # 比较暂存区和版本库差异

git diff --cached # 比较暂存区和版本库差异

git diff --stat # 仅仅比较统计信息

查看提交记录

git log git log  # 查看该文件每次提交记录

git log -p  # 查看每次详细修改内容的diff

git log -p -2 # 查看最近两次详细修改内容的diff

git log --stat #查看提交统计信息

tig

Mac上可以使用tig代替diff和log,brew install tig

Git 本地分支管理

查看、切换、创建和删除分支

git br -r # 查看远程分支

git br  # 创建新的分支

git br -v # 查看各个分支最后提交信息

git br --merged # 查看已经被合并到当前分支的分支

git br --no-merged # 查看尚未被合并到当前分支的分支

git co  # 切换到某个分支

git co -b  # 创建新的分支,并且切换过去

git co -b   # 基于branch创建新的new_branch

git co $id # 把某次历史提交记录checkout出来,但无分支信息,切换到其他分支会自动删除

git co $id -b  # 把某次历史提交记录checkout出来,创建成一个分支

git br -d  # 删除某个分支

git br -D  # 强制删除某个分支 (未被合并的分支被删除的时候需要强制)

分支合并和rebase

git merge  # 将branch分支合并到当前分支

git merge origin/master --no-ff # 不要Fast-Foward合并,这样可以生成merge提交

git rebase master  # 将master rebase到branch,相当于: git co  && git rebase master && git co master && git merge

Git补丁管理(方便在多台机器上开发同步时用)

git diff > ../sync.patch # 生成补丁

git apply ../sync.patch # 打补丁

git apply --check ../sync.patch #测试补丁能否成功

Git暂存管理

git stash # 暂存

git stash list # 列所有stash

git stash apply # 恢复暂存的内容

git stash drop # 删除暂存区

Git远程分支管理

git pull # 抓取远程仓库所有分支更新并合并到本地

git pull --no-ff # 抓取远程仓库所有分支更新并合并到本地,不要快进合并

git fetch origin # 抓取远程仓库更新

git merge origin/master # 将远程主分支合并到本地当前分支

git co --track origin/branch # 跟踪某个远程分支创建相应的本地分支

git co -b  origin/ # 基于远程分支创建本地分支,功能同上

git push # push所有分支

git push origin master # 将本地主分支推到远程主分支

git push -u origin master # 将本地主分支推到远程(如无远程主分支则创建,用于初始化远程仓库)

git push origin  # 创建远程分支, origin是远程仓库名

git push origin : # 创建远程分支

git push origin : #先删除本地分支(git br -d ),然后再push删除远程分支

Git远程仓库管理

GitHub

git remote -v # 查看远程服务器地址和仓库名称

git remote show origin # 查看远程服务器仓库状态

git remote add origin git@ github:robbin/robbin_site.git # 添加远程仓库地址

git remote set-url origin git@ github.com:robbin/robbin_site.git # 设置远程仓库地址(用于修改远程仓库地址) git remote rm  # 删除远程仓库

创建远程仓库

git clone --bare robbin_site robbin_site.git # 用带版本的项目创建纯版本仓库

scp -r my_project.git git@ git.csdn.net:~ # 将纯仓库上传到服务器上

mkdir robbin_site.git && cd robbin_site.git && git --bare init # 在服务器创建纯仓库

git remote add origin git@ github.com:robbin/robbin_site.git # 设置远程仓库地址

git push -u origin master # 客户端首次提交

git push -u origin develop # 首次将本地develop分支提交到远程develop分支,并且track

git remote set-head origin master # 设置远程仓库的HEAD指向master分支

也可以命令设置跟踪远程库和本地库

git branch --set-upstream master origin/master

git branch --set-upstream develop origin/develop

点击这里可以看到作者的其他文章

以上是关于git底层原理以及丢失文件找回和坑爹案例(一招干没我2个月的项目)的主要内容,如果未能解决你的问题,请参考以下文章

集群出现块丢失,块找回,以及相关底层原理,fsck等

(转)找回Git中丢失的Commit

Lua: 好的, 坏的, 和坑爹的

git切换分支导致代码丢失找回(git reflog找回错误的重置)

Git未提交代码,切换分支后,代码丢失,怎么找回

Git系列之底层原理篇