如何从 git diff 读取输出?
Posted
技术标签:
【中文标题】如何从 git diff 读取输出?【英文标题】:How to read the output from git diff? 【发布时间】:2011-02-01 12:49:17 【问题描述】:git-diff
的手册页相当长,并且解释了许多对初学者来说似乎不需要的情况。例如:
git diff origin/master
【问题讨论】:
通过使用不同的文本编辑器,行号的 @ ... @ 范围符号变得显而易见。 【参考方案1】:让我们看一下 git 历史中的高级差异示例(在 commit 1088261f in git.git repository 中):
diff --git a/builtin-http-fetch.c b/http-fetch.c
similarity index 95%
rename from builtin-http-fetch.c
rename to http-fetch.c
index f3e63d7..e8f44ba 100644
--- a/builtin-http-fetch.c
+++ b/http-fetch.c
@@ -1,8 +1,9 @@
#include "cache.h"
#include "walker.h"
-int cmd_http_fetch(int argc, const char **argv, const char *prefix)
+int main(int argc, const char **argv)
+ const char *prefix;
struct walker *walker;
int commits_on_stdin = 0;
int commits;
@@ -18,6 +19,8 @@ int cmd_http_fetch(int argc, const char **argv, const char *prefix)
int get_verbosely = 0;
int get_recover = 0;
+ prefix = setup_git_directory();
+
git_config(git_default_config, NULL);
while (arg < argc && argv[arg][0] == '-')
让我们逐行分析这个补丁。
第一行
diff --git a/builtin-http-fetch.c b/http-fetch.c是
diff --git a/file1 b/file2
形式的“git diff”标头。 a/
和 b/
文件名是相同的,除非涉及重命名/复制(如我们的例子)。 --git
表示差异是“git”差异格式。
接下来是一个或多个扩展标题行。前三个
相似指数 95% 从 builtin-http-fetch.c 重命名 重命名为 http-fetch.c告诉我们文件已从
builtin-http-fetch.c
重命名为 http-fetch.c
并且这两个文件 95% 相同(用于检测此重命名)。 扩展差异标头中的最后一行,即 index f3e63d7..e8f44ba 100644告诉我们给定文件的模式(
100644
表示它是普通文件而不是符号链接,它不'没有可执行权限位),以及关于 preimage(给定更改之前的文件版本)和 postimage(更改后的文件版本)的缩短哈希。 git am --3way
使用此行来尝试在无法自行应用补丁时进行 3 路合并。
接下来是两行统一的diff header
--- a/builtin-http-fetch.c +++ b/http-fetch.c与
diff -U
结果相比,它在源(原像)和目标(后像)之后没有 from-file-modification-time 和 to-file-modification-time文件名。如果文件已创建,则源为/dev/null
;如果文件被删除,则目标是/dev/null
。如果您将diff.mnemonicPrefix
配置变量设置为true,则可以在此两行标题中使用a/
和b/
前缀代替c/
, i/
, w/
和 o/
作为前缀,分别与您比较的内容相比;见git-config(1)
接下来是一大堆差异;每个大块显示文件不同的一个区域。统一格式 hunks 以行开头
@@ -1,8 +1,9 @@或
@@ -18,6 +19,8 @@ int cmd_http_fetch(int argc, const char **argv, ...格式为
@@ from-file-range to-file-range @@ [header]
,from-file-range为-<start line>,<number of lines>
,to-file-range为+<start line>,<number of lines>
,start-line和number-of-lines均参考大块在原像和后像中的位置和长度,如果没有显示行数,则表示它是1。
如果是 C 文件(如 GNU diff 中的 -p
选项)或其他类型文件的等效文件(如果有),则可选标头显示每次更改发生的 C 函数。
接下来是文件不同之处的描述。两个文件共有的行都以空格字符开头。两个文件之间实际不同的行在左侧打印列中具有以下指示符之一:
'+' -- 在第一个文件中添加了一行。
'-' -- 从第一个文件中删除了一行。
例如,第一个块
#include "cache.h"
#include "walker.h"
-int cmd_http_fetch(int argc, const char **argv, const char *prefix)
+int main(int argc, const char **argv)
+ const char *prefix;
struct walker *walker;
int commits_on_stdin = 0;
int commits;
表示cmd_http_fetch
被main
替换,并添加了const char *prefix;
这一行。
换句话说,在更改之前,'builtin-http-fetch.c' 文件的相应片段如下所示:
#include "cache.h"
#include "walker.h"
int cmd_http_fetch(int argc, const char **argv, const char *prefix)
struct walker *walker;
int commits_on_stdin = 0;
int commits;
更改后,现在“http-fetch.c”文件的这个片段看起来像这样:
#include "cache.h"
#include "walker.h"
int main(int argc, const char **argv)
const char *prefix;
struct walker *walker;
int commits_on_stdin = 0;
int commits;
可能有\文件末尾没有换行符存在行(它不在示例差异中)。
作为Donal Fellows said,最好练习阅读现实生活中的例子的差异,在那里你知道你已经改变了什么。
参考资料:
git-diff(1) manpage,“使用 -p 生成补丁”部分 (diff.info)Detailed Unified 节点,“统一格式详细说明”。【讨论】:
@Geremia:Git 使用基于相似性的启发式算法进行重命名检测……以及git blame -C -C
中的代码移动和复制检测,这就是它的工作原理;这是 Git 设计决策。 git diff 格式只是向用户显示相似(或不相似)索引。
@Geremia:更准确地说,[header]
是最接近的前面,就像在大块之前的函数开头一样。在大多数情况下,这一行包含 diff 块所在的函数的名称。这可以通过将diff
gitattribute 设置为差异驱动程序进行配置,并且差异驱动程序包括xfuncname
配置变量。
这是一个出色而全面的答案。几个月前我投了赞成票,但我一直在重新阅读它以巩固我的理解。我想查询一句:“如果不显示行数,则表示为0。”如果更改的行数为零,我会认为只是不会是大块头。使用GNU diff’s unified format,“如果一个块仅包含一行,则仅显示其起始行号”。我想 git 的差异也是如此。
@AnthonyGeoghegan:可能会删除行(则后映像中的行数为 0),或添加行(则前映像中的行数为 0)。
@KasunSiyambalapitiya:Git 使用的统一差异格式(相对于上下文差异格式^[1])不区分修改的行、删除的行和添加的行。 [1]:gnu.org/software/diffutils/manual/html_node/Context-Format.html【参考方案2】:
@@ -1,2 +3,4 @@
部分差异
这部分我花了一段时间才理解,所以我创建了一个最小的例子。
格式与diff -u
统一diff基本一致。
例如:
diff -u <(seq 16) <(seq 16 | grep -Ev '^(2|3|14|15)$')
这里我们删除了第 2、3、14 和 15 行。输出:
@@ -1,6 +1,4 @@
1
-2
-3
4
5
6
@@ -11,6 +9,4 @@
11
12
13
-14
-15
16
@@ -1,6 +1,4 @@
表示:
-1,6
表示第一个文件的这一段从第 1 行开始,共显示 6 行。因此它显示了第 1 到第 6 行。
1
2
3
4
5
6
-
表示“旧”,因为我们通常将其调用为diff -u old new
。
+1,4
表示第二个文件的这一段从第 1 行开始,共显示 4 行。因此它显示了第 1 到第 4 行。
+
表示“新”。
我们只有 4 行而不是 6 行,因为删除了 2 行!新帅只是:
1
4
5
6
@@ -11,6 +9,4 @@
对于第二个大块是类似的:
在旧文件上,我们有 6 行,从旧文件的第 11 行开始:
11
12
13
14
15
16
在新文件上,我们有 4 行,从新文件的第 9 行开始:
11
12
13
16
请注意,11
行是新文件的第 9 行,因为我们已经删除了前一个大块上的 2 行:2 和 3。
大块头
根据您的 git 版本和配置,您还可以在 @@
行旁边获取代码行,例如func1()
在:
@@ -4,7 +4,6 @@ func1()
这也可以通过普通diff
的-p
标志获得。
示例:旧文件:
func1()
1;
2;
3;
4;
5;
6;
7;
8;
9;
如果我们删除行6
,差异显示:
@@ -4,7 +4,6 @@ func1()
3;
4;
5;
- 6;
7;
8;
9;
请注意,这不是func1
的正确行:它跳过了1
和2
行。
这个很棒的功能通常可以准确地告诉每个块属于哪个函数或类,这对于解释差异非常有用。
选择标头的算法如何准确地工作在:Where does the excerpt in the git diff hunk header come from?
【讨论】:
这是为那些还不太明白的人准备的。在@@ -1,6 +1,4 @@
中,请不要将-1
读为minus one
或+1
作为plus one
,而是在旧(第一个)文件中将其读为line 1 to 6
。注意这里- implies "old"
不是减号。顺便说一句,感谢您的澄清……哈哈。
从这个@@ -1,8 +1,9 @@ 是否有可能解释实际发生的事情。例如 1) 添加了一行 2) 修改了一行并添加了一行,依此类推。或者是从另一种方式,因为应该有办法得到它们 git diff correclty 识别代码中的哪些行已被修改。请帮助我,因为我真的需要解决这个问题
请注意,这是不正确且非常具有误导性的,上面的答案中的这句话:“+1,4
说这一段对应于第二个文件的第 1 到第 4 行 ”。这是因为+1,4
可能指的是非条件上下文行。相反,“+1,4
”实际上意味着“在该文件的“版本”中有4
行(即上下文行)”。理解这些行开头的+
、-
和<whitespace>
的含义很重要,因为它适用于对帅哥的解释。一个更直观的例子:youtube.com/watch?v=1tqMjJeyKpw【参考方案3】:
这是一个简单的例子。
diff --git a/file b/file
index 10ff2df..84d4fa2 100644
--- a/file
+++ b/file
@@ -1,5 +1,5 @@
line1
line2
-this line will be deleted
line4
line5
+this line is added
这里有一个解释:
--git
不是命令,这意味着它是 git 版本的 diff(不是 unix)
a/ b/
是目录,它们不是真实的。当我们处理同一个文件时,这只是一种方便(在我的情况下,a/ 在索引中,b/ 在工作目录中)
10ff2df..84d4fa2
是这两个文件的 blob ID
100644
是“模式位”,表示这是一个常规文件(不可执行且不是符号链接)
--- a/file +++ b/file
减号显示 a/ 版本中的行,但 b/ 版本中缺少;加号表示 a/ 中缺少但 b/ 中存在的行(在我的情况下 --- 表示已删除的行,+++ 表示 b/ 中添加的行,这是工作目录中的文件)
@@ -1,5 +1,5 @@
为了理解这一点,最好使用大文件;如果您在不同的地方有两个更改,您将获得两个条目,例如@@ -1,5 +1,5 @@
;假设你有文件 line1 ... line100 并删除了 line10 并添加了新的 line100 - 你会得到:
@@ -7,7 +7,6 @@ line6 line7 line8 line9 -this line10 to be deleted line11 line12 line13 @@ -98,3 +97,4 @@ line97 line98 line99 line100 +this is new line100
【讨论】:
谢谢。 “100644 是模式位,表示这是一个常规文件(不可执行且不是符号链接)”。 “模式位”是 Linux 中的一个概念,还是只是 Git 中的一个概念? @Tim 不特定于 git。右边的 3 位数字 (644
) 将以八进制读取(值:1、2、4 分别为执行、写入和读取权限),并按顺序对应于所有者(用户),然后是组,然后是其他权限。所以简而言之,644
意味着如果象征性地写成u=rw,og=r
,那么每个人都可以读取,但只能由所有者写入。左边的其他数字编码其他信息,比如是否是符号链接等。值可以看到github.com/git/git/blob/…,该位置的第一个1是“常规文件”。【参考方案4】:
默认输出格式(如果您想查找更多信息,它最初来自称为diff
的程序)称为“统一差异”。它基本上包含 4 种不同类型的线条:
+
开头,
删除行,以-
开头,并且
描述更高级别内容的元数据行,例如正在讨论的文件、用于生成差异的选项、文件是否更改了权限等。
我建议您练习阅读文件的两个版本之间的差异,您可以确切地知道您所做的更改。这样,当您看到它时,您就会知道发生了什么。
【讨论】:
+1:关于练习的建议非常好 - 可能比试图痴迷阅读文档要快得多。【参考方案5】:在我的 Mac 上:
info diff
然后选择:Output formats
-> Context
-> Unified format
-> Detailed Unified
:
或online man diff 在 gnu 上遵循相同路径到相同部分:
文件:diff.info,节点:详细 统一,下一个:示例统一,上: 统一格式
统一格式详细说明 ....................................
统一输出格式开始 带有两行标题,看起来 像这样:
--- FROM-FILE FROM-FILE-MODIFICATION-TIME +++ TO-FILE TO-FILE-MODIFICATION-TIME
时间戳看起来像`2002-02-21 23:30:39.942229878 -0800' 表示 带小数的日期、时间 秒和时区。
您可以更改标题的内容 使用 `--label=LABEL' 选项;看 *注意别名::.
接下来是一大群人 差异;每个大块显示一个区域 文件不同的地方。统一 格式帅哥是这样的:
@@ FROM-FILE-RANGE TO-FILE-RANGE @@ LINE-FROM-EITHER-FILE LINE-FROM-EITHER-FILE...
两个文件共有的行 以空格字符开头。这 实际上不同的线 两个文件具有以下之一 左侧打印中的指示字符 专栏:
`+' 在第一个文件中添加了一行。
`-' 此处从第一个文件中删除了一行。
【讨论】:
请注意,git 不会打印 'XXX-FILE-MODIFICATION-TIME' 部分,因为它对版本控制系统没有意义。为了比较文件系统时间戳上的文件,可以起到“穷人”版本控制的作用。【参考方案6】:从您的问题中不清楚您对差异的哪一部分感到困惑:实际差异或 git 打印的额外标题信息。以防万一,这里是标题的快速概述。
第一行类似于diff --git a/path/to/file b/path/to/file
- 显然它只是告诉您这部分差异用于哪个文件。如果您设置布尔配置变量diff.mnemonic prefix
,a
和b
将更改为更具描述性的字母,例如c
和w
(提交和工作树)。
接下来,有“模式行”——这些行为您提供不涉及更改文件内容的任何更改的描述。这包括新的/删除的文件、重命名/复制的文件以及权限更改。
最后,有一行像index 789bd4..0afb621 100644
。您可能永远不会关心它,但那些 6 位十六进制数字是该文件的旧 blob 和新 blob 的缩写 SHA1 哈希(blob 是一个 git 对象,用于存储文件内容等原始数据)。当然,100644
是文件的模式——最后三位显然是权限;前三个提供额外的文件元数据信息 (SO post describing that)。
之后,您将使用标准的统一差异输出(就像经典的 diff -U
)。它被分成大块 - 大块是包含更改及其上下文的文件部分。每个块前面都有一对 ---
和 +++
行,表示有问题的文件,然后实际差异是(默认情况下)-
和 +
行两侧的三行上下文,显示删除/添加行。
【讨论】:
++index
行。确认git hash-object ./file
以上是关于如何从 git diff 读取输出?的主要内容,如果未能解决你的问题,请参考以下文章