如何获取csv文件中归档数量的不同字数

Posted

技术标签:

【中文标题】如何获取csv文件中归档数量的不同字数【英文标题】:How to get distinct word count of number of filed in a csv file 【发布时间】:2021-08-10 08:48:23 【问题描述】:

如您所见,我在此文件中有 3 个字段,但国家/地区可能有逗号。所以,我不希望它被视为一个领域。这就是为什么我想获得此文件中归档数量的不同字数。

ankit.rohilla Desktop $ head RandomizerCodes20210520.csv
Effective Date,Number,Country
05/25/2021,186800881,Trinidad and Tobago
05/25/2021,186800885,Trinidad and Tobago
05/25/2021,186800893,Trinidad and Tobago
05/25/2021,186800870,Trinidad and Tobago
05/25/2021,186800876,Trinidad and Tobago
05/25/2021,186800181,Trinidad and Tobago
05/25/2021,186800110,Trinidad and Tobago
05/25/2021,186800125,Trinidad and Tobago
05/25/2021,186800172,Trinidad and Tobago
ankit.rohilla Desktop $

【问题讨论】:

请以代码的形式添加您的努力,这是非常鼓励的,谢谢。 如果您在解析国家名称中包含逗号的输入时寻求帮助,则在示例输入/输出中包含国家名称中包含逗号的行,以 a) 演示您要问的问题寻求帮助,并且 b) 给我们一些可以测试潜在解决方案的东西。 【参考方案1】:

知道了,解决办法是:

ankit.rohilla Desktop $ awk -F "\"*,\"*" 'print NF' RandomizerCodes20210520.csv | uniq -c
1408720 3
ankit.rohilla Desktop $

其中 3 是我要查找的值,1408720 是此文件的字数。

【讨论】:

在 shell 中,您应该始终在所有字符串周围使用单引号,除非您出于某些特定目的需要双引号或不使用引号(请参阅mywiki.wooledge.org/Quotes)。如果您遵循该建议,那么-F"\"*,\"*"(以及许多其他事情)会变得更简单,-F'"*,"*' 顺便说一下,有一个更简单的解决方案,一旦您解决了您的问题,我们可以为您提供帮助。

以上是关于如何获取csv文件中归档数量的不同字数的主要内容,如果未能解决你的问题,请参考以下文章

dotnet C# 如何正确获取藏文的字数

dotnet C# 如何正确获取藏文的字数

Linux 中如何查看文件的行数,字数,字节数

从我的应用程序的用户那里获取喜欢并将其归档到csv中

如何在 R 中加入来自 2 个不同 csv 文件的数据?

如何获取 Google Play 应用的 beta 用户数量