代码词汇统计

Posted

技术标签:

【中文标题】代码词汇统计【英文标题】:Code vocabulary statistics 【发布时间】:2011-06-25 18:28:44 【问题描述】:

几个月前,哈佛大学和 Google 的研究人员做了a study,他们挖掘了世界上 4% 书籍的完整文本,并得出了有关英语词汇的有趣统计数据。

有没有人为编程语言做过类似的事情?

【问题讨论】:

可能适合程序员.SE。 【参考方案1】:

是的,这是针对 github 中的大量代码和多种语言进行的类似分析:http://corte.si/posts/code/devsurvey/index.html

此外,在小范围内,与大多数 IDE 一起使用的代码分析和代码度量工具将在单个代码库中提供此类分析 - 吐出有趣的东西,如圈复杂度、代码行等 -它们在某种程度上相似。有点像分析一本书而不是图书馆。

【讨论】:

以上是关于代码词汇统计的主要内容,如果未能解决你的问题,请参考以下文章

中文词频统计

中文词频统计

markdown 统计词汇

2018.10.11 统计常用字母单词词汇

文本特征提取函数: 词袋法与TF-IDF(代码理解)

如何用python统计单词的频率