用于查找文档中字符出现次数的伪代码
Posted
技术标签:
【中文标题】用于查找文档中字符出现次数的伪代码【英文标题】:Pseudo code to find number of occurrence of characters in a documents 【发布时间】:2019-07-23 14:02:06 【问题描述】:我正在尝试为 MapReduce 技术编写伪代码,我需要在其中找到文档中字符的出现次数。例如:
m
:1000 次,M
:5000 次,“”:3000 次,
\n
:100 次,.
:20000 次等
有人可以告诉我这是正确的还是我可以做得更好?
我已经编写了如下所示的伪代码:
def Map(documentName, documentContent)
For Character in documentContent
EmitIntermediate(Character, 1)
def Reduce(Character, Counts)
Char_Count = 0
For count in Counts
Char_Count += count
Emit(Character,Char_Count)
我参考了一些在线可用的 Pseudo-Code for map-reduce 技术并写了这个。 例如,他们已经习惯了以下伪代码来查找文档中单词的出现次数:
def map(documentName, documentContent):
for line in documentContent:
words = line.split(" ")
for word in words:
EmitIntermediate(word, 1)
def reduce(word, counts):
wordCount = 0
for count in counts:
wordCount += count
Emit(word, wordCount)
【问题讨论】:
您能否提供我们按字符而不是单词分割的代码行? 【参考方案1】:def Map(documentName, documentContent)
For line in documentContent
Line_String = line
For Charcter in Line_String
EmitIntermediate(Character, 1)
def Reduce(Character, Counts)
Char_Count = 0
For count in Counts
Char_Count += count
Emit(Character,Char_Count)
【讨论】:
以上是关于用于查找文档中字符出现次数的伪代码的主要内容,如果未能解决你的问题,请参考以下文章