从字符串中提取单词 - 微妙的问题
Posted
技术标签:
【中文标题】从字符串中提取单词 - 微妙的问题【英文标题】:Extracting words from a string - delicate problem 【发布时间】:2019-04-07 20:24:22 【问题描述】:我需要帮助从 C++ 中的字符串中提取单词。在我试图完成的练习的定义中,单词是任何由非字母或数字字符包围的字母和数字序列(例如标点符号、空格等)。例如:
This.Is.a.String
我的程序应该创建一个字符串向量,其中向量的元素将是来自上述字符串的单个单词,在本例中为“This”、“Is”、“a”、“String”。
我尝试使用 for 循环遍历给定的字符串,并检查一个条件,即每当我们现在所在的字符是(按 ASCII 值)A 和 Z(a 和 z)和数字 0 和9、把它串起来。接下来,将该字符串放入向量中,并将字符串的大小调整为 0(这样我们就可以输入另一个单词。)这似乎不起作用...
vector<string> Function(string s)
char letter;
string r;
vector<string> vector_string;
for(int i=0; i<s.length(); i++)
letter=toupper(s.at(i)); // I do this so all letters are capital letters, so it's easier to compare them
r.resize(0);
while((letter>=65 || letter<=90) && (letter>=48 || letter<=57))
r.push_back(s.at(i));
vector_string.push_back(r);
return vector_string;
附:我对 C++ 很陌生。我知道这远非解决方案,但我必须从某个地方开始。如果你们中的任何人能帮助我在这里做什么,我将非常感激!这有点令人沮丧。
感谢您抽出宝贵时间!
【问题讨论】:
您确定在 while 循环中包含小写字母吗?另外,while循环将如何终止?您没有在循环体中进行任何修改来更改循环条件表达式中的变量。<regex>
标头是你的朋友。
我认为你的 while
条件是错误的 - 你想要 while((letter>=65 && letter<=90) || (letter>=48 && letter<=57))
@Steve 这只是众多错误之一。
找出一个算法来做到这一点并不需要任何 C++ 技能。这是第一步。将该算法转换为 C++ 是第二步,这确实需要 C++ 技能。但是我认为您停留在第一步而不是第二步,您的 C++ 技能对我来说似乎还可以。所以想想算法,不用过多担心C++。
【参考方案1】:
你有一个无限循环。而且它的条件是不正确的。
这里有一个改进:
vector<string> split(string s)
char letter;
vector<string> vector_string;
for(int i=0; i<s.length(); )
if (isalnum(s[i]))
string r;
do
r.push_back(s[i++]);
while(i<s.length() && isalnum(s[i]));
vector_string.push_back(r);
else i++;
return vector_string;
Online demo
此修订版本使用预定的isalnum()
来获取单词中的字母数字字符。
为了编写更清晰的条件,作为一般规则,更喜欢在<cctype>
或更好的locale-aware counterparts 中使用标准的字符分类谓词。
编辑:如果你可以使用正则表达式?
不确定是否允许,但代码如下所示:
vector<string> split(string s)
regex word_definition("([a-zA-Z0-9]+)");
auto words_begin = sregex_iterator(s.begin(), s.end(), word_definition);
auto words_end = sregex_iterator();
vector<string> vector_string;
for(auto i = words_begin; i!=words_end; i++)
vector_string.push_back(i->str());
return vector_string;
【讨论】:
请在推回vector_string之前为r添加一个空性检查。 @ElvirCrncevic 如果使用一些具有多个分隔符的随机字符串进行测试,则不仅仅是空性检查;-) 我是否还建议添加 isalpha 以进一步简化代码? @ElvirCrncevic 是的,你可以 :-) 完成!以上是关于从字符串中提取单词 - 微妙的问题的主要内容,如果未能解决你的问题,请参考以下文章