从字符串中提取单词 - 微妙的问题

Posted

技术标签:

【中文标题】从字符串中提取单词 - 微妙的问题【英文标题】:Extracting words from a string - delicate problem 【发布时间】:2019-04-07 20:24:22 【问题描述】:

我需要帮助从 C++ 中的字符串中提取单词。在我试图完成的练习的定义中,单词是任何由非字母或数字字符包围的字母和数字序列(例如标点符号、空格等)。例如:

This.Is.a.String 

我的程序应该创建一个字符串向量,其中向量的元素将是来自上述字符串的单个单词,在本例中为“This”、“Is”、“a”、“String”。

我尝试使用 for 循环遍历给定的字符串,并检查一个条件,即每当我们现在所在的字符是(按 ASCII 值)A 和 Z(a 和 z)和数字 0 和9、把它串起来。接下来,将该字符串放入向量中,并将字符串的大小调整为 0(这样我们就可以输入另一个单词。)这似乎不起作用...

vector<string> Function(string s) 
    char letter;
    string r;
    vector<string> vector_string;
     for(int i=0; i<s.length(); i++) 
        letter=toupper(s.at(i));  // I do this so all letters are capital letters, so it's easier to compare them
        r.resize(0);
   while((letter>=65 || letter<=90) && (letter>=48 || letter<=57)) 

        r.push_back(s.at(i));

    
        vector_string.push_back(r);






 return vector_string;
  

附:我对 C++ 很陌生。我知道这远非解决方案,但我必须从某个地方开始。如果你们中的任何人能帮助我在这里做什么,我将非常感激!这有点令人沮丧。

感谢您抽出宝贵时间!

【问题讨论】:

您确定在 while 循环中包含小写字母吗?另外,while循环将如何终止?您没有在循环体中进行任何修改来更改循环条件表达式中的变量。 &lt;regex&gt; 标头是你的朋友。 我认为你的 while 条件是错误的 - 你想要 while((letter&gt;=65 &amp;&amp; letter&lt;=90) || (letter&gt;=48 &amp;&amp; letter&lt;=57)) @Steve 这只是众多错误之一。 找出一个算法来做到这一点并不需要任何 C++ 技能。这是第一步。将该算法转换为 C++ 是第二步,这确实需要 C++ 技能。但是我认为您停留在第一步而不是第二步,您的 C++ 技能对我来说似乎还可以。所以想想算法,不用过多担心C++。 【参考方案1】:

你有一个无限循环。而且它的条件是不正确的。

这里有一个改进:

vector<string> split(string s) 
    char letter;
    vector<string> vector_string;

    for(int i=0; i<s.length(); ) 
        if (isalnum(s[i])) 
            string r; 
            do   
               r.push_back(s[i++]);
             while(i<s.length() && isalnum(s[i]));
            vector_string.push_back(r);
        
        else i++; 
    
    return vector_string;

Online demo

此修订版本使用预定的isalnum() 来获取单词中的字母数字字符。

为了编写更清晰的条件,作为一般规则,更喜欢在&lt;cctype&gt; 或更好的locale-aware counterparts 中使用标准的字符分类谓词。

编辑:如果你可以使用正则表达式?

不确定是否允许,但代码如下所示:

vector<string> split(string s) 
    regex word_definition("([a-zA-Z0-9]+)");
    auto words_begin = sregex_iterator(s.begin(), s.end(), word_definition);
    auto words_end = sregex_iterator();

    vector<string> vector_string;
    for(auto i = words_begin; i!=words_end; i++) 
        vector_string.push_back(i->str());
    
    return vector_string;

【讨论】:

请在推回vector_string之前为r添加一个空性检查。 @ElvirCrncevic 如果使用一些具有多个分隔符的随机字符串进行测试,则不仅仅是空性检查;-) 我是否还建议添加 isalpha 以进一步简化代码? @ElvirCrncevic 是的,你可以 :-) 完成!

以上是关于从字符串中提取单词 - 微妙的问题的主要内容,如果未能解决你的问题,请参考以下文章

当我当时从单词中提取字符时,为啥单词中相似字符的置信度值不同?

从字符串中提取单词

如何从重复的字符串中提取单词

从python中的字符串中提取英文单词

从字符串中提取单词并将它们移动到数组中

使用python regex从字符串中提取单词