比较最后一个字符,不区分大小写(使用谓词?)

Posted

技术标签:

【中文标题】比较最后一个字符,不区分大小写(使用谓词?)【英文标题】:Comparing last characters, case insensitive (with a predicate?) 【发布时间】:2017-07-19 23:59:28 【问题描述】:

我有一个std::wstring fName 文件名,我想对其进行测试它是否具有 .txt 扩展名。这可行:

return ((fName.length() >= 4) && (0 == fName.compare(fName.length() - 4, 4, L".txt")));

但它区分大小写,这是我不想要的:我需要 blah.tXthello.TXT 都被接受。


这应该作为不区分大小写的版本:

std::wstring ext = L".txt";
wstring::const_iterator it = std::search(fName.end() - 4, fName.end(), ext.begin(), ext.end(), 
                               [](wchar_t ch1, wchar_t ch2)  return tolower(ch1) == ch2; ); 
                    // no need tolower(ch2) because the pattern .txt is already lowercase
return (it != str1.end());

std::search 可能远非最佳,因为它会搜索它是否包含 一个模式(在原始字符串中的任何位置),这里我只需要比较一个字一个字。


由于我需要对数百万个文件名进行测试,如何提高性能以检查文件名是否具有扩展名(不区分大小写).txt

我不想要简单的解决方案:

让我们将新变量中的 fName 小写(甚至将 fName 的最后 4 个字符小写)

然后比较

因为这需要新的变量、内存等。我可以就地与自定义谓词[](wchar_t ch1, wchar_t ch2) return tolower(ch1) == ch2; ) 进行比较吗?


注意:我不是在寻找 Boost 解决方案,也不是像 Case insensitive string comparison in C++ 这样的解决方案或许多未针对性能进行优化的类似问题。

【问题讨论】:

为什么不使用第一个变体,而不是 std::wstring::compare 使用 std::equal 与您的自定义谓词? return ((fName.length() >= 4) && (0 == fName.compare(fName.length() - 4, 4, L".txt"))); 如果扩展名超过 3 个字符怎么办?您的操作系统应该已经具有采用文件名并为您提供名称的适当部分的函数(例如 Windows Pathxxx 函数)。无需被角落案例绊倒。 @user1034749 你的意思是std::equal(fName.end() - ext.length(), fName.end(), ext.begin(), [](wchar_t ch1, wchar_t ch2) return tolower(ch1) == ch2; ) 吗?这似乎确实是解决方案! 【参考方案1】:

这个怎么样?

#include <string>
#include <algorithm>

template<typename CharT>
bool HasExtension(const std::basic_string<CharT>& fileName, const std::basic_string<CharT>& ext)

    auto b = fileName.begin() + fileName.length() - ext.length();
    auto a = ext.begin();

    while (b != fileName.end())
    
        if (*a++ != tolower(*b++))
        
             return false;
        
    
    return true;



int  main()

    std::string ext".Txt"; // make sure this is a lower case std::string.
    std::transform(ext.begin(), ext.end(), ext.begin(), tolower);  

    std::string fn"test.txt";

   return HasExtension(fn, ext) ? 0 : 1;

【讨论】:

【参考方案2】:

建议的解决方案是

#include <iostream>
#include <string>

bool isTXT(const std::wstring& str)

    std::wstring::size_type idx;
    idx = str.rfind('.');
    if( idx != std::wstring::npos )
        std::wstring ext = str.substr(idx+1);
        if( ext == L"txt" || ext == L"TXT" ) // do all possible combinations.
            return true;
    
    return false;


int main()

    std::wstring fileName = L"haihs.TXT";
    std::wcout << isTXT(fileName) << std::endl;

    return 0;

对于条件语句ext == L"txt" || ext == L"TXT",如果您不想创建一个wstring将其转换为小写或大写,则可以填写其余部分。

【讨论】:

【参考方案3】:

正如@fghj 的评论所建议的,这是一个不错的解决方案:

std::equal(fName.end() - ext.length(), fName.end(), ext.begin(),
           [](wchar_t ch1, wchar_t ch2)  return tolower(ch1) == ch2; );

【讨论】:

【参考方案4】:

如果您想要一个没有假设的实现(也不假设扩展名的长度,但假设文件的名称大小至少为 4 个字符):

char * testing = &fName[fName.length() - 4];
unsigned int index = 1;
unsigned int total = 0;
while(index < 4) 
    total += testing[index] << index;
    ++index;

return total == ('t' << 1) + ('x' << 2) + ('t' << 3) || total == ('T' << 1) + ('X' << 2) + ('T' << 3);

这是非常理想的,但假设其他扩展的 ASCII 值的总和与 .txt 扩展的 ascii 值的总和不匹配(我还假设扩展将有 3 个字符,就像你做的那样以上):

int index = fName.length();
int total = fName[--index] + fName[--index] + fName[--index];
return total == 't' + 'x' + 't' || 'T' + 'X' + 'T';

这是上面的一个更混乱的版本,但应该更快:

return *((int*)&fName[index - 4]) == '.' + 't' + 'x' + 't';

如果您知道其他扩展都不会以“t”结尾、中间没有“x”等,则可以通过执行以下操作进一步优化:

return fName[fName.length() - 1] == 't' || 'T;

【讨论】:

这两种方法都会导致未定义的行为。另外,这是否处理不区分大小写? assumes that the sum of the ASCII values of other extensions won't match the sum of the ascii values of .txt:我不认为这是一个有效的假设:.txt 的 ascii 字符总和与 .tys 相同...

以上是关于比较最后一个字符,不区分大小写(使用谓词?)的主要内容,如果未能解决你的问题,请参考以下文章

C ++ 11字符串开头的不区分大小写的比较(unicode)

Swift3.0语言教程比较判断字符串

字符串的字典比较[不区分大小写]

javascript比较字符串而不区分大小写[重复]

与一堆字符串比较不区分大小写

字符串比较时如何将Sqlite3设置为不区分大小写?