在 C++ 中处理字符串时如何使用 memset? [关闭]
Posted
技术标签:
【中文标题】在 C++ 中处理字符串时如何使用 memset? [关闭]【英文标题】:How to use memset while handling strings in C++? [closed] 【发布时间】:2019-10-21 03:10:47 【问题描述】:我来自 Python 背景,最近学习 C++。我正在学习一个名为 memset
的 C/C++ 函数,并按照网站 https://www.geeksforgeeks.org/memset-in-cpp/ 的在线示例进行操作,其中出现了一些编译错误:
/**
* @author : Bhishan Poudel
* @file : a02_memset_geeks.cpp
* @created : Wednesday Jun 05, 2019 11:07:03 EDT
*
* Ref:
*/
#include <iostream>
#include <vector>
#include <cstring>
using namespace std;
int main(int argc, char *argv[])
char str[] = "geeksforgeeks";
//memset(str, "t", sizeof(str));
memset(str, 't', sizeof(str));
cout << str << endl;
return 0;
使用单引号 't' 时出错 这会打印额外的字符。
tttttttttttttt!R@`
使用带双引号的“t”时出错
$ g++ -std=c++11 a02_memset_geeks.cpp
a02_memset_geeks.cpp:17:5: error: no matching function for call to 'memset'
memset(str, "t", sizeof(str));
^~~~~~
/usr/include/string.h:74:7: note: candidate function not viable: no known
conversion from 'const char [2]' to 'int' for 2nd argument
void *memset(void *, int, size_t);
^
1 error generated.
如何在 C++ 中使用 memset?
进一步研究
这里给出了具有memset
缺点的优秀教程:
https://web.archive.org/web/20170702122030/https:/augias.org/paercebal/tech_doc/doc.en/cp.memset_is_evil.html
【问题讨论】:
"t"
和 't'
不一样。
大多数 C++ 在线学习资源都是废话,该网站也不例外,请尝试一下:***.com/questions/388242/…
为什么还要在 C++ 中使用memset
?旧的 C 函数存在的原因是为了向后兼容。
这是一把上膛的枪,你把它对准你的左脚并扣动了扳机。你必须瞄准正确。
您不应该在回答问题的人下方更改问题。如果您接受评论或回答但仍然无法正常工作,您可以提出另一个问题,但这种将一个问题替换为另一个问题的编辑具有破坏性
【参考方案1】:
使用单引号 't' 时出错 这会打印额外的字符。
那是因为你覆盖了空终止符。
虽然it's not part of the logical string size,终结符是数组大小的一部分(数组不是魔法)。
所以,我想你的意思是:
memset(str, 't', strlen(str));
// ^^^^^^
使用带双引号的“t”时出错
完全不同的东西。您告诉计算机将字符串中的每个字符设置为字符串。没有意义;不会编译。
如何在 C++ 中使用 memset?
不要。
使用类型安全的std::fill
,结合std::begin
和std::end
:
std::fill(std::begin(str), std::end(str)-1, 't');
(如果您担心性能,请不要担心:这只会通过模板专业化委托给memset
,不需要优化,不会牺牲类型安全;example here in libstdc++。)
或者只是一个std::string
开始。 ?
我正在从https://www.geeksforgeeks.org/memset-in-cpp/ 学习 C++ 中的函数 memset,示例如下所示
不要尝试从随机网站学习 C++。换成a good book。
【讨论】:
不幸的是,在原始示例中它确实是sizeof
。可惜这样的代码是用来“教”c++的:(
@astro123 另一个选择一本好书的理由。 C++中有不同种类的文字,这与Python完全不同。
这个网站 (geeksforgeeks) 应该永远被禁止。
@astro123:从 geeksforgeeks.org/memset-in-cpp 在线学习这是你的第一个问题。该教程的小示例中有一个严重的错误。这在 geeksforgeeks.org 上并不罕见。有一些好东西,但它经常与坏东西混在一起,并且直到你已经是专家你不会知道如何区分。与 Stack Overflow 不同,geeksforgeeks 没有供人们审查帖子并表明其质量的投票机制,因此您无法知道应该信任哪些帖子。
@PeterCordes 真可惜,所以文档按照它的方式进行了......显然需要经过投票的策划教程。我相信最终会有人想出正确的设计。【参考方案2】:
此声明
char str[] = "geeksforgeeks";
声明一个字符数组,其中包含一个字符串,该字符串是一个字符序列,包括终止零符号'\0'
。
你可以想象声明如下等价方式
char str[] =
'g', 'e', 'e', 'k', 's', 'f', 'o', 'r', 'g', 'e', 'e', 'k', 's', '\0'
;
函数memset
的本次调用
memset(str, 't', sizeof(str));
覆盖数组的所有字符,包括终止零。
所以下一条语句
cout << str << endl;
导致未定义的行为,因为它在遇到终止零之前输出字符。
你可以改写
#include <iostream>
#include <cstring>
int main()
char str[] = "geeksforgeeks";
std::memset( str, 't', sizeof( str ) - 1 );
std::cout << str << '\n';
或者如下方式
#include <iostream>
#include <cstring>
int main()
char str[] = "geeksforgeeks";
std::memset( str, 't', std::strlen( str ) );
std::cout << str << '\n';
这就是保持数组中的终止零不变。
如果你想覆盖数组的所有字符,包括终止零,那么你应该替换这个语句
std::cout << str << '\n';
对于这个声明
std::cout.write( str, sizeof( str ) ) << '\n';
如下面的程序所示,因为数组现在不包含字符串了。
#include <iostream>
#include <cstring>
int main()
char str[] = "geeksforgeeks";
std::memset( str, 't', sizeof( str ) );
std::cout.write( str, sizeof( str ) ) << '\n';
至于这个电话
memset(str, "t", sizeof(str));
那么第二个参数的类型(即类型const char *
)不对应于类型为int
的第二个函数参数的类型。见函数声明
void * memset ( void * ptr, int value, size_t num );
因此编译器会发出错误消息。
除了字符数组(即使在 C++ 中也经常使用),您还可以使用模拟字符串的标准类 std::string
(或 std::basic_string
)。
在这种情况下,不需要使用标准 C 函数 memset 来用单个字符填充字符串。最简单的方法如下
#include <iostream>
#include <string>
int main()
std::string s( "geeksforgeeks" );
s.assign( s.length(), 't' );
std::cout << s << '\n';
另一种方法是使用标头<algorithm>
中声明的标准算法std::fill
或std::fill_n
。例如
#include <iostream>
#include <string>
#include <iterator>
#include <algorithm>
int main()
std::string s( "geeksforgeeks" );
std::fill( std::begin( s ), std::end( s ), 't' );
std::cout << s << '\n';
或
#include <iostream>
#include <string>
#include <iterator>
#include <algorithm>
int main()
std::string s( "geeksforgeeks" );
std::fill_n( std::begin( s ), s.length(), 't' );
std::cout << s << '\n';
你甚至可以使用 std::string
类的方法 replace
以下方法之一
#include <iostream>
#include <string>
int main()
std::string s( "geeksforgeeks" );
s.replace( 0, s.length(), s.length(), 't' );
std::cout << s << '\n';
或者
#include <iostream>
#include <string>
int main()
std::string s( "geeksforgeeks" );
s.replace( std::begin( s ), std::end( s ), s.length(), 't' );
std::cout << s << '\n';
【讨论】:
原帖清楚地表明用户正在尝试学习C++。请至少提一下,如果您使用std::string
,这些都无关紧要,应该在这里使用它而不是使用这种复杂的C
东西。 (虽然不是在课程开始时知道,但可能相关)
@JVApen 原帖清楚地表明用户正在尝试了解如何将 memset 与字符数组一起使用。:)
好答案。如果您希望它对 OP 更好:请注意类型系统的差异。 C++ 有一个静态类型系统,其中变量具有固定的静态类型。 Python 有一个完全动态的类型系统,其中值有类型而变量没有。这可能是他混淆't'
和"t"
的原因。
“模拟字符串”是什么意思?
@Ray 你错了。对于初学者来说,正确的声明看起来像 const char *str = "geeksforgeeks";在任何情况下,C 和 C++ 中的字符串文字都是不可变的。任何更改字符串文字的尝试都会导致未定义的行为。【参考方案3】:
这是 memset 的正确语法...
void* memset( void* dest, int ch, std::size_t count );
将值 ch 转换为 unsigned char 并将其复制到 dest 指向的对象的第一个 count 个字符中。如果对象是潜在重叠的子对象或者不是 TriviallyCopyable(例如,标量、C 兼容的结构或普通可复制类型的数组),则行为未定义。如果 count 大于 dest 指向的对象的大小,则行为未定义。
(source)
对于第一个语法memset(str, 't', sizeof(str));
。编译器因为额外的大小而抱怨。它打印了 18 次 tttttttttttttt!R@
。我建议尝试使用 sizeof(str) -1
来处理 char 数组。
对于第二个语法memset(str, "t", sizeof(str));
,您提供的第二个参数是一个字符串。这就是编译器报错的原因:从‘const char*’到‘int’的无效转换
【讨论】:
可能重叠的子对象是什么? UB 不会自动修改 C++ 中其他对象的对象表示。例如,uint32_t
具有完全定义的对象表示(除了字节序字节序)。所以不清楚你在说什么样的重叠,因为memset
只需要一个指针arg;其他参数是按值。与memmove
不同,该措辞对于禁止重叠的memcpy
是有意义的。
@PeterCordes 公平地说,这句话是从 cppreference.com 抄袭的。所以如果有错,cppreference.com 需要更正。
@LightnessRacesinOrbit:在 cppref 上,该短语是指向 a definition 的超链接,这是有道理的。如果 memset 也可能正在修改另一个对象的字节,那么它是 UB 是有可能的(因为指针指向使用 [[no_unique_address]]
声明的结构的子对象,允许编译器做它想做的任何事情,包括创建位域我猜对于窄或布尔类型)。我对“基类子对象”部分不太清楚;可能是 UB,因为它可以覆盖 vtable 指针?
@PeterCordes - 它在谈论something like this。在这里,base
可以简单地复制,但它对于memset
(或memmove
)不安全,或者因为它是一个可能重叠的子对象。注意sizeof(base) == 8
,但是当它被用作derived
(它本身有一个char
成员)的基础时,sizeof(derived) == 8
!所以派生的成员存储在base
的填充中。因此,用memset
覆盖任意base&
是不安全的,因为在这种情况下,您还会破坏派生成员。
还要注意这如何反映在 gcc 上的代码生成中,用于在 b = base
中清零 base
:它执行 qword
和 byte
写入,因为它不能安全地扩展它到单个qword
写入,因为填充可能被重用。然后查看base2
和derived2
:除了base2
是struct
而不是class
,它们是相同的。然后它变成一个聚合,我猜重叠是被禁止的(注意b = base2
codegen 是如何变化的)。【参考方案4】:
Vlad 对您问题的第一部分的回答很有帮助,但我觉得可以更直观地解释第二部分:
正如其他人提到的,'t'
是一个字符,而"t"
是一个字符串,字符串末尾有一个空终止符。这使得"t"
不是一个而是 两个 字符的数组 - ['t', '\0']
!这使得 memset 的错误更加直观——它可以很容易地将单个 char
强制转换为 int
,但是当它被赋予一个 char
s 数组时它会窒息。就像在 Python 中一样,int(['t', '\0'])
(或ord(['t', '\0'])
)不会计算。
【讨论】:
更准确地说,当传递“t”时,传递“t”中的“t”地址。因此,如果它被转换为memset
中的int
参数,它将是指向't' 的指针被转换为int
,而不是字符串的值被转换为int
。以上是关于在 C++ 中处理字符串时如何使用 memset? [关闭]的主要内容,如果未能解决你的问题,请参考以下文章