迹忆客 专注技术分享

当前位置:主页 > 学无止境 > 编程语言 > C++ >

如何在 C++ 中把字符串转换为小写

作者:迹忆客 最近更新:2023/04/09 浏览次数:

在本文中,我们将来介绍在 C++ 中如何将字符串进行小写转换。

当我们在考虑 C++ 中的字符串转换方法时,首先要问自己的是我的输入字符串有什么样的编码?因为如果你将使用 std::lower 与多字节编码字符,那么你一定会得到错误的代码。

即使下面的函数看起来是对 std::string 小写转换的整洁实现,当你期望输入的是 UTF-8 编码字符时,它不会将所有的字符转换为小写。

#include <iostream>
#include <algorithm>

std::string toLower(std::string s) {
    std::transform(s.begin(), s.end(), s.begin(),
       [](unsigned char c){ return std::tolower(c); }
    );
    return s;
}

int main() {
    std::string string1 = u8"ÅSH to LoWer WÅN";
    std::cout << "input string:  " << string1 << std::endl
            << "output string: " << toLower(string1) << std::endl;
    return 0;
}

上面的代码对于 ASCII 字符串和其他一些非 ASCII 字符串也能很好的工作,但是一旦你给它一个有点不寻常的输入,比如说里面有一些拉丁符号,输出就会不尽人意。

输出:

input string:  ÅSH to LoWer WÅN
output string: Åsh to lower wÅn

它是不正确的,因为它应该把 Å 改为小写的 å。那么,我们怎样才能解决这个问题,得到正确的输出呢?

最好的可移植方式是使用 ICU (International Components for Unicode,国际统一码组件)库,它足够成熟,提供了稳定性,广泛的可访问性,并将保持你的代码跨平台。

我们只需要在源文件中包含以下头文件。这些库很有可能已经包含在你的平台上,并且在你的平台上可用,所以代码样本应该可以正常工作。但如果你在 IDE/编译时出现错误,请参考 ICU 文档网站中的库下载说明。

#include <unicode/unistr.h>
#include <unicode/ustream.h>
#include <unicode/locid.h>

现在我们已经包含了头文件,所以我们可以写 std::string 到小写的转换代码如下。

#include <iostream>
#include <unicode/unistr.h>
#include <unicode/ustream.h>
#include <unicode/locid.h>

int main() {
    std::string string1 = u8"ÅSH to LoWer WÅN";
    icu::UnicodeString unicodeString(string1.c_str());
    std::cout << "input string:  " << string1 << std::endl
              << "output string: " << unicodeString.toLower() << std::endl;
    return 0;
}

注意,我们在编译这段代码时,应该使用以下编译器标志,以包含 ICU 库的依赖性。

g++ sample_code.cpp -licuio -licuuc -o sample_code

运行代码,我们将按预期获得正确的输出:

input string:  ÅSH to LoWer WÅN
output string: åsh to lower wån

完全相同的函数可以处理一些我们通常不希望作为用户输入的语言,并且我们还可以显式地将语言环境指定为 toLower 函数的参数:

#include <iostream>
#include <unicode/unistr.h>
#include <unicode/ustream.h>
#include <unicode/locid.h>

int main() {
    std::string string2 = "Κάδμῳ ἀπιϰόμενοι.. Ελληνας ϰαὶ δὴ ϰαὶ γράμματα, οὐϰ ἐόντα πρὶν Ελλησι";
    icu::UnicodeString unicodeString2(string2.c_str());
    std::cout  << unicodeString2.toLower("el_GR") << std::endl;
    return 0;
}

转载请发邮件至 1244347461@qq.com 进行申请,经作者同意之后,转载请以链接形式注明出处

本文地址:

相关文章

在 C++ 中通过掷骰子生成随机值

发布时间:2023/04/09 浏览次数:169 分类:C++

本文解释了如何使用时间因子方法和模拟 C++ 中的掷骰子的任意数方法生成随机数。了解它是如何工作的以及它包含哪些缺点。提供了一个 C++ 程序来演示伪数生成器。

在 C++ 中使用模板的链表

发布时间:2023/04/09 浏览次数:158 分类:C++

本文解释了使用模板在 C++ 中创建链表所涉及的各个步骤。工作程序演示了一个链表,该链表使用模板来避免在创建新变量时声明数据类型的需要。

在 C++ 中添加定时延迟

发布时间:2023/04/09 浏览次数:142 分类:C++

本教程将为你提供有关在 C++ 程序中添加定时延迟的简要指南。这可以使用 C++ 库为我们提供的一些函数以多种方式完成。

在 C++ 中创建查找表

发布时间:2023/04/09 浏览次数:155 分类:C++

本文重点介绍如何创建查找表及其在不同场景中的用途。提供了三个代码示例以使理解更容易,并附有代码片段以详细了解代码。

如何在 C++ 中确定一个字符串是否是数字

发布时间:2023/04/09 浏览次数:163 分类:C++

本文介绍了如何检查给定的 C++ 字符串是否是数字。在我们深入研究之前,需要注意的是,以下方法只与单字节字符串和十进制整数兼容。

扫一扫阅读全部技术教程

社交账号
  • https://www.github.com/onmpw
  • qq:1244347461

最新推荐

教程更新

热门标签

扫码一下
查看教程更方便