C# 中的字符串分词器
本教程将讨论在 C# 中将字符串标记为多个子字符串。
在 C# 中使用 String.Split()
函数的字符串标记器
在自然语言处理中,字符串标记化是将句子拆分为句子中所有单个单词的方法。这些单独的词称为标记。
出于类似目的,我们在 Java 中有 StringTokenizer
类。在 C# 中,我们没有直接实现 StringTokenizer
类,但我们可以使用 C# 中可用的 String.Split()
函数实现类似的结果。
String.Split()
函数 可以根据某些分隔符或定界符将给定字符串划分为子字符串数组。此函数采用正则表达式作为分隔符或分隔符,并返回一个子字符串数组。
要标记给定字符串,我们可以使用空格作为分隔符或定界符将其分成子字符串。
以下代码片段展示了我们如何使用 String.Split()
函数在 C# 中对字符串进行标记。
string inputString = "This is some input String";
string[] tokens = inputString.Split(' ');
foreach (string token in tokens) {
Console.WriteLine(token);
}
输出:
This
is
some
input
String
输出显示使用 C# 中的 String.Split()
方法将原始字符串 This is some input String
划分为单个单词。
这个字符串标记器比 Java 中可用的 StringTokenizer
更强大。简单的 StringTokenizer
只允许一个分隔符,而上述方法可以根据多个分隔符拆分输入字符串。
下面的代码片段展示了一个示例来演示 String.Split()
函数的强大功能。
string inputString =
"This is some input String, but, is it actually a good string? The answer is upto you.";
string[] tokens = inputString.Split(new char[] { ' ', ',', '?' });
foreach (string token in tokens) {
Console.WriteLine(token);
}
输出:
This
is
some
input
String
but
is
it
actually
a
good
string
The
answer
is
upto
you.
上面的代码片段采用输入字符串:
This is some input String, but, is it actually a good string? The answer is upto you.
该代码基于多个分隔符将其拆分为标记。可以通过将 StringSplitOptions.RemoveEmptyEntries
指定为 String.Split()
函数的第二个参数来删除输出中的空条目。
StringTokenizer
类优于此方法的优点是它还可以将所有定界符或标记存储在给定字符串中,而 String.Split()
函数会丢弃定界符。
相关文章
从 C# 中的字符串中删除字符
发布时间:2024/01/16 浏览次数:74 分类:编程语言
-
有 4 种主要方法可用于从 C# 中的字符串,string.Replace()函数,string.Join()和 string.Split()函数,Regex.Replace()函数以及 Linq 方法。
在 C# 中重复字符串 X 次
发布时间:2024/01/16 浏览次数:173 分类:编程语言
-
在 C# 中,可以使用三种主要方法将字符串重复 x 次:字符串类构造函数,StringBuilder 类和 LINQ 方法。用 C# 中的 string 类构造函数重复执行 X 次字符串
在 C# 中重复字符串
发布时间:2024/01/16 浏览次数:140 分类:编程语言
-
可使用三种主要方法在 C# 中重复字符串,String 构造函数,LINQ 中的 Enumerable.Repeat()函数以及 StringBuilder 类。
在 C# 中向数组中添加字符串
发布时间:2024/01/16 浏览次数:168 分类:编程语言
-
没有内置方法可以将新元素动态添加到 C# 中完全填充的数组中。使用 C# 中的 List.Add() 方法将字符串添加到数组
在 C# 中截断字符串
发布时间:2024/01/16 浏览次数:66 分类:编程语言
-
我们可以使用 C# 中的 String.Substring()方法创建一个字符串的截断副本。在 C# 中使用 String.Substring() 方法截断字符串
在 C# 中将字符串格式设置为货币格式
发布时间:2024/01/16 浏览次数:156 分类:编程语言
-
在 C# 中,可以使用两种主要方法将字符串格式化为货币格式,即 String.Format()和 ToString()函数。在 C# 中使用 String.Format() 方法将字符串格式化为货币
在 C# 中将字符串拆分为列表
发布时间:2024/01/16 浏览次数:122 分类:编程语言
-
我们可以使用 string.Split()函数和 C# 中的 Linq 的 ToList()函数,将可变的字符串转换为字符串列表。在 C# 中使用 String.Split() 方法将字符串变量拆分为字符串列表
在 C# 中检查一个字符串是否为空或 null
发布时间:2024/01/16 浏览次数:132 分类:编程语言
-
string.IsNullOrEmpty()方法用于检查字符串在 C# 中是否为 null 或 string.Empty 值。检查 C# 中的字符串是空或者 null 如果我们要检查其中包含 null 值或""值的字符串,可以在 C# 中使用 string.IsNullOrEmpty() 方