在 C# 中从字符串中删除 HTML 标记
在这篇文章中,我们将演示如何在不知道其中包含哪些标签的情况下从字符串中删除所有 HTML 标签。
有很多方法可以完成这项任务,但没有一种方法可以保证你删除所有标签。我们将看看它的一些方法。
在 C#
中使用正则表达式从字符串中删除 HTML 标签
public static string StripHTML(string input) {
return Regex.Replace(input, "<[a-zA-Z/].*?>", String.Empty);
}
这个函数传递一个字符串参数,我们使用 regex
的 Replace()
函数来删除标签,因为标签的签名在函数输入中给出。
它不适用于所有情况,但大多数情况都很好。你将需要编写算法以从字符串输入中删除所有标签。
在 C#
中使用 HTML Agility Pack 从字符串中删除 HTML 标签
另一种解决方案是使用 HTML Agility Pack。
internal static string RmvTags(string d) {
if (string.IsNullOrEmpty(d))
return string.Empty;
var doc = new HtmlDocument();
doc.LoadHtml(d);
var accTags = new String[] { "strong", "em", "u" };
var n = new Queue<HtmlNode>(doc.DocumentNode.SelectNodes("./*|./text()"));
while (n.Count > 0) {
var no = nodes.Dequeue();
var pNo = no.ParentNode;
if (!accTags.Contains(no.Name) && no.Name != "#text") {
var cNo = no.SelectNodes("./*|./text()");
if (cNo != null) {
foreach (var c in cNo) {
n.Enqueue(c);
pNo.InsertBefore(c, no);
}
}
pNo.RemoveChild(no);
}
}
return doc.DocumentNode.InnerHtml;
}
除了 strong
、em
、u
和原始文本节点之外,这将正常工作。此函数将字符串作为 d
变量中的参数。
if(string.IsNullOrEmpty(d))
行检查字符串是否已经为空,然后返回空字符串。
var doc = new HtmlDocument();
doc.LoadHtml(d);
这些语句创建一个新的 HTML 文档并将数据加载到文档中。它已经是一个 HTML 标记字符串,并且将遵循 HTML 模式。
var accTags = new String[] { "strong", "em", "u"};
行告诉哪些标签是允许的。你可以根据需要更改、添加或删除标签。
然后在 while
循环中,它使用队列添加所有文档节点,使每个节点出列,并删除 HTML 标记。
该过程继续进行,直到所有数据都被净化,然后它返回 HTML 文档的内部 HTML,它已经是净化的文本。
如前所述,没有硬性规定或方法来完成这项任务。有多种方法,没有一种方法是完全可靠的。
此代码已针对低数据集进行了测试。我们永远不能相信用户的输入。
相关文章
从 C# 中的字符串中删除字符
发布时间:2024/01/16 浏览次数:74 分类:编程语言
-
有 4 种主要方法可用于从 C# 中的字符串,string.Replace()函数,string.Join()和 string.Split()函数,Regex.Replace()函数以及 Linq 方法。
在 C# 中重复字符串 X 次
发布时间:2024/01/16 浏览次数:173 分类:编程语言
-
在 C# 中,可以使用三种主要方法将字符串重复 x 次:字符串类构造函数,StringBuilder 类和 LINQ 方法。用 C# 中的 string 类构造函数重复执行 X 次字符串
在 C# 中重复字符串
发布时间:2024/01/16 浏览次数:140 分类:编程语言
-
可使用三种主要方法在 C# 中重复字符串,String 构造函数,LINQ 中的 Enumerable.Repeat()函数以及 StringBuilder 类。
在 C# 中向数组中添加字符串
发布时间:2024/01/16 浏览次数:168 分类:编程语言
-
没有内置方法可以将新元素动态添加到 C# 中完全填充的数组中。使用 C# 中的 List.Add() 方法将字符串添加到数组
在 C# 中截断字符串
发布时间:2024/01/16 浏览次数:66 分类:编程语言
-
我们可以使用 C# 中的 String.Substring()方法创建一个字符串的截断副本。在 C# 中使用 String.Substring() 方法截断字符串
在 C# 中将字符串格式设置为货币格式
发布时间:2024/01/16 浏览次数:156 分类:编程语言
-
在 C# 中,可以使用两种主要方法将字符串格式化为货币格式,即 String.Format()和 ToString()函数。在 C# 中使用 String.Format() 方法将字符串格式化为货币
在 C# 中将字符串拆分为列表
发布时间:2024/01/16 浏览次数:122 分类:编程语言
-
我们可以使用 string.Split()函数和 C# 中的 Linq 的 ToList()函数,将可变的字符串转换为字符串列表。在 C# 中使用 String.Split() 方法将字符串变量拆分为字符串列表
在 C# 中检查一个字符串是否为空或 null
发布时间:2024/01/16 浏览次数:132 分类:编程语言
-
string.IsNullOrEmpty()方法用于检查字符串在 C# 中是否为 null 或 string.Empty 值。检查 C# 中的字符串是空或者 null 如果我们要检查其中包含 null 值或""值的字符串,可以在 C# 中使用 string.IsNullOrEmpty() 方