迹忆客 专注技术分享

当前位置:主页 > 学无止境 > 编程语言 > Python >

使用 Python 从文本中删除 URL

作者:迹忆客 最近更新:2022/09/05 浏览次数:

使用 re.sub() 方法从文本中删除 URL,例如 result = re.sub(r'http\S+', '', my_string)re.sub() 方法将删除字符串中的所有 URL,方法是用空字符串替换它们。

import re

my_string = """
First https://example.com
https://www.jiyik.com Second
Third https://example.com
"""

result = re.sub(r'http\S+', '', my_string)

# First
#  Second
# Third
print(result)

我们使用 re.sub() 方法从字符串中删除所有 URL。

re.sub 方法返回一个新字符串,该字符串是通过用提供的替换替换模式的出现而获得的。

import re


my_str = '1apple, 2apple, 3banana'

result = re.sub(r'[0-9]', '_', my_str)

print(result)  # 👉️ _apple, _apple, _banana

如果未找到该模式,则按原样返回字符串。

我们使用空字符串进行替换,因为我们想从字符串中删除所有 URL。

import re

my_string = """
First https://example.com
https://www.jiyik.com Second
Third https://example.com
"""

result = re.sub(r'http\S+', '', my_string)

# First
#  Second
# Third
print(result)

我们调用 re.sub() 方法的第一个参数是一个正则表达式。

正则表达式中的 http 字符与文字字符匹配。

\S 匹配任何不是空白字符的字符。 请注意,S 是大写的。

加号 + 匹配前面的字符(任何非空白字符)1 次或多次。

总的来说,正则表达式匹配以 http 开头的子字符串,后跟 1 个或多个非空白字符。

如果担心匹配 http-something 形式的字符串,请将正则表达式更新为 r'https?://\S+'

import re

my_string = """
First https://example.com
https://www.jiyik.com Second
Third https://example.com
"""

result = re.sub(r'https?://\S+', '', my_string)

# First
#  Second
# Third
print(result)

问号 使正则表达式匹配前面字符的 0 或 1 个重复。

例如,https? 将匹配 httpshttp

然后我们用冒号和两个正斜杠 :// 来完成协议。

整个正则表达式匹配以 http://https:// 开头的子字符串,后跟 1 个或多个非空白字符。

如果在阅读或编写正则表达式时需要帮助,请参阅我们的正则表达式教程

转载请发邮件至 1244347461@qq.com 进行申请,经作者同意之后,转载请以链接形式注明出处

本文地址:

相关文章

Python for 循环中的下一项

发布时间:2023/04/26 浏览次数:179 分类:Python

本文讨论了 Python 中的 for 循环以及如何通过使用 for 循环和示例来跳过列表的第一个元素。

Python While 循环用户输入

发布时间:2023/04/26 浏览次数:148 分类:Python

我们可以在 while 循环中使用 input() 函数来输入数据,直到在 Python 中满足某个条件。

Python 中的整数规划

发布时间:2023/04/26 浏览次数:193 分类:Python

本文介绍了整数规划和可用于解决混合整数规划问题的 Python 工具。

在 Python 中将整数转换为罗马数字

发布时间:2023/04/26 浏览次数:87 分类:Python

本篇文章将介绍在 Python 中将整数转换为罗马数字。以下是一个 Python 程序的实现,它将给定的整数转换为其等效的罗马数字。

在 Python 中将罗马数字转换为整数

发布时间:2023/04/26 浏览次数:144 分类:Python

本文讨论如何在 Python 中将罗马数字转换为整数。 我们将使用 Python if 语句来执行此操作。 我们还将探讨在 Python 中将罗马数字更改为整数的更多方法。

在 Python 中读取 gzip 文件

发布时间:2023/04/26 浏览次数:70 分类:Python

本篇文章强调了压缩文件的重要性,并演示了如何在 Python 中使用 gzip 进行压缩和解压缩。

在 Python 中锁定文件

发布时间:2023/04/26 浏览次数:141 分类:Python

本文解释了为什么在 Python 中锁定文件很重要。 这讨论了当两个进程在没有锁的情况下与共享资源交互时会发生什么的示例,为什么在放置锁之前知道文件状态很重要,等等

在 Python 中将 PDF 转换为文本

发布时间:2023/04/26 浏览次数:196 分类:Python

在本教程中,我们将学习如何使用 Python 使用 PyPDF2、Aspose 和 PDFminer 将 PDF 文档转换为文本文件。

在 Python 中创建临时文件

发布时间:2023/04/26 浏览次数:53 分类:Python

本文讲解了tempfile库函数的四个子函数:TemporaryFile、NamedTemporaryFile、mkstemp、TemporaryDirectory。 每个部分都提供了适当的程序,以简化对概念的理解。

扫一扫阅读全部技术教程

社交账号
  • https://www.github.com/onmpw
  • qq:1244347461

最新推荐

教程更新

热门标签

扫码一下
查看教程更方便