迹忆客 专注技术分享

当前位置:主页 > 学无止境 > 编程语言 > Python >

如何在 Python 中获取 URL 的基本部分

作者:迹忆客 最近更新:2022/10/11 浏览次数:

要获取 URL 的基本部分:

  1. 将 url 从 urllib.parse 模块传递给 urlparse 方法。
  2. 访问解析结果的 netloc 属性。
from urllib.parse import urlparse

my_url = 'https://example.com/images/wallpaper.jpg'

parsed = urlparse(my_url)
# 👇️ ParseResult(scheme='https', netloc='example.com', path='/images/wallpaper.jpg', params='', query='', fragment='')
print(parsed)

base = parsed.netloc
print(base)  # 👉️ example.com

path = parsed.path
print(path)  # 👉️ /images/wallpaper.jpg

with_path = base + '/'.join(path.split('/')[:-1])
print(with_path)  # 👉️ example.com/images

print(path.split('/'))  # 👉️ ['', 'images', 'wallpaper.jpg']

我们使用了 urllib.parse 模块中的 urlparse 方法。

urlparse 方法接受一个 URL 并将其解析为六个组件。

from urllib.parse import urlparse

my_url = 'https://example.com/images/wallpaper.jpg'

parsed = urlparse(my_url)
# 👇️ ParseResult(scheme='https', netloc='example.com', path='/images/wallpaper.jpg', params='', query='', fragment='')
print(parsed)

base = parsed.netloc
print(base)  # 👉️ example.com

path = parsed.path
print(path)  # 👉️ /images/wallpaper.jpg

解析结果的 netloc 属性返回基本 URL。

我们还可以访问其他属性,如 pathquery 等。

如果我们需要从结果中排除部分路径,请使用 str.rsplit()str.split() 方法。

from urllib.parse import urlparse

my_url = 'https://example.com/images/wallpaper.jpg'

parsed = urlparse(my_url)

base = parsed.netloc
print(base)  # 👉️ example.com

path = parsed.path
print(path)  # 👉️ /images/wallpaper.jpg

with_path = base + '/'.join(path.rsplit('/', 1)[:-1])
print(with_path)  # 👉️ example.com/images

print(path.rsplit('/', 1))  # 👉️ ['/images', 'wallpaper.jpg']

str.rsplit 方法使用提供的分隔符作为分隔符字符串返回字符串中的单词列表。

# 👇️ ['/images', 'wallpaper.jpg']
print('/images/wallpaper.jpg'.rsplit('/', 1))

# 👇️ ['', 'images', 'wallpaper.jpg']
print('/images/wallpaper.jpg'.rsplit('/'))

该方法采用以下 2 个参数:

  • separator 在每次出现分隔符时将字符串拆分为子字符串
  • maxsplit 最多完成最大拆分,最右边的拆分(可选)

除了从右侧拆分外,rsplit() 的行为类似于 split()

如果只想从右侧拆分一次,则可以将 maxsplit 参数设置为 1。

这是另一个嵌套更深的 URL 示例。

from urllib.parse import urlparse

my_url = 'https://example.com/images/nature/wallpaper.jpg'

parsed = urlparse(my_url)

base = parsed.netloc
print(base)  # 👉️ example.com

path = parsed.path
print(path)  # 👉️ /images/wallpaper.jpg

with_path = base + path.rsplit('/', 2)[0]
print(with_path)  # 👉️ example.com/images


print(path.rsplit('/', 2))  # 👉️ ['/images', 'nature', 'wallpaper.jpg']

示例中的 URL 更深一层。

我们将 URL 从右侧拆分 2 次,并将 /images 路径添加到基本 URL。

转载请发邮件至 1244347461@qq.com 进行申请,经作者同意之后,转载请以链接形式注明出处

本文地址:

相关文章

Python for 循环中的下一项

发布时间:2023/04/26 浏览次数:179 分类:Python

本文讨论了 Python 中的 for 循环以及如何通过使用 for 循环和示例来跳过列表的第一个元素。

Python While 循环用户输入

发布时间:2023/04/26 浏览次数:148 分类:Python

我们可以在 while 循环中使用 input() 函数来输入数据,直到在 Python 中满足某个条件。

Python 中的整数规划

发布时间:2023/04/26 浏览次数:193 分类:Python

本文介绍了整数规划和可用于解决混合整数规划问题的 Python 工具。

在 Python 中将整数转换为罗马数字

发布时间:2023/04/26 浏览次数:87 分类:Python

本篇文章将介绍在 Python 中将整数转换为罗马数字。以下是一个 Python 程序的实现,它将给定的整数转换为其等效的罗马数字。

在 Python 中将罗马数字转换为整数

发布时间:2023/04/26 浏览次数:144 分类:Python

本文讨论如何在 Python 中将罗马数字转换为整数。 我们将使用 Python if 语句来执行此操作。 我们还将探讨在 Python 中将罗马数字更改为整数的更多方法。

在 Python 中读取 gzip 文件

发布时间:2023/04/26 浏览次数:70 分类:Python

本篇文章强调了压缩文件的重要性,并演示了如何在 Python 中使用 gzip 进行压缩和解压缩。

在 Python 中锁定文件

发布时间:2023/04/26 浏览次数:141 分类:Python

本文解释了为什么在 Python 中锁定文件很重要。 这讨论了当两个进程在没有锁的情况下与共享资源交互时会发生什么的示例,为什么在放置锁之前知道文件状态很重要,等等

在 Python 中将 PDF 转换为文本

发布时间:2023/04/26 浏览次数:196 分类:Python

在本教程中,我们将学习如何使用 Python 使用 PyPDF2、Aspose 和 PDFminer 将 PDF 文档转换为文本文件。

在 Python 中创建临时文件

发布时间:2023/04/26 浏览次数:53 分类:Python

本文讲解了tempfile库函数的四个子函数:TemporaryFile、NamedTemporaryFile、mkstemp、TemporaryDirectory。 每个部分都提供了适当的程序,以简化对概念的理解。

扫一扫阅读全部技术教程

社交账号
  • https://www.github.com/onmpw
  • qq:1244347461

最新推荐

教程更新

热门标签

扫码一下
查看教程更方便