在 Python 中从 URL 中提取域
本文将通过实际例子来讲解Python的 urlparse()
函数从URL中解析并提取域名。 我们还将讨论提高解析 URL 和使用其不同组件的能力。
使用 urlparse() 从 URL 中提取域
urlparse()
方法是 Python urllib 模块的一部分,当您需要将 URL 拆分为不同的组件并将它们用于各种目的时非常有用。 让我们看一下例子:
from urllib.parse import urlparse
component = urlparse('http://www.baidu.com/doodles/mothers-day-2021-april-07')
print(component)
在此代码片段中,我们首先包含了 urllib 模块中的库文件。 然后我们将 URL 传递给 urlparse 函数。 该函数的返回值是一个对象,其行为类似于具有以下列出的六个元素的数组:
- schema - 指定我们可以用来获取在线资源的协议,例如 HTTP/HTTPS。
- netloc - net 表示网络,loc 表示位置; 所以它表示 URL 的网络位置。
- path - Web 浏览器用于访问所提供资源的特定路径。
- params - 这些是路径元素的参数。
- query - 遵循资源可以使用的路径组件和数据流。
- fragment - 它对部分进行分类。
当我们使用 print 函数显示该对象时,它将打印其组件的值。 上述代码栅栏的输出将如下:
ParseResult(scheme='http', netloc='www.baidu.com', path='/doodles/mothers-day-2021-april-07', params='', query='',fragment='')
我们可以从输出中看到,所有 URL 组件都被分开并作为单独的元素存储在对象中。 我们可以通过使用任何组件的名称来获取其值,如下所示:
from urllib.parse import urlparse
domain_name = urlparse('http://www.baidu.com/doodles/mothers-day-2021-april-07').netloc
print(domain_name)
使用netloc组件,我们可以获取URL的域名,如下:
www.baidu.com
这样,我们就可以解析 URL,并在编程中将其不同组件用于各种目的。
相关文章
Pandas DataFrame DataFrame.shift() 函数
发布时间:2024/04/24 浏览次数:133 分类:Python
-
DataFrame.shift() 函数是将 DataFrame 的索引按指定的周期数进行移位。
Python pandas.pivot_table() 函数
发布时间:2024/04/24 浏览次数:82 分类:Python
-
Python Pandas pivot_table()函数通过对数据进行汇总,避免了数据的重复。
Pandas read_csv()函数
发布时间:2024/04/24 浏览次数:254 分类:Python
-
Pandas read_csv()函数将指定的逗号分隔值(csv)文件读取到 DataFrame 中。
Pandas 多列合并
发布时间:2024/04/24 浏览次数:628 分类:Python
-
本教程介绍了如何在 Pandas 中使用 DataFrame.merge()方法合并两个 DataFrames。
Pandas loc vs iloc
发布时间:2024/04/24 浏览次数:837 分类:Python
-
本教程介绍了如何使用 Python 中的 loc 和 iloc 从 Pandas DataFrame 中过滤数据。
在 Python 中将 Pandas 系列的日期时间转换为字符串
发布时间:2024/04/24 浏览次数:894 分类:Python
-
了解如何在 Python 中将 Pandas 系列日期时间转换为字符串