🔎 Как парсить URL в Python: легкий способ и инструменты

Для того чтобы спарсить URL в Python, вы можете использовать модуль urllib.parse. Вот простой пример:


from urllib.parse import urlparse

url = "https://www.example.com/path/page.html?param1=value1¶m2=value2"
parsed_url = urlparse(url)

print(f"Схема: {parsed_url.scheme}")
print(f"Сетевой адрес: {parsed_url.netloc}")
print(f"Путь: {parsed_url.path}")
print(f"Параметры: {parsed_url.query}")
    

Детальный ответ

Как парсить URL в Python?

Парсинг URL (Uniform Resource Locator) - это процесс извлечения информации из URL-адреса с помощью программного кода. В Python есть несколько способов выполнить парсинг URL, и мы рассмотрим некоторые из них.

Метод urllib.parse

Стандартная библиотека Python содержит модуль urllib.parse, который предоставляет функции для разбора и составления URL-адресов. Вот пример:


from urllib.parse import urlparse

url = "https://example.com/path/page?query=string"
parsed_url = urlparse(url)

scheme = parsed_url.scheme
netloc = parsed_url.netloc
path = parsed_url.path
query = parsed_url.query

print(f"Scheme: {scheme}")
print(f"Netloc: {netloc}")
print(f"Path: {path}")
print(f"Query: {query}")
    

В результате выполнения этого кода мы получим:


Scheme: https
Netloc: example.com
Path: /path/page
Query: query=string
    

Метод urllib.parse.urlsplit

Модуль urllib.parse также предоставляет функцию urlsplit, которая аналогична urlparse, но не разделяет path на отдельные компоненты. Вот пример:


from urllib.parse import urlsplit

url = "https://example.com/path/page?query=string"
parsed_url = urlsplit(url)

scheme = parsed_url.scheme
netloc = parsed_url.netloc
path_with_query = parsed_url.path
query = parsed_url.query

print(f"Scheme: {scheme}")
print(f"Netloc: {netloc}")
print(f"Path with query: {path_with_query}")
print(f"Query: {query}")
    

Результат выполнения этого кода будет следующим:


Scheme: https
Netloc: example.com
Path with query: /path/page?query=string
Query: query=string
    

Библиотека requests

Библиотека requests предоставляет более простой интерфейс для работы с HTTP-запросами, включая парсинг URL. Вот пример использования:


import requests

url = "https://example.com/path/page?query=string"
parsed_url = requests.utils.urlparse(url)

scheme = parsed_url.scheme
netloc = parsed_url.netloc
path = parsed_url.path
query = parsed_url.query

print(f"Scheme: {scheme}")
print(f"Netloc: {netloc}")
print(f"Path: {path}")
print(f"Query: {query}")
    

Результат этого кода будет таким же, как и в предыдущих примерах:


Scheme: https
Netloc: example.com
Path: /path/page
Query: query=string
    

Вывод

Python предоставляет различные способы для парсинга URL-адресов. Вы можете использовать модуль urllib.parse для более детального анализа URL или библиотеку requests для более удобного использования HTTP-запросов. Независимо от выбранного способа, парсинг URL в Python достаточно прост и может быть полезен для извлечения информации из URL-адресов.

Видео по теме

Парсинг в Python за 10 минут!

Как ПАРСИТЬ сайты на PYTHON?

Обучение парсингу на Python #1 | Парсинг сайтов | Разбираем методы библиотеки Beautifulsoup

Похожие статьи:

🔎 Как отступить строчку в Питоне: полезные советы для начинающих 📝

Что такое инструкция if в Python: определение функции, циклы, ветвления

Как красиво выводить словарь в Питоне: полезные советы и способы 🖥️🐍

🔎 Как парсить URL в Python: легкий способ и инструменты

Как исправить ошибку в Питоне автоматически? 🛠️

🔎 PyCodestyle Python: Как правильно использовать?

😱 Почему питоны худеют? Проблемы с питанием у наших зеленых друзей 🐍