Функции для работы с URL

Функции для работы с URL предназначены для анализа и манипуляции URL-адресами. Они позволяют извлекать компоненты URL, такие, как протокол, домен, порт, путь, параметры запроса, а также проводить различные операции по преобразованию и очистке URL-адресов.

Набор поддерживаемых функций RQL и их поведение зависят от версии установленного ClickHouse. Если функция не поддерживается в используемой версии ClickHouse, она также не будет доступна в RQL. Ознакомиться с актуальным списком функций и их поведением можно в официальном репозитории ClickHouse, выбрав нужную версию из веток. Например: список функций для работы с URL для ClickHouse 24.7.

Table 1. Функции для работы с URL
Функция Описание

protocol(URL)

Возвращает протокол из URL.

domain(URL)

Извлекает имя хоста из URL.

domainWithoutWWW(URL)

Возвращает домен, удалив префикс www., если он присутствовал.

topLevelDomain(URL)

Извлекает домен верхнего уровня из URL.

firstSignificantSubdomain(URL)

Возвращает первый существенный поддомен из URL.

cutToFirstSignificantSubdomain(URL)

Возвращает часть домена до первого существенного поддомена.

cutToFirstSignificantSubdomainCustom(URL, TLD)

Возвращает часть домена до первого существенного поддомена с использованием пользовательского списка доменов верхнего уровня.

cutToFirstSignificantSubdomainCustomWithWWW(URL, TLD)

То же самое, но не удаляет www.

firstSignificantSubdomainCustom(URL, TLD)

Возвращает первый существенный поддомен с использованием пользовательского списка доменов верхнего уровня.

port(URL[, default_port = 0])

Возвращает порт из URL или значение default_port, если порт не указан.

path(URL)

Возвращает путь из URL.

pathFull(URL)

Возвращает путь, включая query string и fragment из URL.

queryString(URL)

Возвращает query string из URL.

fragment(URL)

Возвращает fragment из URL.

queryStringAndFragment(URL)

Возвращает query string и fragment из URL.

extractURLParameter(URL, name)

Извлекает значение параметра name из URL.

extractURLParameters(URL)

Возвращает массив параметров из URL.

extractURLParameterNames(URL)

Возвращает массив имен параметров из URL.

URLHierarchy(URL)

Возвращает массив с URL, обрезанный по /, ?.

URLPathHierarchy(URL)

Возвращает массив путей из URL, обрезанный по /.

decodeURLComponent(URL)

Возвращает декодированный URL.

netloc(URL)

Извлекает сетевую локальность (username:password@host:port) из URL.

cutWWW(URL)

Удаляет www. из начала домена в URL.

cutQueryString(URL)

Удаляет query string из URL.

cutFragment(URL)

Удаляет fragment из URL.

cutQueryStringAndFragment(URL)

Удаляет query string и fragment из URL.

cutURLParameter(URL, name)

Удаляет параметр с именем name из URL.