Get Mystery Box with random crypto!

​Что такое XPath и с чем его едят? Сразу уточним, в нашем слу | Інтернет-маркетинг простою мовою від WEDEX

Что такое XPath и с чем его едят?

Сразу уточним, в нашем случае едят его SEO-специалисты с огромным желанием спарсить информацию с сайтов конкурентов или со своего сайта для анализа.

XPath — это такой язык запросов к элементам xml или html документа. Работа XPath-запросов построена на декларативном языке запросов, то есть, чтобы получить нужные данные необходимо всего лишь корректно задать запрос, описывающий эти данные, а все остальное сделает интерпретатор языка XPath.

Удобно? А как же, удобно и просто если понимать этот язык. А какие возможности есть у XPath для нас, то есть для SEO-специалистов? Давайте разбираться.

Основные возможности XPath

Какие данные можно спарсить?

Любую информацию из кода практически с любого сайта. Тут важно понимать, мы можем попасть на сайт с защитой от парсинга. Например, спарсить любой сайт Яндекса не получится. Тоже самое касается и Авито, тоже довольно-таки сложно. Но большую часть сайтов можно успешно спарсить.

Цены, наличие товаров и предложений, тексты, любые текстовые характеристики, изображения и даже 3D-фото.

Описание, отзывы, структуру сайта.

Контактную информацию (например почту), неочевидные свойства и т.д.

Все элементы на странице, которые есть в коде сайта можно успешно выгрузить в Excel.

Какие есть ограничения при парсинге через XPath?

Бан по user-agent. Некоторые сайты запрещают доступ парсерам у которых в user-agent указано что это программа. Это ограничение можно обойти, если в настройках выставить юзер-агент поисковой системы, например. Для этого переходим в Configuration> User-Agent и выбрать YandexBot или Googlebot.

Запрет в robots.txt. Для обхода этого запрета нужно перейти в настройки Screaming Frog в Configuration> Robots.txt> Settings и выбирать «Игнорировать robots.txt»

Бан по IP. Тут есть несколько вариантов решения проблемы: использовать VPN или в настройках снизить скорость парсинга сайта, чтобы не вызывать подозрения и не попасть под ограничения.