Что такое XPath и с чем его едят? Сразу уточним, в нашем слу | Інтернет-маркетинг простою мовою від WEDEX
Что такое XPath и с чем его едят?
Сразу уточним, в нашем случае едят его SEO-специалисты с огромным желанием спарсить информацию с сайтов конкурентов или со своего сайта для анализа.
XPath — это такой язык запросов к элементам xml или html документа. Работа XPath-запросов построена на декларативном языке запросов, то есть, чтобы получить нужные данные необходимо всего лишь корректно задать запрос, описывающий эти данные, а все остальное сделает интерпретатор языка XPath.
Удобно? А как же, удобно и просто если понимать этот язык. А какие возможности есть у XPath для нас, то есть для SEO-специалистов? Давайте разбираться.
Основные возможности XPath
Какие данные можно спарсить?
Любую информацию из кода практически с любого сайта. Тут важно понимать, мы можем попасть на сайт с защитой от парсинга. Например, спарсить любой сайт Яндекса не получится. Тоже самое касается и Авито, тоже довольно-таки сложно. Но большую часть сайтов можно успешно спарсить.
Цены, наличие товаров и предложений, тексты, любые текстовые характеристики, изображения и даже 3D-фото.
Описание, отзывы, структуру сайта.
Контактную информацию (например почту), неочевидные свойства и т.д.
Все элементы на странице, которые есть в коде сайта можно успешно выгрузить в Excel.
Какие есть ограничения при парсинге через XPath?
Бан по user-agent. Некоторые сайты запрещают доступ парсерам у которых в user-agent указано что это программа. Это ограничение можно обойти, если в настройках выставить юзер-агент поисковой системы, например. Для этого переходим в Configuration> User-Agent и выбрать YandexBot или Googlebot.
Запрет в robots.txt. Для обхода этого запрета нужно перейти в настройки Screaming Frog в Configuration> Robots.txt> Settings и выбирать «Игнорировать robots.txt»
Бан по IP. Тут есть несколько вариантов решения проблемы: использовать VPN или в настройках снизить скорость парсинга сайта, чтобы не вызывать подозрения и не попасть под ограничения.