2021-12-14 12:35:20
Сегодня наткнулся на очень интересную фичу. В первом своем посте мы писали о том, что можно получать данные используя электронные таблицы Google Sheets. Это помогает извлечь и структурировать данные - получить, проанализировать конкурента извлекая все метаданные, которые могут помочь в продвижении.
Но сегодня будет речь немного о другом. Используя тот же Python можно получить ссылки на страницы, хранящиеся в вебархиве. Это не составит большого труда, кроме этого, ссылки на нужные страницы можно получить вручную. А вот достать данные по этим ссылкам займет куда больше времени.
По статистике в большинстве случаев из архива восстанавливают болги и текстовые данные и куда реже другие данные. Это обусловлено получением уникальных текстов для создания новых блогов и pbn.
Используя Google Sheets и понимая структуру сайта, можно легко вытянуть данные из архива (особенно если это блог), мы протестировали порядка 20 сайтов и все работает так как нужно, а самое главное с минимальными затратами времени.
Что в результате? Можно легко получить заголовки и тексты каждой страницы используя встроенный xml парсер гугл таблиц, например:
=IMPORTXML("https://web.archive.org/web/20160117213430/https://perthsubaru.wordpress.com/2015/01/23/top-tips-for-cheap-car-insurance/";"//p/text()")
здесь мы ввели ссылку из вебархива - https://web.archive.org/web/20160117213430/https://perthsubaru.wordpress.com/2015/01/23/top-tips-for-cheap-car-insurance/ и указали контент, который, хотим получить - //p/text(), все абзацы в текстовом формате.
Думаю такой подход тоже может помочь тем, кто не готов тратить средства или время на копипаст из архива. Причем таким же образом можно получить и любые другие данные.
Скажу так, даже самому интересно было тыцать и смотреть что получается, а имея на руках ссылки на все страницы с контрольными точками восстановления, можно получить готовый контент практически мгновенно) #восстановление #вебархив
2.1K viewsedited 09:35