Добываем контент из Вебархива. Бесплатный, а главное уникальный контент для сайта и его индексация.

1
Добываем контент из Вебархива. Бесплатный, а главное уникальный контент для сайта и его индексация.

Сегодня я поделюсь с вами способом добычи бесплатного контента для сайта. Объектом нашего внимания будет Web.Archive. Веб архив (или Архив Интернета) — это некоммерческая организация, которая собирает различные документы, т.е. веб страницы, аудио и видео документы, программное обеспечение и еще кучу всего нужного и не нужного. Как гласит Википедия, архив содержит не меньше 15 петабайт информации, а это даже больше, чем до фига.

Так вот, суть работы веб-архива проста: ходит робот и собирает странички сайтов в «корзинку», а затем эти странички публикуются в веб-архиве с указанием точного времени прибывания бота на сайте. Причем на некоторые сайты робот может заходить и 20 раз в месяц, а на иные и одного раза за несколько лет не зайдет — зависит от ссылок на ресурс, больше ссылок — больше вероятность «попадания» сайта в архив.

По истечению какого-то времени сайты естественным образом «умирают». Причины могут быть разные, от утраты необходимости в сайте до реальной смерти его хозяина. Через какое-то время после почина в бозе сайта, вылетают его странички из кэша поисковых систем, и контент становится в какой-то степени уникальным. Почему в какой-то степени? Потому, что в поисковых системах мы найти этот контент не можем, и при использовании программ для проверки уникальности текста они будут показывать, что копий не найдено. А вот в других местах этот контент может быть сохранен, например, в том же веб-архиве.

Так вот, если сайт умер, и контент не был растянут по другим ресурсам, то его можно оттуда достать, и есть большая доля вероятности, что он будет уникальным (опять же, если он был уникальным при жизни сайта, и его не растаскали по другим ресурсам).

Однако, самое тяжелое в этом деле — это найти сайт с уникальным и качественным контентом. Это как лотерея: можно проверить 3 сайта и все они окажутся богаты уникальным и качественным текстовым контентом, а можно проверить 100500 сайтов и найти только пару ресурсов с несколькими копипастными статьями.

Процесс поиска таких ресурсов довольно-таки простой, но нудный.

Запасаемся списками дроп доменов. Я беру здесь список дропов можно отсортировать по количеству страниц в веб-архиве, а также подобрать, если есть нужда приглянувшийся дроп. Данный сервис особенно актуален, если вам нужны дроп домены или их контент практически всех во всех популярных зонах. Уникальный англоязычный контент там тоже водится. Просто задаете нужное количество страниц в вебархиве, и экспортируете в формате .xls или .csv, как больше нравится. Также можно проверять на наличие в веб архиве дропнутые домены «не отходя от кассы», кликая по ссылкам в столбце с количеством страниц и сразу попадая в этот самый веб архив.

Проверяем сайты на содержание контента. Вот это один из самых рутинных и одновременно любопытных моментов. Будем проверять наличие текстового контента на сайте (в первую очередь нам нужны, естественно, статьи), и в случае, если таковой имеется, тупо проверять его на уникальность. И так, идем на сайт веб-архива (ткнув по ссылке с количеством страниц в соответствующей колонке:
Добываем контент из Вебархива. Бесплатный, а главное уникальный контент для сайта и его индексация.
(обведено красным цветом), после чего мы успешно оказываемся на сайте веб архива, где видим диапазон дат «забора» страниц роботом вебархива:
Добываем контент из Вебархива. Бесплатный, а главное уникальный контент для сайта и его индексация.
Тыкаем в последнюю дату «забора» главной страницы в вебархив:
Добываем контент из Вебархива. Бесплатный, а главное уникальный контент для сайта и его индексация.
И видим такую, поражающую воображение картину: маслом:
Добываем контент из Вебархива. Бесплатный, а главное уникальный контент для сайта и его индексация.
Осознав, что это ничто иное, как дор на дропе, смотрим остальные даты в вебархиве. Я нашел искомое содержимое, которое было на сайте до ПЕРВОГО дропа домена, датируемое 4 июля 2013 года. Вот так выглядел сайт:
Добываем контент из Вебархива. Бесплатный, а главное уникальный контент для сайта и его индексация.
Вполне себе сносно. Проверяем текст с главной на уникальность:
Добываем контент из Вебархива. Бесплатный, а главное уникальный контент для сайта и его индексация.
Как видим, уникальность текста по фразам 96%, по словам же 36. Мой вывод: рерайт. Оно и не удивительно, тема создания сайта изъезженная и избитая, поэтому добиться такой даже такого уровня уникальности сложно. Слегка воодушевившись, смотрим первую попавшуюся страницу:
Добываем контент из Вебархива. Бесплатный, а главное уникальный контент для сайта и его индексация.
Видим, что контент нромальный, радостно копируем текст в буфер, вставляем в окно Адвеговской софтины:
Добываем контент из Вебархива. Бесплатный, а главное уникальный контент для сайта и его индексация.
И спустя две секунды узнаем, что текст НЕ УНИКАЛЬНЫЙ:
Добываем контент из Вебархива. Бесплатный, а главное уникальный контент для сайта и его индексация.
Что за нах Как так?
Не мог же сайт, по виду похожий на СДЛ просуществовать около 3 лет на сплошной копипасте? (сплошной, потому что, как оказалось, абсолютно ВСЕ тексты сайта в вебархиве НЕУНИКАЛЬНЫ).
Прикинув х.. к носу Решив разобраться, я зашел по адресу (правильному), любезно предоставленному адвеговским софтом:
Добываем контент из Вебархива. Бесплатный, а главное уникальный контент для сайта и его индексация.
И увидел ужас вот что:
Добываем контент из Вебархива. Бесплатный, а главное уникальный контент для сайта и его индексация.
Осознав, что какая-то падла собака присвоила контент, уже почти ставший нашим, начинаем анализировать и сопоставлять факты.
Смотрим дату ПЕРВОГО посещения роботом веб архива (обведено красным цветом):
Добываем контент из Вебархива. Бесплатный, а главное уникальный контент для сайта и его индексация.
Затем элементарно сопоставляем факты.
Было там:
Добываем контент из Вебархива. Бесплатный, а главное уникальный контент для сайта и его индексация.

Добываем контент из Вебархива. Бесплатный, а главное уникальный контент для сайта и его индексация.

Добываем контент из Вебархива. Бесплатный, а главное уникальный контент для сайта и его индексация.

Оказалось тут:

Добываем контент из Вебархива. Бесплатный, а главное уникальный контент для сайта и его индексация.
Как видим, чьей-то заботливой лапой рукой контент перекочевал с дропнутого домена на заведомо трастовый сайт
Добываем контент из Вебархива. Бесплатный, а главное уникальный контент для сайта и его индексация., а точнее его m.сабдомен. Причем из трех, среднего объема, страниц состряпали одну большую, даже картинки с дропа прихватили:
Добываем контент из Вебархива. Бесплатный, а главное уникальный контент для сайта и его индексация.
Единственное, что не поленились сделать, это убрать кликабельные ссылки, сделав их текстом. Итак, контент изначально был на дропнутом сайте, это факт. Из чего делаем вывод, что контент из веб архива используется для наполнения сайтов. Кстати, страницы в Яндексе нет, но она есть в кэше гугла:
Добываем контент из Вебархива. Бесплатный, а главное уникальный контент для сайта и его индексация.
Добываем контент из Вебархива. Бесплатный, а главное уникальный контент для сайта и его индексация.
Справедливости ради, отмечу, что сперли перенесли к себе не весь контент, там еще осталось вроде бы четыре страницы, как раз на еще одну полноценную статью.

Перед проверкой текста из вебархива на уникальность, не забудьте чистить его: Как убрать тэги и мусор из текста.

Мои личные наблюдения и рекомендации:
— Коммерческие сайты не несут в себе смысловой нагрузки, дельный контент на них искать без толку, найдете разве что парочку отрерайченных по-черному, занюханных статей, а времени потратите несоизмеримо больше.
— На «голом» контенте из веб архива в топ не уедешь, сайту (особенно молодому) в любом случае нужны ОРИГИНАЛЬНЫЕ тексты.
— Предварительная вычитка текстов обязательна, дабы не запостить себе генеренки или синонимайза.
— Обращайте внимание на даты публикации текстов (если они есть) — древние тексты, как правило являются неудобоваримым гуано.
— После обнаружения стоящего контента не спешите кидаться размещать его на своем сайте, дважды проверьте его сначала «Глубокой», а затем «Быстрой» проверкой. Рекомендуемые значения для проверки софтом Адвего: Шингл 4 слова, фраза 5 слов.

Вроде бы мы разобрались, как добыть уникальный контент из веб архива (web.archive.org).
Да простит меня хозяин сайт znaikak.

Материал доставил? Лайкни!

  1. Подскажите пожалуйста, есть ли софт для автоматизации парсинга вебархива? Весь Яндекс облазил — не нашел, кроме платных услуг по скачке известных страниц.

LEAVE A REPLY