Как спарсить Википедию и выйти на посещаемость в 40к\сутки

Шастал тут давеча по сайтам в поисках озарения. Наткнулся на любопытный ресурс.

Адрес:  gruzdoff.ru

Сначала не раздуплил:  с каких это пор википедия начала монетизироваться да еще и маркетгидом (тизеры слева)? Потом посмотрел на адрес и понял, что я нахожусь на какой-то копии всемирной энциклопедии.

wikifake

Ок, ну копия так копия. Многие, скорее всего, пытались парсить оригинал и ловить на этом траф. По сути, так себе идея, и поисковики должны такое банить сразу на подлёте.

Так я думал ровно до того момента, пока не увидел счетчик посещаемости внизу сайта, который нам как бэ намекает на то, что в этот раз чувак, который спарсил сайт — оказался на коне. Не знаю до каких пор, но пока он бодро скачет в топе.

На удивление — стат открыта. Ну прямо таки не прикрытая наглость (:

Смотрим, что там по трафику за последнее время (кликабельно):

svodka

Время на сайте, бьюсь об заклад, примерно такое же как на оригинале.  Посещаемость в районе 40 000 хостов в сутки.

Ок, Гугл, какого хрена? Точнее с Гуглом то как раз все в порядке. Тут в пору восклицать: ок, Яндекс, какого хера?

Идем в отчет по поисковым системам и видим следующее:

search

Ну и динамика трафа тоже радует. А вы говорите уникальный контент, все дела.

Число страниц в индексе тоже ок:

pokazateli

Другой монетизации, кроме тизеров, не нашел. Достаточно скромно.

Такое ощущение, что автор достал с полки дряхлый и пыльный Teleport (была такая прога для выкачивания сайтов) и закачал всю википедию себе на сервак.

Дерзкий тип. Респект тебе, о неизвестный вебмастер (:

UPDATE: В комментах подсказали, что архив википедии можно без проблем скачать с самой энциклопедии и развернуть архив. Можно для теста попробовать что-то подобное сделать.

Также по этой теме

17 комментариев на «“Как спарсить Википедию и выйти на посещаемость в 40к\сутки”»

  1. Artem:

    Ничего парсить не надо, википедия открытый источник, они архивы со всеми своими дампами раздают, гигов 20 весит, нужно просто скачать и развернуть.

  2. Крокодил:

    это нечто, такой приличный траф собирает и это не топ позиции, а всё после самой вики и других её копий:) — скоро в выдаче будет одна вики

  3. почему не РСЯ? очень волнует меня этот момент

  4. Сорь за оффтоп, но кнопка Twitter не пашет…

  5. Andrew:

    Adsense что скажет на это интересно. Если предположить даже, что будет траф какой-нть…

    • Насколько понимаю Андсенсу плевать на копипаст, и авторских статей на Википедии тоже нет, так что должно работать как часы, но кто похитрее сделает отдельный аккаунт видимо для этого.

  6. bn:

    ну есть же копии того же серча, причем обновляемые в реалтайме. причем в индексе.

    интересно, сколько сейчас людей пошли разворачивать копию википедии?

  7. Druzhanja:

    Интересно у какого провайдера он хостится? Потому что посмотрел, что бекап с медиа файлами довольно большой и установлен CloudFlare, а еще на какой CMS сделал

  8. Druzhanja:

    Количество статей на этом сайте совпадает с тем что на википедии, т.е. обновляется он постоянно в реалтайме, значит не выкачали его

Добавить комментарий


Яндекс.Метрика