Как спарсить Википедию и выйти на посещаемость в 40к\сутки

Шастал тут давеча по сайтам в поисках озарения. Наткнулся на любопытный ресурс.

Адрес:  gruzdoff.ru

Сначала не раздуплил:  с каких это пор википедия начала монетизироваться да еще и маркетгидом (тизеры слева)? Потом посмотрел на адрес и понял, что я нахожусь на какой-то копии всемирной энциклопедии.

wikifake

Ок, ну копия так копия. Многие, скорее всего, пытались парсить оригинал и ловить на этом траф. По сути, так себе идея, и поисковики должны такое банить сразу на подлёте.

Так я думал ровно до того момента, пока не увидел счетчик посещаемости внизу сайта, который нам как бэ намекает на то, что в этот раз чувак, который спарсил сайт – оказался на коне. Не знаю до каких пор, но пока он бодро скачет в топе.

На удивление – стат открыта. Ну прямо таки не прикрытая наглость (:

Смотрим, что там по трафику за последнее время (кликабельно):

svodka

Время на сайте, бьюсь об заклад, примерно такое же как на оригинале.  Посещаемость в районе 40 000 хостов в сутки.

Ок, Гугл, какого хрена? Точнее с Гуглом то как раз все в порядке. Тут в пору восклицать: ок, Яндекс, какого хера?

Идем в отчет по поисковым системам и видим следующее:

search

Ну и динамика трафа тоже радует. А вы говорите уникальный контент, все дела.

Число страниц в индексе тоже ок:

pokazateli

Другой монетизации, кроме тизеров, не нашел. Достаточно скромно.

Такое ощущение, что автор достал с полки дряхлый и пыльный Teleport (была такая прога для выкачивания сайтов) и закачал всю википедию себе на сервак.

Дерзкий тип. Респект тебе, о неизвестный вебмастер (:

UPDATE: В комментах подсказали, что архив википедии можно без проблем скачать с самой энциклопедии и развернуть архив. Можно для теста попробовать что-то подобное сделать.

Также по этой теме

17 responses to “Как спарсить Википедию и выйти на посещаемость в 40к\сутки”

  1. Artem says:

    Ничего парсить не надо, википедия открытый источник, они архивы со всеми своими дампами раздают, гигов 20 весит, нужно просто скачать и развернуть.

    • MaximFF says:

      хм, точно, есть такая тема, не знал. Нашел даже инструкцию. Можно поиграться и попробовать сделать подобный сайт -_-

      Не понятно тогда, почему именно этот сайт так бодро собирает трафик. Если всем доступен архив, то понаделали бы уже давно копий.

      • SLANET says:

        > Нашел даже инструкцию.

        Поделись находкой.

        Разверну. Подожду. Сообщу тебе о результатах. Ты статью у себя в блоге разместишь, типа “о, чел сделал, как я описывал …”. Трафик соберёшь.

    • Можно как-то выгрузить материалы по определенной тематики, например, строительство, авто и т.д. будет такая себе тематическая википедия.

  2. Крокодил says:

    это нечто, такой приличный траф собирает и это не топ позиции, а всё после самой вики и других её копий:) – скоро в выдаче будет одна вики

  3. Master Fern says:

    почему не РСЯ? очень волнует меня этот момент

    • MaximFF says:

      Вряд ли возьмут такой сайт. Это же не полноценный ресурс, а копия. Читерство.

  4. Сорь за оффтоп, но кнопка Twitter не пашет…

  5. Andrew says:

    Adsense что скажет на это интересно. Если предположить даже, что будет траф какой-нть…

    • jkeks says:

      Насколько понимаю Андсенсу плевать на копипаст, и авторских статей на Википедии тоже нет, так что должно работать как часы, но кто похитрее сделает отдельный аккаунт видимо для этого.

  6. bn says:

    ну есть же копии того же серча, причем обновляемые в реалтайме. причем в индексе.

    интересно, сколько сейчас людей пошли разворачивать копию википедии?

  7. Druzhanja says:

    Интересно у какого провайдера он хостится? Потому что посмотрел, что бекап с медиа файлами довольно большой и установлен CloudFlare, а еще на какой CMS сделал

  8. Druzhanja says:

    Количество статей на этом сайте совпадает с тем что на википедии, т.е. обновляется он постоянно в реалтайме, значит не выкачали его

    • MaximFF says:

      ну поройся в гугле, я где-то находил инструкции, как развернуть копию Википедии у себя локально. Оттуда надо и плясать, имхо.

Leave a Reply