Как спарсить Википедию и выйти на посещаемость в 40к\сутки
Шастал тут давеча по сайтам в поисках озарения. Наткнулся на любопытный ресурс.
Адрес: gruzdoff.ru
Сначала не раздуплил: с каких это пор википедия начала монетизироваться да еще и маркетгидом (тизеры слева)? Потом посмотрел на адрес и понял, что я нахожусь на какой-то копии всемирной энциклопедии.
Ок, ну копия так копия. Многие, скорее всего, пытались парсить оригинал и ловить на этом траф. По сути, так себе идея, и поисковики должны такое банить сразу на подлёте.
Так я думал ровно до того момента, пока не увидел счетчик посещаемости внизу сайта, который нам как бэ намекает на то, что в этот раз чувак, который спарсил сайт — оказался на коне. Не знаю до каких пор, но пока он бодро скачет в топе.
На удивление — стат открыта. Ну прямо таки не прикрытая наглость (:
Смотрим, что там по трафику за последнее время (кликабельно):
Время на сайте, бьюсь об заклад, примерно такое же как на оригинале. Посещаемость в районе 40 000 хостов в сутки.
Ок, Гугл, какого хрена? Точнее с Гуглом то как раз все в порядке. Тут в пору восклицать: ок, Яндекс, какого хера?
Идем в отчет по поисковым системам и видим следующее:
Ну и динамика трафа тоже радует. А вы говорите уникальный контент, все дела.
Число страниц в индексе тоже ок:
Другой монетизации, кроме тизеров, не нашел. Достаточно скромно.
Такое ощущение, что автор достал с полки дряхлый и пыльный Teleport (была такая прога для выкачивания сайтов) и закачал всю википедию себе на сервак.
Дерзкий тип. Респект тебе, о неизвестный вебмастер (:
UPDATE: В комментах подсказали, что архив википедии можно без проблем скачать с самой энциклопедии и развернуть архив. Можно для теста попробовать что-то подобное сделать.
17 комментариев на «“Как спарсить Википедию и выйти на посещаемость в 40к\сутки”»
Добавить комментарий
Для отправки комментария вам необходимо авторизоваться.
Ничего парсить не надо, википедия открытый источник, они архивы со всеми своими дампами раздают, гигов 20 весит, нужно просто скачать и развернуть.
хм, точно, есть такая тема, не знал. Нашел даже инструкцию. Можно поиграться и попробовать сделать подобный сайт -_-
Не понятно тогда, почему именно этот сайт так бодро собирает трафик. Если всем доступен архив, то понаделали бы уже давно копий.
> Нашел даже инструкцию.
Поделись находкой.
Разверну. Подожду. Сообщу тебе о результатах. Ты статью у себя в блоге разместишь, типа «о, чел сделал, как я описывал …». Трафик соберёшь.
Slanet, Гугл в помощь ;)
Можно как-то выгрузить материалы по определенной тематики, например, строительство, авто и т.д. будет такая себе тематическая википедия.
это нечто, такой приличный траф собирает и это не топ позиции, а всё после самой вики и других её копий:) — скоро в выдаче будет одна вики
Красиво))
почему не РСЯ? очень волнует меня этот момент
Вряд ли возьмут такой сайт. Это же не полноценный ресурс, а копия. Читерство.
Сорь за оффтоп, но кнопка Twitter не пашет…
хм, точно, надо будет поправить..
Adsense что скажет на это интересно. Если предположить даже, что будет траф какой-нть…
Насколько понимаю Андсенсу плевать на копипаст, и авторских статей на Википедии тоже нет, так что должно работать как часы, но кто похитрее сделает отдельный аккаунт видимо для этого.
ну есть же копии того же серча, причем обновляемые в реалтайме. причем в индексе.
интересно, сколько сейчас людей пошли разворачивать копию википедии?
Интересно у какого провайдера он хостится? Потому что посмотрел, что бекап с медиа файлами довольно большой и установлен CloudFlare, а еще на какой CMS сделал
Количество статей на этом сайте совпадает с тем что на википедии, т.е. обновляется он постоянно в реалтайме, значит не выкачали его
ну поройся в гугле, я где-то находил инструкции, как развернуть копию Википедии у себя локально. Оттуда надо и плясать, имхо.