Меня зовут Дмитрий и парсинг данных - моя страсть. Я рад представить вам мою базу ключей.

объем - 91 514 803 ключей
цена - 10 000 рублей

Но отличие базы не в количестве ключей, а в их качестве. Давайте посмотрим, что за источники использованы для сборки этой базы:

1. Открытые счетчики метрики

Не буду рассказывать, что бла-бла-бла самые крупные или почти самые крупные - это не так, MOAB заявляет о 3.2 млрд ключей, еще несколько баз тоже говорят о числах уровня 1-2 млрд, моя база не такая.

Есть такой рейтинг сайтов webomer.ru - на удивление толковый и полезный ресурс, этакая русская алекса. Прошлой осенью у меня возникла задача - узнать, сколько уникальных вебмастеров занимаются контекстом, какие есть сайты у нескольких наиболее интересных мне вебмастеров. Был спаршен 1 000 000 топ доменов рунета по версии этого рейтинга, каждый сайт был открыт, проанализирован по ряду параметров, сохранены нужные мне данные, среди прочего - ID счетчика в метрике. Свою задачу я с успехом выполнили тоже готов продать данные, а списки ID счетчиков метрик самых посещаемых сайтов рунета остались в базах в качестве баласта. Для порядка, на всякий случай, все счетчики были проверены на открытость, данные по переходам по поисковым словам для открытых счетчиков были скачаны и аккуратно сложены.

Я и предположить не мог, что буквально через 2-3 месяца яндекс закроет возможность получения новой версии этих данных, чтож, успел запрыгнуть в уходящий вагон.

С одной стороны - я слил сильно меньше данных, чем можно было вытащить, с другой стороны - это наверно не сильно плохо - в выборках только актуальные и адекватные ключи, никакого мусора, который в следующий раз спросят лишь в следующем тысячелетии. По этому источнику получено 83 153 803 ключевых слова.

2.Подсказки яндекса, старые, теплые, ламповые

В далеком 2012 году подсказки Яндекса были конечными, т.е. это был определенный и ограниченный список слов, и главный критерий включения слова в список - запрашиваемость. Для определенных целей эти списки регулярно выпаршивались. В один прекрасный день яндекс стал удобнее для пользователя - подсказки начали генерироваться на лету, этот источник знаний о ключах стал историей, но у меня осталась одна из последних версий набора этих слов-подсказок. Да, это данные от лохматого 2012 года, но так ли изменился мир с тех пор?

По этому источнику получено 11 309 002 ключевых слова.

«Сейчас я довольно много работаю над контентными сайтами, поэтому ключи и семантические ядра - актуальная для меня проблема и помимо собственно списков слов, необходимы были и пути быстрого расширения списка ключей с помощью анализа семантики конкурентов. В моих бизнес процессах еще совсем недавно весомую роль играли следующие два инструмента:

3. Spywords и Мегаиндекс

Помните тот 1 млн сайтов из пункта про метрику? Вот среди них нашлось примерно 200к сайтов, откручивающих контекстную рекламу, всем 200к были сняты видимости по версии spywords и мегаиндекс. Все это было распаршено и вброшено в базу.

Несмотря на то, что ключи из этих источников не показались сверх интересными, они остались в базе, ведь инструменты отлично себя зарекомендовали, поэтому я не мог позволить себе проигнорировать их.

Из Spywords вынуто 12 237 924 ключа, из мегаиндекса - подозрительно мало, не буду даже называть число, но совесть моя чиста - данные в базе :)

С учетом всех наложений и неуникальностей по каждому из источников в сумме получилось 91 514 803 ключевых слова. На этом можно было бы и остановиться, но это не наш метод.

Всем этим запросам был проверен вордстат и эти данные так же лежат в базе. Все же история о моей базе - это история о качественных ключах, а не о миллиардах слов.

Итак, тезисно:

  • Объем базы: 91 514 803 ключей, основная масса - открытые счетчики Яндекс.Метрика;
  • Цена базы: 10 000 рублей;
  • Будет продано: не более 30 копий;
  • Оплата: Webmoney (у меня персональный аттестат, BL 330+) или безналичный расчет для юрлиц (+10% - издержки на мороку с бумагами);
  • Никаких дополнительных эмиссий, если наивные мечты об ажиотажном спросе начнут сбываться - оставляю за собой право поднятия стоимости;
  • Вес базы: примерно 14 Gb в развернутом виде (для варианта в Firebird), 3 Gb в архиве;
  • Толковая оболочка для доступа к данным;
  • Вариант базы в формате Firebird (для работы через оболочку) и в формате текстового CSV файла (для любителей покопаться самостоятельно или использовать внешний софт); Покупатель может выбрать один или оба варианта, на цене это никак не отражается. Отгрузка по HTTP в течение полутора суток с момента оплаты.
В продаже осталось 27 копий

Для оплаты свяжитесь со мной через скайп, мой логин cheboor или по email: cherobaev@gmail.com. С радостью и кристально честно отвечу на все вопросы о продукте.

Для оценки базы, вы можете загрузить пример выборки по запросу "Линолеум" в виде csv файла или zip архива. В выборке только те ключи, которые имеют базовую частотность 10 и выше, дополнительно уже после выборки проверены данные о "!частотности" и бидах в директе.

*База по доменам тоже продается - примерно 2 135 816 доменов, pub-id для большинства сайтов, размещающих адсенс, идентификаторы аналитикса, связи, построенные по пересечениям этих выборок, главное отличие от большинства других подобных сервисов - охват, таргетинг на ру, выполнение JS для поиска pub-id, а не тупой поиск идентификаторов в html - как следствие - всякие <script src="/ads.js"></script> уже не смогли спрятать владельца сайта, там же в базе - индексация яндексом, количество страниц по сайтмапу, количество трафика по лиру, если данные не были закрыты. Данные специфичны, нужны далеко не всем, но думаю для большинства вебмастеров занимающихся контекстной рекламой всерьез - они могут оказаться полезными. Разумеется, данные слегка протухли - им уже 6+ месяцев, поэтому цена на такой комплект не сильно высокая - 15 000 рублей, в качестве мини спойлера - 100+ сайтов Романа Пузата и Кости Люткевича. Если интересно - давайте обсудим в skype, мой логин cheboor. Скриншотик браузера доменов