Запихал недавно в сапу сайт в 20к страниц. Всего на сайте содержится более 200к страниц, но проиндексированно только 20к. Отсюда встала проблемма, как запихать в сапу максимальное количество страниц, при этом избавить себя от мучительной рутины по удалению не проиндексированных страниц.

Решение было найдено простое и красивое. Нужно просто спарсить яндекс, настроив его на поиск яндекс по одному сайту. Таким образом мы получаем только проиндексированные страницы.

Правда есть одна проблемма, яндекс не отдаёт в выдаче больше 1000 страниц. К счастью в моём арсенале есть совершенно адский инструмент – hrefer (поставляется вместе с хрумером). Буквально за один вечер я вытащил все страницы из индекса и на следующий день уже добавлял сайт в сапу.

Делается это так:
Для начала нам необходимо настроить поиск по яндексу только по нашему сайту. Открываем engines.ini и добавляем в самое начало такие строки:

[Yandex 1]
Hostname=http://yandex.ru
Query=yandsearch?date=&text=[QUERY]&site=site.ru&rstr=&zone=all&wordforms=all&lang=all&within=0&from_day=&from_month=&from_year=&to_day=6&to_month=8&to_year=2009&mime=all
LinksMask=

[...]href="[LINK]" target="_blank">
TotalPages=100
NextPage=<a id="next_page" href="[LINK]">
NextPage2=</a><a id="next_page" href="[LINK]">

Запускаем хрефер, парсим как можно больше различных слов для поиска (в word databse). Если лень парсить можно скачать мою. Обновляем прокси. Обязательно отключаем фильтр по url (disable filtering harvestered links by template), снимаем галку Enable filtering links of duplicated links by hostnames Запускаем парсинг и забываем про хрефер на полдня. После этого у нас есть список урлов проиндексированных страниц вашего сайта. Составляем карты (для сапы на главной 500 ссылок, на странице второго уровня 150 ссылок итого около 70к страниц можно запихать) и всё :)

Вот так всё просто. Некоторые не добавляют многостраничники в сапу, боясь рутины по удалению “плохих” страниц. Если что не понятно, спрашивайте в каментах. Если нет хрефера, обращайтесь, запущу сбор по вашему сайту за символическую плату.

Трекбек

Ссылка для трекбека:
http://noxon.su/107-107.html/trackback

Комментарии

Привет.. отпешис на мыло.. скок денег за парсинг возмеш?

Да и мне отпиши, просто скоро в индекс должен войти 10 000 страниц- и хочится хоть 7 000 запульнуть в сапу :)

Молодец, оригинальное решение

А не проще установить плагин для файрфокса, нажать кнопочку и подождать когда негры отработают процесс проверки на проиндексированность?

Я в шоке просто, откуда люди берут контента на несколько десятков тысяч страниц?

Можно активировать все УВ1, УВ2, и 500-700УВ3, и по мере закупок, раз в неделю проверять плагином от Wink’a следующие 250-500. Просто попадется 1 проиндексированная в очередь оптимизаторам страница и получишь пачку ГБЛ :( , а каждый раз\ап перескановывать 200к немного жесть

При добавлении сайта можно проверить проиндексированность страничек плагином от Wink. На крайняк набросать скриптец для проверки проиндексированности страничек сайта. Хрефром парсить это уже извращение

Народ на какого рода контенте вы делаете такие большие ГС? Поделитесь плиз инфой…

Чекаются странички в ФФ с помощью плагина, вопрос в том, как скормить роботу сапы все странички, потому что он не все УВ3 индексирует, а саппорт тупо пишет, что пробоема не в нашем чудо-роботе, а в вашем сайте. Который прекрасно индексируется яндексомна 100%.