Запихал недавно в сапу сайт в 20к страниц. Всего на сайте содержится более 200к страниц, но проиндексированно только 20к. Отсюда встала проблемма, как запихать в сапу максимальное количество страниц, при этом избавить себя от мучительной рутины по удалению не проиндексированных страниц.
Решение было найдено простое и красивое. Нужно просто спарсить яндекс, настроив его на поиск яндекс по одному сайту. Таким образом мы получаем только проиндексированные страницы.
Правда есть одна проблемма, яндекс не отдаёт в выдаче больше 1000 страниц. К счастью в моём арсенале есть совершенно адский инструмент – hrefer (поставляется вместе с хрумером). Буквально за один вечер я вытащил все страницы из индекса и на следующий день уже добавлял сайт в сапу.
Делается это так:
Для начала нам необходимо настроить поиск по яндексу только по нашему сайту. Открываем engines.ini и добавляем в самое начало такие строки:
[Yandex 1]
Hostname=http://yandex.ru
Query=yandsearch?date=&text=[QUERY]&site=site.ru&rstr=&zone=all&wordforms=all&lang=all&within=0&from_day=&from_month=&from_year=&to_day=6&to_month=8&to_year=2009&mime=all
LinksMask=
TotalPages=100
NextPage=<a id="next_page" href="[LINK]">
NextPage2=</a><a id="next_page" href="[LINK]">
Запускаем хрефер, парсим как можно больше различных слов для поиска (в word databse). Если лень парсить можно скачать мою. Обновляем прокси. Обязательно отключаем фильтр по url (disable filtering harvestered links by template), снимаем галку Enable filtering links of duplicated links by hostnames Запускаем парсинг и забываем про хрефер на полдня. После этого у нас есть список урлов проиндексированных страниц вашего сайта. Составляем карты (для сапы на главной 500 ссылок, на странице второго уровня 150 ссылок итого около 70к страниц можно запихать) и всё
Вот так всё просто. Некоторые не добавляют многостраничники в сапу, боясь рутины по удалению “плохих” страниц. Если что не понятно, спрашивайте в каментах. Если нет хрефера, обращайтесь, запущу сбор по вашему сайту за символическую плату.
Трекбек
Ссылка для трекбека:
http://noxon.su/107-107.html/trackback
Комментарии
Привет.. отпешис на мыло.. скок денег за парсинг возмеш?
Автор: Nicolas | 14.08.2009 11:17
Да и мне отпиши, просто скоро в индекс должен войти 10 000 страниц- и хочится хоть 7 000 запульнуть в сапу
Автор: Соловов Никита | 14.08.2009 11:25
Молодец, оригинальное решение
Автор: Одесский манимейкер | 14.08.2009 12:14
А не проще установить плагин для файрфокса, нажать кнопочку и подождать когда негры отработают процесс проверки на проиндексированность?
Автор: Девушка Хирург | 14.08.2009 12:50
Я в шоке просто, откуда люди берут контента на несколько десятков тысяч страниц?
Автор: Анонимный | 14.08.2009 12:51
Можно активировать все УВ1, УВ2, и 500-700УВ3, и по мере закупок, раз в неделю проверять плагином от Wink’a следующие 250-500. Просто попадется 1 проиндексированная в очередь оптимизаторам страница и получишь пачку ГБЛ
, а каждый раз\ап перескановывать 200к немного жесть
Автор: CarlessInLvov | 14.08.2009 13:14
При добавлении сайта можно проверить проиндексированность страничек плагином от Wink. На крайняк набросать скриптец для проверки проиндексированности страничек сайта. Хрефром парсить это уже извращение
Автор: Прохожий | 14.08.2009 14:52
Народ на какого рода контенте вы делаете такие большие ГС? Поделитесь плиз инфой…
Автор: Rihard | 14.08.2009 20:00
Чекаются странички в ФФ с помощью плагина, вопрос в том, как скормить роботу сапы все странички, потому что он не все УВ3 индексирует, а саппорт тупо пишет, что пробоема не в нашем чудо-роботе, а в вашем сайте. Который прекрасно индексируется яндексомна 100%.
Автор: Lesso | 26.08.2009 09:42