Историчка. Доклады по истории /

поисковая система, робот, MnoGoSearch, istorichka.ru search

Связь Есть вопросы, дополнения или предложения?

Так напишите мне!
Историчка.Ru » istorichka.ru search

Информация о проекте istorichka.ru search

istorichka.ru search

— поисковая система, объединяющая сайты, имеющие отношение к Истории. Она удобна для пользователей, так как объединяет разные сайты по истории, и только по истории. Она удобна для веб-мастеров, так как малыми затратами позволяет существенно повысить посещаемость их сайтов. Она уникальна, так как нигде в Рунете ничего подобного пока что нет. И, самое главное, — участие в системе istorichka.ru search абсолютно бесплатно!

Как это работает?

Принцип работы istorichka.ru search схож с принципом работы любого поисковика, такого, как, например, Яndex. Робот-индексатор обходит сайты, запоминает их содержимое, продвигается по их структуре, используя внутренние ссылки. Единственное отличие — это то, что в istorichka.ru search сайт нельзя добавить через форму индексации нового сайта, а надо написать заявку, где указать URL стартовой страницы сайта, его название, тематику, e-mail администратора и любые комментарии. После рассмотрения заявки администратором istorichka.ru search в случае, если сайт подойдет по тематике, начнется индексация.

Что представляет из себя робот?

Робот — это серверный скрипт (написан на языке Perl), который ходит по страницам, подобно «нормальному» пользователю (однако, заметьте: робот не понимает и никогда не будет понимать javascript, ActiveX и прочие клиентские скрипты, а также cookies — так что позаботьтесь о том, чтобы навигация по Вашему сайту была выполнена полностью средствами (X)HTML, или, если Вы используете клиентские скрипты, продублируйте навигацию, например, используя тег <NOSCRIPT>). Робот не скрывается — его легко опознать по строке user-agent. У основного робота-индексатора она выглядит так: MnoGoSearch/3.2.33 (compatible; FreeBSD; http://www.istorichka.ru/search/; A; robot). Робот istorichka.ru search использует файлы robots.txt для определения страниц, которые не должны быть проиндексированными. Индексация происходит каждые полчаса (это делается для того, чтобы снизить нагрузку на индексируемый сайт — на сайтах, размещенных на некачественных бесплатных хостингах, непрерывная рекурсивная индексация может вызывать «тормоза»), причем за один прием робот обрабатывает не более 500 документов, так что заблаговременно позаботьтесь о том, чтобы страницы — дубликаты были запрещены к индексации, иначе Ваш сайт будет индексироваться дольшее время и на него будет оказана большая нагрузка. Сайт размером до тысячи страниц обычно полностью индексируется в течении нескольких часов, намного дольше (до недели и более) индексируются форумы, особенно те, у которых нет грамотно оформленных robots.txt.

Кто автор программы?

Скрипт, использованный для построения системы i.r search — это бесплатный MnoGoSearch. Поддержку и модификацию системы производит сам автор проекта «ИСТОРИЧКА», то есть я :-)

Советы веб-мастерам

Если Вы хотите добавить в систему istorichka.ru search сайт, вам будет нелишне узнать следующее:

В систему допускаются только сайты, тематика которых — История как наука; История в рамках школьного/институтского образования; форумы по Истории. Сайт будет добавлен в систему лишь после контакта с его владельцем по e-mail и получением согласия на участие в системе. Заметьте также, что англоязычные (равно как и франко-, итальяно- и т.п.) сайты сейчас, к сожалению, в систему не допускаются.

Типичные ошибки веб-мастеров:

В основном проблемы при индексации возникают по двум причинам: отсутствие файла robots.txt и неочевидные URL'ы. Про robots.txt в Сети написано уже более чем достаточно, и я не буду повторяться. Вы можете найти инструкции по созданию этого файла, используя любой поисковик. Грамотно составленный robots.txt поможет снизить нагрузку на Ваш сайт и повысить результативность поиска по нему. Но, к сожалению, его использование не решает всех проблем. Дело в том, что средствами этого файла можно закрыть к индексации пространство адресов по его началу, а из-за неочевидных схем построения URL'ов движками форумов часто бывает невозможно запретить к индексации определенные разделы этих форумов, таких, как логины, печать страниц, поиск и т.п. В итоге такие страницы, предназначенные исключительно для «живых» людей, попадают в базу поисковика и затрудняют поиск по сайту. Чтобы избежать такой ситуации, попробуйте внести в движок вашего форума такие изменения, чтобы в строке URL действие (action=smth) всегда стояло на первом месте. Тогда Вы сможете запрещать к индексированию страницы определенных действий на Ваших форумах. Я также прошу всегда запрещать к индексации профили ваших пользователей, чтобы избежать попадания их e-mail адресов «в массы» (к сожалению, далеко не все форумы скрывают адреса своих пользователей). Это поможет снизить поток спама в их ящики.

Есть вопросы?

Если Вам что-то непонятно, если у Вас есть ко мне какие-то вопросы, или Вы хотите включить Ваш сайт в программу i.r search, пишите мне, и я постараюсь ответить на все Ваши вопросы.

Страница модифицирована Mon, 01 Jan 2024 09:00:57 GMT
Страница сгенерирована за 0.005 сек

Детальная информация