Как запустить поисковую систему
Тысячи программистов по всему миру тихо стучат по своим клавиатурам, пытаясь создать следующую лучшую поисковую систему. Сергей Брин и Лоуренс Пейдж, известные создатели Google, признают, что «разработка поисковой системы — сложная задача». Поисковая система используется для поиска информации в Интернете. Механизм сканирует Интернет и индексирует миллионы страниц информации, выдавая результаты, когда кто-то выполняет поиск.
Получить веб-краулер
Шаг 1
Приобретите веб-сканер, который представляет собой паука или бота, который ползает по Интернету и собирает страницы из Интернета. Паук посещает веб-страницы, читает их и переходит по ссылкам на другие страницы. Вы можете найти поисковый робот с открытым исходным кодом или создать свой собственный. Если вы хотите создать свой собственный поисковый робот, получите список URL-адресов, с помощью которых он будет заполняться. Создать медленный сканер легко, но создать высокопроизводительный сканер для индексации миллионов и миллионов страниц сложнее.
Шаг 2
Получите столько пропускной способности, сколько вы можете себе позволить. Эта пропускная способность нужна вашему поисковому роботу, когда он перемещается по сети и получает страницы.
Шаг 3
Создайте индекс. Все, что находит ваш сканер, попадает в индекс поисковой системы. Индекс подобен гигантской книге или каталогу, содержащему копию каждой веб-страницы, которую находит поисковый робот. Анна Паттерсон из Стэнфордского университета рекомендует индексировать только те данные, которые необходимы для предоставления результатов поиска. Она также советует не пытаться индексировать "кухонную раковину", а "приготовить что-нибудь презентабельное".
Шаг 4
Ранжируйте свои результаты в индексе, используя высокопроизводительную базу данных и всю информацию о ваших серверах из вашего веб-сканирования. Вам нужно обработать, возможно, миллионы веб-страниц, чтобы создать свой индекс. Страницы, зарегистрированные в вашем индексе, должны быть ранжированы в порядке того, что наиболее важно для ваших пользователей.
Шаг 5
Создайте привлекательный веб-сайт, чтобы возвращать результаты поиска.
Шаг 6
Запустите и продайте свою поисковую систему. По словам Ласло Ксальери из Search Engine Watch.com, бесплатная поисковая система должна вести пользователей туда, куда они хотят, быстро и элегантно. Он говорит, что для запуска успешной поисковой системы "ваша цель – привлечь потребителей и продать доступ к ним маркетологам".
Предупреждение
Любой программист может запустить поисковую систему, но получение релевантных результатов — настоящая проблема.