[Скрипт] Собственный поисковик

Статус
В этой теме нельзя размещать новые ответы.
А как можно IP адресами ресурсов ограничеться? допустим поисковик по региону нужен как сделать?
Кто знает напишите!

Как выше напсиали: сначала узнаешь у провайдеров диапазон IP адресов. Потом идешь к знакомому программисту и он реализует, чтоб поиском могли пользоваться только пользователи из определенного диапазона.
 
Кстати, теоретики, по запросу site:nulled.ws гугола мне сейчас выдала 70400 страниц ей проиндексированных. Померив размер текстовой части нескольких открытых сейчас у меня страниц нулледа, получив средний вес страници и умножив его на 70400 я получил около 9 гигов чистого текста.
Конечно, нуллед это нуллед. Он такой один и он реально большой сайт. Больше среднего. Тогда я взял пару из популярных своих местных ресурсов и для каждого получил значение порядка 700 мегов. При этом в индексе около 4к страниц у каждого. А это совсем не много.
Это цифры чистого текста. Это даже не "сохраненная копия" из поисковика потому что я не считал цсс и графику, она увеличит в 4-5 раз цифру Кроме того, загнав этот текст даже без графики просто чисто текст в БД с более менее подходящей для поисковика структурой мы уже получит по примерно 1.2-1.5 гига на сайт к этому надо добавить еще и собственно поисковые индексы. Возмем для примера поис встроенный в форумы. На моей памяти был пример когда один из мемберов нулледа столкнулся по работе своей сеошником с ситуацией когда форум на пхпбб2 был настроен на 100% поиск всего что на нем есть. при размере БД в 9 гигов размер поискового индекса сотавил 8.8 гигов. и только 200 мегов составляли остальные таблици. Но даже если мы и не будем маньячить, нам всеравно нуно будет под индекс раза в 2-3 больше места чем под саму информацию. Естественно это будет именно полный поиск, как на гугле, а не с ограничениями на 3 символа как на нулледе.
Сколько получается? Получается уже 6 гигов на сайт минимум. Опять таки я иду в локалку свою которая на самом деле очень не большая по размеру и смотрю реально на сайты. Сайтов более крупных по сравнению с примером считаем что нет, примерно таких как пример штук 10, еще сайтов раза в 2 помельче тоже штук 10. И всякой мелочевки около сотни. Итого чисто БД поисковика под локалку выходит размером 150 гигов минимум.
Так что думайте исходя из этого когда решите поисковик свой делать. Сможете в доли секунды обработать запрос по такой БД? :)

П.С. Если кто-то скажет сразу "да я без проблем сделаю у этой БД такую структуру чтоб в доли секунды обрабатывало..." то сначала подумайте серьезно над тем насколько вы отвечаете за эти свои слова, а потом подумайте еще раз и не пишите глупости.
 
ищу поисковик для поиска по локалке провайдера
желательно на php и мускуле
без всяких cgi (не сетабельно и не юзабельно получилось у меня)
sphider не предлагать - он там на индексации киношного сайта на обработке 500-ой страницы сдох
но что неибудь ему подобное бы...
 
А что сдохло-то? Я индексировал около 12000 страниц - вроде нормально. Размер базы - это уже другой вопрос...
Я думаю, что если не хватает мощностей PHP/MySQL, то стоит таки смотреть в сторону С++/cgi, что-то вроде
 
ищу поисковик для поиска по локалке провайдера
желательно на php и мускуле
без всяких cgi (не сетабельно и не юзабельно получилось у меня)
sphider не предлагать - он там на индексации киношного сайта на обработке 500-ой страницы сдох
но что неибудь ему подобное бы...
Глянь это Для просмотра ссылки Войди или Зарегистрируйся
 
beldvd:
я не знаю что но оно мне сказал Out of memory и при доступных 32 МБайтах не может использовать 12 КБайт.
и asp не вариант. IIS как то не охота ставить.

gls:
и он сдох))
 
А что можно удобно использовать в сети? Желательно чтоб быстро индексировал. Нужно на сайтов 3-5, совсем не больших, но чтоб пользователям было удобно.
 
Для сетки на 3-5 сайтов мона и самому написать маленькую системку на php, получится такой себе продвинутый парсер)

Но тока если сайтиков действительно 3-5 и они маленькие. Потом использовать крон скажем раз в сутки, чтоб база обновлялась)

П.С и кста, ктото Яndex.Server Free Edition использовал, просто интересно?
 
Пробовал mnoGoSearch и Sphider на локалке - индексация идет очень долго, оперативки жрет немеряно (около 60% на двухядерном проце)...

Хостер скажет ай-яй-яй... Если на хостинге ставить.

Для себя сделал вывод: юзать Гугл и не заморачиваться.
 
Sphider поставил, но есть пару проблем:
1) Раза 3 в сутки намертво слетает мускул, причем полностью, помогает только ребут мускула
2) Кто подскажет как сделать чтоб он понимал и cp 1251 и UTF-8. cp 1251 выводит нормально, а вот UTF-8 - каракули?
Кст щас качаю Яндекс Сервер.
Был удивлен тому, что его реально нахаляву раздают. Кому лень искать - вот ссылка:
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху