Википедия

Поисковый робот

Поиско́вый ро́бот, или веб-кра́улер (англ. Web crawler; также встречается название «веб-пау́к»), алгоритмы автоматического интернет-сёрфинга (англ. Internet surfing, surfing «катание (скольжение) на (по) волнах(-м)») — программа, являющаяся составной частью поисковой системы и предназначенная для перебора страниц Интернета с целью занесения информации о них в базу данных поисковика.

По принципу действия, «паук» напоминает обычный браузер. Он анализирует содержимое страницы, сохраняет его в некотором специальном виде на сервере поисковой машины, и отправляется по ссылкам на следующие страницы. Порядок обхода страниц, частота визитов, защита от зацикливания, а также критерии выделения значимой информации определяются алгоритмами информационного поиска. В большинстве случаев переход от одной страницы к другой осуществляется по ссылкам, содержащимся на первой и последующих страницах.

Владельцы поисковых машин нередко ограничивают глубину проникновения паука внутрь сайта и максимальный размер сканируемого текста, поэтому чересчур большие сайты могут оказаться не полностью проиндексированными поисковой машиной. Кроме обычных пауков, существуют так называемые «дятлы» — роботы, которые «простукивают» проиндексированный сайт, чтобы определить, что он доступен.

Также многие поисковые системы предоставляют пользователю возможность самостоятельно добавить сайт в очередь для индексирования. Обычно это существенно ускоряет индексирование сайта, а в случаях, когда никакие внешние ссылки не ведут на сайт, вообще оказывается практически единственной возможностью указать на его существование. Ещё одним способом быстрой индексации сайта является добавление на сайт систем веб-аналитики, принадлежащих поисковым сервисам. Например, таких как Google Analytics, Яндекс.Метрика и Рейтинг@Mail.ru.

Ограничить индексацию сайта можно с помощью файла robots.txt. Полная защита от индексации может быть обеспечена другими механизмами, например, установкой пароля на странице либо требованием заполнить регистрационную форму перед тем, как получить доступ к содержимому.

См. также

Ссылки

  • Яндекс.Вебмастер: Как работает робот. Яндекс. Дата обращения: 25 апреля 2009. Архивировано 23 августа 2011 года.
  • Googlebot: Google's Web Crawler. Google. Дата обращения: 25 апреля 2009. Архивировано из оригинала 23 августа 2011 года.

Википедия, чтение, книга, библиотека, поиск, нажмите, истории, книги, статьи, wikipedia, учить, информация, история, скачать, скачать бесплатно, mp3, видео, mp4, 3gp, jpg, jpeg, gif, png, картинка, музыка, песня, фильм, игра, игры, мобильный, телефон, Android, iOS, apple, мобильный телефон, Samsung, iphone, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, ПК, web, Сеть, компьютер, Информация о Поисковый робот, Что такое Поисковый робот? Что означает Поисковый робот?

Poisko vyj ro bot ili veb kra uler angl Web crawler takzhe vstrechaetsya nazvanie veb pau k algoritmy avtomaticheskogo internet syorfinga angl Internet surfing surfing katanie skolzhenie na po volnah m programma yavlyayushayasya sostavnoj chastyu poiskovoj sistemy i prednaznachennaya dlya perebora stranic Interneta s celyu zaneseniya informacii o nih v bazu dannyh poiskovika Po principu dejstviya pauk napominaet obychnyj brauzer On analiziruet soderzhimoe stranicy sohranyaet ego v nekotorom specialnom vide na servere poiskovoj mashiny i otpravlyaetsya po ssylkam na sleduyushie stranicy Poryadok obhoda stranic chastota vizitov zashita ot zaciklivaniya a takzhe kriterii vydeleniya znachimoj informacii opredelyayutsya algoritmami informacionnogo poiska V bolshinstve sluchaev perehod ot odnoj stranicy k drugoj osushestvlyaetsya po ssylkam soderzhashimsya na pervoj i posleduyushih stranicah Vladelcy poiskovyh mashin neredko ogranichivayut glubinu proniknoveniya pauka vnutr sajta i maksimalnyj razmer skaniruemogo teksta poetomu chereschur bolshie sajty mogut okazatsya ne polnostyu proindeksirovannymi poiskovoj mashinoj Krome obychnyh paukov sushestvuyut tak nazyvaemye dyatly roboty kotorye prostukivayut proindeksirovannyj sajt chtoby opredelit chto on dostupen Takzhe mnogie poiskovye sistemy predostavlyayut polzovatelyu vozmozhnost samostoyatelno dobavit sajt v ochered dlya indeksirovaniya Obychno eto sushestvenno uskoryaet indeksirovanie sajta a v sluchayah kogda nikakie vneshnie ssylki ne vedut na sajt voobshe okazyvaetsya prakticheski edinstvennoj vozmozhnostyu ukazat na ego sushestvovanie Eshyo odnim sposobom bystroj indeksacii sajta yavlyaetsya dobavlenie na sajt sistem veb analitiki prinadlezhashih poiskovym servisam Naprimer takih kak Google Analytics Yandeks Metrika i Rejting Mail ru Ogranichit indeksaciyu sajta mozhno s pomoshyu fajla robots txt Polnaya zashita ot indeksacii mozhet byt obespechena drugimi mehanizmami naprimer ustanovkoj parolya na stranice libo trebovaniem zapolnit registracionnuyu formu pered tem kak poluchit dostup k soderzhimomu Sm takzheBot programma Poiskovyj indeks Polnotekstovyj poiskSsylkiYandeks Vebmaster Kak rabotaet robot rus Yandeks Data obrasheniya 25 aprelya 2009 Arhivirovano 23 avgusta 2011 goda Googlebot Google s Web Crawler rus Google Data obrasheniya 25 aprelya 2009 Arhivirovano iz originala 23 avgusta 2011 goda Dlya uluchsheniya etoj stati zhelatelno Najti i oformit v vide snosok ssylki na nezavisimye avtoritetnye istochniki podtverzhdayushie napisannoe Ispravit statyu soglasno stilisticheskim pravilam Vikipedii Dobavit illyustracii Pozhalujsta posle ispravleniya problemy isklyuchite eyo iz spiska parametrov Posle ustraneniya vseh nedostatkov etot shablon mozhet byt udalyon lyubym uchastnikom Eto zagotovka stati ob Internete Pomogite Vikipedii dopolniv eyo

NiNa.Az

NiNa.Az - Абсолютно бесплатная система, которая делится для вас информацией и контентом 24 часа в сутки.
Взгляните
Закрыто