Рефераты

Rambler - формы запросов и поиск

Rambler - формы запросов и поиск

Введение

Rambler: история компании

Есть такой городок в Подмосковье - Пущино. Совсем небольшой - и по площади,

и по населению. Город целиком и полностью посвящен биологии. Самая высокая

точка Московской области. Больше десятка НИИ - и ни одного

производственного предприятия. Две прямые параллельные улицы, на одной из

которых расположились институты, а на другой располагается по вечерам и

выходным отдыхающий народ. Рай, отделенный от остального мира океаном леса.

Город на горе.

В 1991 году в городе Пущино появилась группа единомышленников,

вдохновленных только что появившейся коммуникационной средой Интернет.

Дмитрий Крюков, Сергей Лысаков, Виктор Воронков, Владимир Самойлов, Юрий

Ершов - это технически подкованные, творческие и смелые люди с активной

жизненной позицией и стремлением к новому. Судьба свела их вместе явно для

больших свершений. Будущие создатели Рамблера поначалу обслуживали

радиотехнические приборы в Институте биохимии и физиологии микроорганизмов

РАН. Например, Дмитрий Крюков работал на ЯМР-спектрометре, помогал биологам

анализировать трехмерную структуру ДНК, создавал уникальную гигантскую

электронную катротеку микроорганизмов. Когда находишься в Пущино, возникает

желание общаться, коммуницировать, связываться с огромным миром, который за

лесом. Видимо, эта тяга и сподвигла компанию "Стек" во главе с Сергеем

Лысаковым заняться локальными сетями и подключением к Интернету.

Нормальный, оперативный и эффективный обмен данными был необходим для

реализации научных целей. "Стековцы" сами создали внутри города сеть,

подключили Пущино к Москве и через нее - к мировому Интернету (это был

первый IP-канал в России, выходящий за пределы Москвы), присоединились к

сети Курчатовского института атомной энергии. "Стековцы" вспоминают, что

иной раз кабели приходилось прокладывать вручную, зимой, под землей. При

минусовой температуре! В 1992 году компания запускает собственные ftp- и

mail-серверы. Через два года - свой первый www-сервер. Так, постепенно, шаг

за шагом Пущино становилось очень важным узлом Мировой Сети.

1996 год - ключевой для развития русского киберпространства. Именно в этот

год Сергей Лысаков и Дмитрий Крюков принимают решение разработать первую

русскую поисковую систему для Интернета. Команда "Стека" прозорливо сделала

ставку на программу-поисковик. Это было важное, ответственное и, на первый

взгляд, необоснованное решение, поскольку в то время российский сегмент

Сети был очень мал - не более 30-50 сайтов. А новые разработки означали для

компании покупку оборудования, для чего пришлось сократить собственные

зарплаты.

Программист Дмитрий Крюков начал с того, что придумал проекту название. Для

этого открыл англо-русский словарь. Взгляд упал на Rambler. Дмитрию

понравилось значение слова "скиталец, странник, бродяга": роботы поисковой

машины действительно ходят по сайтам, собирая информацию, круглые сутки не

зная покоя. За работой сидел и днями, и ночами. Жена Карина приносила обеды

и ужины в офис. Когда Дмитрия спрашивают, что это значит для программиста -

создать такую программу, он спокойно отвечает: это интересно, это проверка

себя, своих сил. Это не настолько сложно, чтобы отказывать себе в

удовольствии сделать это. Через несколько месяцев, к осени 1996 года, был

готов окончательный вариант поисковика. 26 сентября был зарегистрирован

домен rambler.ru, а 8 октября "Стек" активизировал систему.

В тот момент в Рунете уже существовало две-три поисковых машины - но они не

выдержали проверки временем и быстро исчезли. А Рамблер развивался,

эволюционировал. Хотя ему пришлось пройти через огонь и воду. Сергей

Лысаков и Дмитрий Крюков рассказывают, как однажды на верхнем этаже

прорвало трубу и сервер, на котором работал Рамблер, пришлось буквально

просушивать. Ничего, не сломался. В другой раз примитивно подвело железо:

сгорели жесткие диски. Сергей и Дмитрий в тот же день съездили в Москву и

срочно купили - за бешеные деньги - новые устройства. Система не работала

всего одни сутки. Для отладки работы системы приходилось очень подолгу

сидеть за компьютером, неотрывно контролируя поток запросов и процесс

поиска. Рамблер держался на энтузиазме своих создателей, на воле и вере в

правильность выбранного пути.

Весной 1997 года появляется Rambler's Top100 - уникальный рейтинг-

классификатор, который не только оценивает на основе объективных данных

популярность российских ресурсов, но и позволяет одним "кликом" попасть на

них. В сущности, вся история Рунета разделилась на "до" и "после".

Возникновение такого универсального счетчика, способного направлять

аудиторию на разные ресурсы, создало в российском Интернете активную,

динамичную конкурентную среду. Веб-мастера стали более тщательно и вдумчиво

работать над своими сайтами, стремясь занять в Топ100 более высокие

строчки. Хороший рейтинг давал дополнительные преимущества - быстрый рост

аудитории. В свою очередь, модераторы Топ100 боролись и с успехом борются

по сей день с так называемыми накрутками - искусственным завышением

рейтинга того или иного ресурса. За первый год существования рейтинга объем

русскоязычного сегмента Сети вырос как минимум на два порядка. Rambler's

Top100 быстро стал универсальным барометром сети, общим стандартом

медиаизмерений.

Каждый год семилетней истории Rambler ознаменован большими достижениями.

Сегодня нам приятно вспоминать прошлые успехи, потому что компании есть чем

гордиться. Наша история - это залог наших будущих достижений и прорывов.

Rambler был и остается универсальным проводником, маяком и помощником для

миллионов российских пользователей. Понимая значение портала для всей

русской Сети и осознавая нашу ответственность, мы говорим сегодня о

принципиально новой стратегии, рассматривающей Интернет как проект общества

будущего, как инкубатор для решающих перемен. www.rambler.ru

К нашему семилетию, 26 сентября 2003 года, мы приготовили несколько

новинок, делающих знаменитый портал еще более интересным и полезным.

Изменился дизайн головной страницы, он стал более свежим и вместе с тем

остался легко узнаваемым. В июне 2003 года компания запустила новую версию

поисковой машины, которая отличается от предыдущей по двум основным

параметрам. Во-первых, значительно увеличилась скорость поиска; во-вторых,

благодаря новой архитектуре системы обновление поискового индекса

происходит несколько раз в день. Это значит, что Rambler всегда находит

даже самые свежие документы, включая последние новости. Rambler понимает

живой русский язык, знает, что бывает "б/у", "у.е." и "а/я". Механизм

ассоциаций помогает пользователю точнее сформулировать свой запрос и,

следовательно, быстрее найти искомый ресурс. Для тех, кто точно знает, что

ищет, и не хочет тратить лишнее время, мы открыли специальную лаконичную

версию нашего поиска по адресу r0.ru, или, как говорят, Арнольд. На этой

странице есть только самое основное, то есть строка поиска, новости и

почта. Сама почта также обновилась. Перемены не только внешние, но и

внутренние: объем почтового ящика увеличился в три раза! Кроме того,

появилась новая, многоуровневая система защиты от спама.

Rambler's Top100: индустриальный рейтинг

Rambler's Top100 - легендарный рейтинг-классификатор ресурсов российского

Интернета. Пользователи Сети уже привыкли видеть на лучших сайтах значок

"Участник Rambler's Top100". Этот рейтинг является своеобразным центром

Сети в России, предоставляя как простым пользователям, так и специалистам

универсальную панораму всего российского киберпространства. Именно поэтому

за рейтингом закрепилась репутация надежного барометра интернет-индустрии.

Тор100 делает Интернет в России прозрачным, понятным, почти осязаемым - как

для обычных пользователей, так и для владельцев ресурсов, не говоря уже о

рекламодателях.

В сфере интернет-рекламы Top100 - бесспорный лидер медиаизмерений в Сети.

Рекламодатели используют его для выделения целевых аудиторий и планирования

рекламных кампаний в Интернете. В основе лидерства Top100 - огромный охват

(больше полумиллиона регистраций и 110 тысяч активных участников), жесткий

регламент участия и четкая система модерирования, благодаря которой всех,

кто пытается играть со статистикой, надолго либо навсегда исключают из

рейтинга.

Статистике Top100 доверяют как единственному достоверному источнику

информации о популярности и, соответственно, ценности того или иного сайта.

Поэтому так трудно продать ресурс, не имеющий официальной "истории"

посещаемости в Тор100: без нее невозможно доказать, что аудитория своя,

регулярная, а не нагнанная через pop-up и pop-under.

Благодаря системе защиты от накруток, статистика Тор100 считается самой

"консервативной", или осторожной оценкой - однако задача рейтинга прежде

всего в том, чтобы быть единой для всех системой статистики, в рамках

которой можно сравнивать показатели разных сайтов. С этой задачей Тор100

справляется идеально.

Кроме функции универсального и беспристрастного арбитра, Top100 играет роль

инструмента систематизированного поиска: пользователь может выбирать с

помощью списка самые востребованные ресурсы в каждой из категорий,

освобождаясь от необходимости блуждать по Интернету в поисках чего-то

ценного. Как следствие, самый популярный в русскоязычном Интернете каталог

создает в Сети конкурентную, активную, динамичную среду: владельцы ресурсов

заинтересованы в том, чтобы стоять на более высокой строчке в рейтинге,

потому что это обеспечивает дополнительный приток аудитории.

Собственные ресурсы Рамблера вынесены из рейтинга в отдельную категорию

"Ресурсы Рамблера", доступную с главной страницы Тор100 и внутренних

страниц рейтинга. Это позволяет компании избежать понятного негодования

участников рейтинга: ведь в противном случае многие проекты занимали бы

первые места в ряде категорий каталога, что привело бы к подозрениям в

нечестной конкуренции.

Поскольку Тор100 - это, в первую очередь, инструмент бизнеса и индустрии, в

рейтинге участвуют фактически все крупные сайты (за исключением одной

поисковой системы, которая не предоставляет своей статистики) - эти

ресурсы, по определению, обновляются лучше и чаще, чем все остальные.

Именно их поисковая машина Rambler индексирует дважды в день. Так

интеграция рейтинга Тор100 с поисковой машиной помогла сделать поиск

Rambler самым оперативным в русскоязычном Интернете.

В 2004 году Тор100 получил сертификат соответствия стандартам качества ISO

9001 | 2000.

Rambler Mass Media: информационная сверхпроводимость

Rambler Mass Media - одна из крупнейших информационных площадок российского

Интернета. Ежемесячно наши новости читает более трех с половиной миллионов

человек. Это универсальный источник информации о самых последних событиях в

стране и в мире. В регулярной аудитории проекта традиционно высок процент

госслужащих и корпоративной аудитории, что делает Rambler Mass Media одной

из наиболее привлекательных рекламных площадок русскоязычного Интернета.

Уникальность проекта состоит, прежде всего, в беспрецедентном охвате

источников информации: Rambler Mass Media круглосуточно взаимодействует с

более чем 50 ведущими российскими и зарубежными СМИ, как хорошо известными,

так и появившимися недавно. Кроме того, Rambler Mass Media - безусловный

лидер по внедрению мультимедиа. Помимо текстовых материалов и

фоторепортажей, ставших визитной карточкой проекта, Rambler Mass Media

представляет пользователям аудио и видеосюжеты, в числе поставщиков которых

ВГТРК и BBC, Deutsche Welle, радио "Маяк" и др.

Заголовки важнейших новостей размещаются на первой странице портала

Rambler.ru и в блоке "Главные новости дня" на главной странице Rambler Mass

Media. Наиболее актуальные новости могут читать и посетители других

сервисов Рамблера - Рамблер Почты, Погоды на Рамблере.

Спектр освещаемых тем достаточно широк: политическая и экономическая жизнь

России, стран ближнего и дальнего зарубежья; новости бизнеса и финансов,

чрезвычайные происшествия, спорт, новости медицины, культуры, технологий,

Интернета; также обзоры прессы.

В рамках проекта действует около ста пятидесяти постоянно обновляемых

информационных сюжетов, которые рассказывают как о наиболее актуальных и

общественно значимых на сегодняшний день событиях, так и о том, что уже

стало историей.

Использование большого количества информационных источников позволяет

Rambler Mass Media предоставлять аудитории полную и достоверную

информационную картину дня: один и тот же информационный повод может быть

подан различными СМИ по-разному, с разным набором фактов, деталей и

комментариев. Таким образом, предоставление максимально полной фактологии

событий, равно как и аналитических материалов ведущих средств массовой

информации делает Rambler Mass Media оптимальным посредником между теми,

кто производит информацию, и теми, кто ее потребляет.

Среди поставщиков Rambler Mass Media сегодня такие гранды российской

прессы, как "Российская газета", ИД "Коммерсантъ", "Известия", "Труд",

"Независимая газета" и другие издания. Круг наших партнеров постоянно

расширяется. Пользуясь случаем, мы выражаем признательность нашим коллегам.

Уверены в том, что вместе мы многократно расширим медийное пространство в

Интернете!

Поиск Rambler: новый механизм ассоциаций

Теперь пользователям поисковой системы Rambler доступен новый механизм

ассоциаций. Набрав в поисковой строке нужное слово, вы кликаете на окно

"найти".Открывается так называемая ответная страница, в которой найденные

документы расположены в порядке убывания релевантности (соответствия

запросу). На этой же странице в самом низу - строка "У нас также ищут". В

ней приведено несколько слов и словосочетаний, тематически (ассоциативно)

связанных с вашим исходным запросом. Например, на слово "магия" в строке "У

нас также ищут" выдаются результаты гадание, пси-магия, коды к играм,

черная магия, counter-strike, games, коды, вторая мировая война, тетрис,

... еще >>. Если нажать на "Еще", возникает целый блок ассоциаций, более

развернутый. Можно, нажав на любое слово из списка, продолжить поиск.

Другой пример:

Ищем "отдых в Турции". Получаем отдых турция, цены на отдых в турции, отели

турции, отдых в турции кемер, кемер, ... еще >>

Ищем "аквариум". Получаем борис гребенщиков, аквариум гребенщиков,

аквариум.ru, бг, аквариум борис гребенщиков, ... еще >>

Последний пример демонстрирует, что ассоциации могут указать правильный

путь к той или иной информации. Человек, который увлекается разведением

рыбок, должен конкретизировать свой запрос, иначе поисковая машина на слово

"аквариум" выдаст ему список сайтов, посвященных творчеству известной

музыкальной группы. Большинство пользователей, набирая слово "аквариум" в

строке поиска, ищет именно музыку. Для любителя рыбок имеет смысл нажать на

"Еще", тогда он получает полный список, где наверняка окажутся подходящие

слова, например "аквариумистика", "рыбки аквариумные", "цихлиды", "гуппи".

С одной стороны, с помощью механизма ассоциаций пользователь может быстро

уточнить или расширить свой запрос. С другой стороны, цепочка типичных

ассоциаций выявляет недостатки исходного запроса, его неоднозначность,

"размытость". В результате посетитель поисковика Rambler учится правильно

спрашивать, не тратя впустую время, то есть, по сути, прибегает к помощи

"коллективного разума".

Кроме того, ассоциации несут ценную информацию, о которой пользователь мог

раньше и не знать. Например, набрав "велосипеды", получаем вело, детские

велосипеды, продажа велосипедов, горные велосипеды, велосипеды продажа,

merida. В результатах уже есть классификация и популярная марка. В

развернутом списке появляются другие типы велосипедов, а также названия

магазинов.

В некоторых случаях новый механизм исправляет ошибки запросов. Например, на

запрос gjujlf получаем положительный результат: сайты о погоде и

соответствующие ассоциации (gjujlf - это "погода", набранная в латинской

раскладке). Если вы наберете вместо "фотоаппараты" слово "фотоапараты",

Рамблер выдаст сайты, в которых это слово также набрано ошибочно. Кроме

того, в ассоциациях есть и правильное написание. Такие же результаты - в

случае запроса вида "Тольяти" ( правильно писать "Тольятти").

То есть Рамблер учитывает возможность ошибки и помогает быть более

грамотным. Ассоциации содержат очень много полезных сведений для

рекламодателей. С помощью этого механизма можно легко выяснить, что с чем

ассоциируется, какие явления сопрягаются. Массовое сознание предстает как

на ладони. Например, аудитория канала СТС (пользователи, интересующиеся

сайтом и чатом СТС) часто спрашивает земфира, тату, руки вверх, ддт,

britney spears и дельфин, а вот у аудитории MTV другие музыкальные

пристрастия: децл, eminem, limp bizkit, prodigy, сектор газа.

Механизм ассоциаций интересен любому, кто хочет посмотерть, о чем думают

тысячи и тысячи посетителей сети. Он не только интересен, но и полезен. Это

новый инструмент для поиска, равно как и источник ценной информации для

лингвистов и web-мастеров.

Рамблер: инновационные интерактивные проекты

Конец 2003 - начало 2004 года ознаменовался для компании запуском серии

инновационных интерактивных проектов. Это уникальные для российского

интернета разработки, которые строятся на наших программах и энергии

пользователей. Их подпитывает желание людей общаться, коммуницировать.

Конечно, полностью их потенциал раскроется только когда нам удастся

завершить их интеграцию, однако уже сегодня можно говорить о серии

прорывов, которые подтверждают позицию Rambler как лидера индустрии.

Прежде всего, необходимо отметить проекты Rambler-Группы и Rambler-Фото.

Оба этих проекта предоставляют пользователям сети возможность использования

заложенных в проекты программных алгоритмах в собственных целях. Проект

Rambler-Группы дает людям возможность начинать обсуждения самых разных тем,

которые существуют не только в виде форумов, но также и в виде открытых

списков рассылки.

Проект Rambler-Фото представляет пользователям сети возможность создания

фотоальбомов в объеме до 20 мегабайт, причем это дисковое пространство

зарегистированные пользователи Rambler получают в дополнение к тем

мегабайтам почты, на которые они могут претендовать по новым условиям e-

mail обслуживания (15 мегабайт). Таким образом, Rambler представляет самый

большой в российском сегменти сети объем для хранения информации

пользователя - до 35 мегабайт. И многие пользователи русскоязычного

интернета уже успели воспользоваться этим правом. Фотоальбомы на Рамблере

растут как грибы после дождя, а сами программные алгоритмы, заложенные в

проект, уже успели "засветиться" как фундамент громких проектов - таких,

как "Мисс Вселенная, Россия", первого общенационального интерактивного

конкурса красоты.

"Мисс Вселенная, Россия" стал первым по сути кросс-медийным проектов

медиагруппы Rambler, где были задействованы возможности всех подразделений

группы: и первого познавательного телеканала Rambler ТелеСеть, и Интернет-

холдинга Rambler (как промо-мощности портала и система регистрации), и

новые интерактивные проекты Группы и Фото (фактически, "Мисс Вселенная"

стала объединяющих их "скином", как говорят программисты), и подразделение

мобильных сервисов SMXCOM, которое организовывало всероссийское голосование

за красавиц.

Нет ничего удивительного в том, что Rambler поставил рекорд России по самым

крупномасштабным выборам в русскоязычной сети: всего за русских красавиц

было подано более 960 тысяч голосов. О конкурсе написали практически все

издания - еще до финала, потому что это был первый в мире национальный

конкурс красоты без жюри, который был организован как прямые

демократические выборы.

Но для нас самое важное - другое. Нам удалось на примере продемонстрировать

возможности медиагруппы по созданию медиа-событий на базе всех форм медиа:

интернета, телевидения, мобильной связи и даже печатной прессы, которую нам

удалось благодаря партнерству с крупнейшими издательскими домами.

Неудивительно, что запущенная Rambler в прошлом году рекламная кампания и

бурная активность по продвижению кампании уже привела к тому, что рост

аудитории портала Rambler превышает наши прогнозы (включавшие средний по

индустрии рост и сезонные факторы) уже на 16%, и это не временный всплеск,

а новый тренд. Рост аудитории Rambler по состоянию на конец апреля 2004

года составит 20%! Это делает нас одним из самых быстро растущих крупных

ресурсов интернета не только в России, но и в мире!

Rambler остается лидером Интернет-индустрии и на глазах превращается в

крупнейшую медиагруппу по охвату аудитории после национальных телевизионных

каналов.

Расширенный поиск

Форма расширенного поиска дает возможность:

задавать дополнительные параметры поиска;

редактировать параметры поиска и поля, заданные по умолчанию;

выбирать наиболее удобную форму показа результатов поиска.

1. Поиск по тексту ...

всего документа - поиск осуществляется по всему документу, включая его

название и заголовки; включено по умолчанию;

названия - учитываются только названия документов (тег );

заголовков - учитываются только заголовки документов (теги

,

,

,

)

2. Искать слова запроса ...

все ("и") - документ находится только в том случае, если в нем присутствуют

все слова запроса; включено по умолчанию;

хотя бы одно ("или") - документ находится, если в нем встретилось хотя бы

одно слово из запроса;

точную фразу - документ находится, если в нем встретились все слова

запроса, причем в том же порядке и в тех же формах, что и в запросе; выбор

этой опции равнозначен заключению поискового запроса в двойные кавычки.

3. Расстояние между словами запроса ...

ограничивать - расстояние между словами из запроса в тексте документа не

должно быть слишком большим; включено по умолчанию, поскольку повышает

точность поиска;

не ограничивать - расстояние между словами не играет роли; будут найдены

все документы, содержащие слова запроса, вне зависимости от того, на каком

расстоянии друг от друга они находятся.

4. Исключить документы, содержащие следующие слова ...

Из списка найденного исключаются те документы, в которых есть слова,

перечисленные в этом поле.

5. Язык документа ...

любой - находятся любые документы, независимо от языка; включено по

умолчанию;

русский - поиск только по "русскоязычным" (кириллическим) документам;

английский - поиск только по "англоязычным" документам (набранным

латиницей).

6. Дата документа ...

Позволяет отбирать только те документы, дата создания которых укладывается

в заданный диапазон. В частности, можно ограничить выдачу только "новыми"

(начиная с указанной даты) или "старыми" документами (до указанной даты).

Все даты задаются в формате день/месяц/год, например, 29/02/2000. По

умолчанию находятся любые документы, вне зависимости от даты. Внимание:

если сервер не возвращает даты документа, то в качестве таковой

проставляется дата индексирования (день, когда документ был считан "пауком"

Рамблера).

7. Искать документы только на следующих сайтах ...

Позволяет отбирать только те документы, которые найдены на указанных

сайтах. Под сайтом понимается либо уникальное DNS-имя (домен), либо DNS-имя

c каталогом первого уровня, начинающимся с тильды. Например:

top100.rambler.ru, www.lenta.ru, www.hosting.ua/~name - но не

www.rambler.ru/domains/.

Можно указать несколько сайтов через запятые. По умолчанию в поиске

участвуют документы со всех проиндексированных сайтов.

8. Вывод результатов поиска

8.1 Сортировать ...

сайты по релевантности - найденные документы группируются по сайтам, так

что одна позиция в списке результатов поиска может соответствовать

нескольким документам; порядок выдачи сайтов определяется их релевантностью

(степенью соответствия запросу документов с сайта); включено по умолчанию;

страницы по релевантности - документы не группируются по сайтам, то есть

все документы с одного сайта выдаются по-отдельности; порядок выдачи

определяется релевантностью (соответствием запросу) каждого отдельного

документа;

страницы по дате (сначала новые) - документы не группируются по сайтам;

порядок выдачи - от более новых документов к более старым;

страницы по дате (сначала старые) - то же, что и в предыдущем случае, но

сначала выводятся самые старые из найденных документов.

8.2 Выдавать ...

по 15 - на страницах результатов поиска выводится по 15 найденных

документов (сайтов); включено по умолчанию;

по 30 - количество позиций на страницах результатов поиска увеличивается до

30;

по 50 - количество позиций на страницах результатов поиска увеличивается до

50.

8.3 Форма вывода ...

стандартная - включено по умолчанию;

краткая - в результатах поиска показываются только заголовки найденных

документов;

детальная - выводится максимум информации о найденных документах:

заголовок, аннотация, идентификатор документа, даты модификации и

индексирования, размер, кодировка, адрес, и т.п.

8.4 Связанные запросы ...

показывать - в левой части экрана выводится список запросов, "связанных" с

данным - то есть часто задаваемых теми пользователями, которые вводили

данный запрос;

не показывать - включено по умолчанию; колонка со списком "связанных"

запросов не выводится (начало списка показывается внизу страницы под

заголовком "У нас также ищут").

Язык поисковых запросов

Поисковый запрос может состоять из одного или нескольких слов, в нем могут

присутствовать знаки препинания. Составлять простые запросы можно и не

вдаваясь в тонкости языка запросов. Так, если ввести в поисковую строку

несколько слов без знаков препинания и логических операторов, будут найдены

документы, содержащие все эти слова (причем на ограниченном расстоянии друг

от друга).

Однако знание и правильное применение языка запросов поисковой машины

поможет сделать Ваш поиск на Рамблере быстрым и эффективным.

Регистр

В общем случае, регистр написания поисковых слов и операторов значения не

имеет, то есть дом и ДОМ, Not и nOt воспринимаются одинаково. И лишь

иногда, в целях повышения качества поиска, регистр слов поискового запроса

принимается во внимание.

Например, если запрос состоит из двух, трех или четырех слов, каждое из

которых написано с большой буквы, то предполагается поиск по имени

собственному, и автоматически производится изменение ограничения расстояния

между словами запроса со значения по умолчанию на величину (n-1)*2, где n -

количество слов запроса. Это позволяет находить группу слов запроса, внутри

которой есть не более одного "лишнего" слова или знака препинания, например

"Баден-Баден", "А. Пушкин", "Федор Михайлович Достоевский".

Операторы

Запрос, состоящий из нескольких слов, может содержать операторы. Поиск

операторов в документе не производится, они служат лишь инструкцией

поисковой машине. Все операторы поисковой машины бинарные, то есть имеют

левую и правую часть, каждая из которых также является запросом (по

умолчанию состоящим из одного слова). Для изменения сферы действия

операторов (группировки нескольких слов запроса в аргумент оператора)

применяются скобки и кавычки.

Два запроса, соединенные оператором AND (логическое И) образуют сложный

запрос, которому удовлетворяют только те документы, которые одновременно

удовлетворяют обоим этим запросам. Иными словами, по запросу 'собака AND

кошка' найдутся только те документы, которые содержат и слово 'собака', и

слово 'кошка'.

Сложному запросу, состоящему из двух запросов, соединенных оператором OR

(логическое ИЛИ) удовлетворяют все документы, удовлетворяющие хотя бы

одному из этих двух запросов. По запросу 'собака OR кошка' найдутся

документы, в которых есть хотя бы одно из слов 'собака' или 'кошка' (либо

оба эти слова вместе).

Оператор NOT (логическое И-НЕ) образует запрос, которому отвечают

документы, удовлетворяющие левой части запроса и не удовлетворяющие правой.

Так, результатом поиска по запросу 'собака NOT кошка' будут все документы,

в которых есть слово 'собака' и нет слова 'кошка'.

Если оператор явно не указан, используется оператор по умолчанию AND:

находятся только документы, содержащие все слова запроса. Так, запрос

'информация технологии кредит' будет истолкован как 'информация AND

технологии AND кредит'. На странице Расширенного поиска оператор по

умолчанию можно заменить на OR (Искать слова запроса: хотя бы одно).

Операторы AND и OR имеют сокращенные обозначения:

Оператор Сокращенное обозначение

AND &

OR |

Запрос из нескольких слов, перемежающихся операторами, будет истолкован в

соответствии с их приоритетом. Операторы AND и NOT традиционно имеют более

высокий приоритет, поэтому запрос из нескольких слов при обработке сначала

группируется по операторам AND и NOT, и лишь потом по операторам OR.

Изменить порядок группировки можно использованием скобок.

Кавычки

Для поиска цитат можно использовать двойные кавычки. Слова запроса,

заключенного в двойные кавычки, ищутся в документах именно в том порядке и

в тех формах, в которых они встретились в запросе.

Таким образом, двойные кавычки можно использовать и просто для поиска слова

в заданной форме (по умолчанию слова находятся во всех формах). Например,

запросу 'самолет "заправился" посадка' удовлетворяет документ, содержащий

текст '... самолет совершил посадку и заправился ...', и не удовлетворяет

документ, содержащий '.. самолет совершил посадку, чтобы заправиться ...'.

Скобки

При построении запросов иногда возникает необходимость объединения слов

запроса в группы, которые будут аргументами некоторого оператора. Такие

группы заключаются в скобки.

Часть запроса, заключенная в скобки, сама является запросом, и на нее

распространяются правила языка построения запросов. Использование скобок

позволяет строить вложенные запросы и передавать их операторам в качестве

аргументов, а также перекрывать приоритеты операторов, принятые по

умолчанию.

Если запрос без скобок 'машина самолет | аэродром' эквивалентен запросу

'машина AND самолет OR аэродром' и, в соответствии с приоритетами

операторов, означает "найти документы, содержащие либо слова 'машина' и

'самолет', либо слово аэродром, то запрос со скобками 'машина (самолет |

аэродром)' равносилен запросу 'машина AND (самолет OR аэродром)', что

означает "найти документы, содержащие слово 'машина' и одно из слов

'самолет' или 'аэродром'".

Метасимволы

Рамблер пока не поддерживает поиск строк с использованием метасимволов

('*', '?'), которые обычно используются в значении "любая подстрока" и

"произвольный одиночный символ" соответственно. Тем не менее, эти операторы

зарезервированы для подобного использования в будущем.

Применение языка запросов

Каждый запрос, адресованный поисковой машине Рамблера, обрабатывается в

соответствии с правилами языка запросов. Некоторые слова и символы

трактуются как операторы языка запросов и обрабатываются специальным

образом. Фактически, языком запросов описывается некая формула, которая

используется при поиске - каждый из документов "сопоставляется" с ней, и

результатом поиска являются только те документы, которые ей удовлетворяют.

Например, запросу 'самолет' удовлетворяют все документы, в которых хотя бы

раз встретилось слово 'самолет' в любой форме. Запросу, состоящему из

нескольких слов, удовлетворяют документы, содержащие каждое из этих слов в

любой форме (при некоторых условиях). Вопрос соответствия документа более

сложному запросу определяется логикой операторов и конструкций языка

запросов.

Морфология

По каждому слову запроса поиск ведется с учетом правил словоизменения

соответствующего языка. Рамблер понимает и различает слова русского и

английского языков - по умолчанию, поиск ведется по всем формам слова.

Например, при поиске по слову 'человек' будут также найдены документы,

содержащие слова 'человеку', 'человеком', 'человека' и даже 'люди'. Чтобы

провести поиск только по одной определенной форме слова, нужно взять его в

двойные кавычки или воспользоваться поиском точной фразы в расширенном

поиске.

Стоп-слова

Некоторые слова и символы по умолчанию исключаются из запроса в связи с их

малой информативностью. Это так называемые стоп-слова - самые частотные

слова русского и английского языков, например, предлоги, частицы и артикли.

Присутствие этих слов может замедлить поиск и негативно повлиять на полноту

результатов. Есть возможность обозначить необходимость этих слов в запросе,

взяв запрос в двойные кавычки или воспользовавшись поиском точной фразы в

расширенном поиске.

Ограничение расстояния

Если запрос составлен из одного или нескольких слов без применения

операторов и конструкций языка запросов, то будут найдены документы, в

которых встречаются все слова запроса. При этом для каждого запроса всегда

существует так называемое ограничение контекста - положительное число, по

умолчанию равное расстоянию в 40 слов. Документ, в котором встретились все

слова запроса, будет выдан только в том случае, если расстояние в словах

между вхождениями слов запроса будет меньше этого числа. Например, по

запросу 'красная армия' будут найдены те документы, в которых слова

'красная' и 'армия' хотя бы один раз встретятся менее чем в 40 словах друг

от друга.

Значение ограничения контекста можно изменять конструкцией '(число,

запрос)', где число - любое положительное число, запрос - любой корректный

с точки зрения поисковой машины запрос, состоящий более чем из одного слова

(очевидно, ограничение расстояния между словами в случае однословного

запроса не имеет смысла). Таким образом, по запросу '(2, красная армия)'

найдутся только те документы, в которых между словами 'красная' и 'армия'

хотя бы раз не стоит ни одного слова (поскольку лишь в случае их

непосредственного соседства разница в порядковых номерах слов меньше 2,

т.е. равна 1)

Ненайденные слова

Если запрос состоит из нескольких слов, и при этом некоторые из них вообще

не удалось найти в Интернете, то выдаются результаты поиска по частичному

запросу, из которого отсутствующие в Интернете слова исключены. При этом на

странице результатов поиска выдается соответствующая диагностика.

Специальные операторы

Рамблер позволяет искать страницы, на которых размещены счетчики Top100,

TopShop, TopList, SpyLog, а также HotLog. Для того, чтобы найти в интернете

все страницы, на которых размещен счетчик с заданным идентифтикатором,

Страницы: 1, 2


© 2010 БИБЛИОТЕКА РЕФЕРАТЫ