Monday, March 16, 2015

Створення сайтів | Просування і розкрутка сайту в Rambler

Просування і розкручування сайту в Рамблер має свою специфіку. Рамблер помітно повільніше, ніж Яндес, або Гугль проводить індексацію сторінок. Інформація, яка розглянута нижче допоможе врахувати особливості просування сайту в Рамблер.

Замість введення.

Розкрутка сайту в Рамблер має ряд особливостей. Пошукова машина Рамблер - часто покладається на рейтинг Rambler TOP100, при цьому індексація сайтів і нових сторінок відбувається досить повільно.

З особистого досвіду можна стверджувати, що пошукова система Рамблер любить хороший, унікальний контент більше за інших пошукових систем, також на видачу Рамблера впливає наявність і положення в рейтингу Rambler TOP100 і Рамблер любить повільний природний приріст посилань.

Тому апдейти в Rambler відбуваються набагато рідше, ніж в Google та Яndex, то гарантії на просування сайту в Рамбер можна давати тільки при терміні не менше 6 місяців. При цьому сайт потрібно просувати комплексно з постійним поліпшенням контенту.

Особливості роботи пошукової машини Рамблер.

Пошукова машина Rambler розраховує для кожного документа коефіцієнт популярності. Ось що сказано на сайті Рамблера про це коефіцієнті: "Даний коефіцієнт, як і алгоритм PageRank, заснований на обліку гіперпосилань між сторінками мережі, однак наша реалізація додатково використовує дані про реальну відвідуваності сторінок, отримані від лічильника Top100. Справа в тому, що" класичні "посилальні алгоритми фактично враховують думку тільки однієї категорії користувачів мережі - web-майстрів. Дійсно, якщо великій кількості web-майстрів подобається той чи інший ресурс, вони розміщують на нього посилання. Звичайні користувачі, як правило, створенням сторінок і сайтів не займаються, і тому врахувати їхню думку виявляється неможливо. Лічильник Top100 якраз і призначений для того, щоб зробити коефіцієнт популярності більш справедливим ".

Однак, судячи з усього, останнім часом дані про відвідуваність документів, отримані від лічильника Top100, надають всі менший і менший вплив на коефіцієнт популярності, так як лічильник не в змозі протистояти масовим накруткам, що практикуються власниками деяких сайтів. Відповідно, все більшого значення набуває складова, що обчислюється на основі врахування гіперпосилань між сторінками мережі.

Необхідно, зауважити, що деякі документи і навіть цілі сайти в пошукових машинах можуть з тієї чи іншої причини виключатися з процесу розрахунку рангу документа, на який вони посилаються. Так, наприклад, в Яндексі для цих цілей існує так званий "непот-фільтр", який накладається на ресурси, які знаходяться на безкоштовних хостингах, але не описані в Яндекс-каталозі, ресурси з вільним розміщенням посилань (наприклад, гостьові книги, дошки оголошень) , сайти, що розміщують на своїх сторінках посилання, невидимі користувачеві і т.п.

Резюмуючи вищесказане, можна сказати, що для підвищення рангу сторінки необхідно працювати над тим, щоб якомога більша кількість документів мережі посилалося на нього. Робити це можна різними способами - за допомогою обміну посиланнями з іншими сайтами, реєстрацій в каталогах і різних тематичних ресурсах і т.д. Ідеальний спосіб - зробити свій сайт настільки унікальним і цікавим, щоб власники інших ресурсів самі вважали за необхідне поставити посилання на нього. Не слід також забувати, що при розрахунку рангу документа обліковуються як зовнішні, так і внутрішні посилання. Тому грамотна перелінковка документів усередині сайту дозволяє підвищити ранг найважливіших з них з точки зору міститься інформації. Найбільш важливі в цьому сенсі документи обов'язково повинні мати посилання з головної сторінки сайту, яка, як правило, має максимальний ранг серед всіх сторінок сайту внаслідок того, що на неї вказує більшість зовнішніх посилань на сайт.

Механізм пошукової системи Рамблер.

Повнота пошуку в Рамблер.

Повнота - це одна з основних характеристик пошукової системи, яка являє собою відношення кількості знайдених за запитом документів до загального числа документів в інтрнет, що задовольняють даному запиту. Наприклад, якщо в мережі Інтернет є 100 сторінок, що містять словосполучення "Червона площа", а за відповідним запитом було знайдено всього 70 з них, то повнота пошуку буде 0,7. Чим повніше пошук, тим менша ймовірність, що користувач не зможе знайти потрібний йому документ, за умови, що він взагалі існує в Інтернеті.
Повнота пошуку у великій мірі залежить від роботи системи збору та обробки інформації. У зв'язку з постійним зростанням кількості документів в мережі, ця система в першу чергу повинна бути масштабованої. У Рамблере масштабованість досягається за рахунок паралельного виконання завдання довільною кількістю машин.
Збором інформації займається робот-павук, який обходить сторінки із заданими URL і завантажує їх в базу даних, а потім архівує і перекладає в сховище добовими порціями. Робот розміщується на декількох машинах, і кожна з них виконує своє завдання. Так, робот на одній машині може качати нові сторінки, які ще не були відомі пошуковій системі, а на іншій - сторінки, які раніше вже були Завантажено не менше місяця, але й не більше року тому. Сховище у всіх машин єдино. При необхідності роботу можна розподілити іншим способом, наприклад, розбивши список URL на 10 частин і роздавши їх 10 машинам. Паралельна робота програми дозволяє легко витримувати додаткове навантаження: при збільшенні кількості сторінок, які потрібно обійти роботу, достатньо просто розподілити завдання на більше число машин.
У сховищі інформація в стислому вигляді збирається і розбивається на шматки по 50 Мб. Ці частини поступово розподіляються між 70 машинами, на яких запущена програма-індексатор. Як тільки індексатор на одній з машин закінчує обробку чергової частини сторінок, він звертається за наступною порцією. В результаті на першому етапі формується багато маленьких індексних баз, кожна з яких містить інформацію про деякої частини Інтернету. Таким чином, вся інтелектуальна обробка даних здійснюється паралельно, тому прискорення процесу індексації досягається простим додаванням машин в систему.
Після того, як всі частини інформації оброблені, починається об'єднання результатів. Завдяки тому, що часткові індексні бази і основна база, до якої звертається Пошукова машина, мають однаковий формат, процедура об'єднання є простою і швидкою операцією, що не вимагає ніяких додаткових модифікацій часткових індексів. Основна база бере участь в аналізі як одна з частин нового індексу. Так, якщо об'єднуються 70 нових частин, то в аналізі бере участь 71 фрагмент (70 нових + основна база попередньої редакції). Крім того, єдиний формат дозволяє проводити тестування часткових баз ще до об'єднання їх з основною, і виявляти помилки на більш ранньому етапі.
Спеціальна програма ("сліватор") становить таблиці перенумерациі документів бази. Вміст всіх частин об'єднується. Серед сторінок з однаковими адресами вибирається найбільш свіжа версія; якщо при скачуванні URL останньої інформацією була помилка 404 (запитувана сторінка не існує), вона тимчасово видаляється з індексної бази. Паралельно здійснюється склейка дублів: сторінки, які мають однаковий вміст, але різні URL, об'єднуються в один документ.
Збірка єдиної бази з часткових індексних баз являє собою простий і швидкий процес. Зіставлення сторінок не вимагає ніякої інтелектуальної обробки і відбувається зі швидкістю читання даних з диска. Якщо інформації, яка генерується на машинах-індексатора, виходить занадто багато, то процедура "зливання" частин проходить у кілька етапів. На початку часткові індекси об'єднуються в декілька проміжних баз, а потім проміжні бази і основна база попередньої редакції перетинаються. Таких етапів може бути скільки завгодно. Проміжні бази можуть зливатися в інші проміжні бази, а вже потім об'єднуватися остаточно. Поетапна робота незначно уповільнює формування єдиного індексу і не відбивається на якості результатів.

Точність пошуку в Рамблер.

Точність - ще одна основна характеристика пошукової машини, яка визначається як ступінь відповідності знайдених документів запиту користувача. Наприклад, якщо за запитом "Червона площа" знаходиться 150 документів, у 70 з них міститься словосполучення "Червона площа", а в інших просто присутні ці слова ("червона баба кричала на всю площу"), то точність пошуку вважається рівною 70/150 (~ 0,5). Чим точніше пошук, тим швидше користувач знаходить потрібні йому документи, тим менше "сміття" серед них зустрічається, тим рідше знайдені документи не відповідають запиту.
Підвищення точності в пошуковій машині Рамблер досягається за рахунок використання різних технологій на всіх етапах обробки і пошуку інформації. Одним з найбільш цікавих процесів є розпізнавання граматичних омонімів. Омоніми - це слова, які мають однакове написання, але різний зміст. Розрізняють лексичні та граматичні омоніми. Лексичні омоніми відносяться до однієї частини мови, як, наприклад, іменник "бор": хвойний ліс, сталеве свердло і хімічний елемент. Граматичні омоніми відносяться до різних частин мови, тому з написання у них зазвичай збігаються тільки окремі форми. Прикладами граматичних омонімів можуть служити слова "піч" - іменник російська "піч" і дієслово "піч" пиріжки; "Рядовий" - прикметник "рядовий" співробітник і іменник "рядовий" Іванов.
Омоніми не тільки збільшують розмір індексної бази (так як для кожного такого слова доводиться зберігати всі його можливі значення), але і негативно позначаються на точності пошуку. Якщо користувач шукає слово "дані", йому нецікаво отримати у знайденому всі документи, які містять слово "дати". Для того, щоб результати пошуку були точніше, модуль синтаксичного аналізу проводить розбір оточення слів-омонімів з метою встановлення їх найбільш ймовірних значень. Наприклад, якщо поруч зі словом "піч" коштує іменник ("пиріжки", "картопля"), то з високою ймовірністю "піч" в даному контексті є дієсловом. На сьогоднішній день аналізатор здатний розпізнавати значення тільки граматичних омонімів.
Синтаксичний аналіз дозволяє також з певною ймовірністю розпізнавати деякі власні імена. Наприклад, якщо в тексті кілька слів підряд написано з великої літери, вони найчастіше представляють собою ім'я власне (Петро Петрович, Московський Державний Університет). Дані про таких конструкціях враховуються при індексації та обробці запиту.
Ще один спосіб підвищення точності пошуку - це виділення стійких позначень і пошук їх як окремих лексичних одиниць. На сьогоднішній день в Рамблере реалізована система розпізнавання таких конструкцій, наприклад C ++, б / в, п / п-к. Якщо за запитом С ++ піднімати всі тексти, в яких присутні латинська буква С, а також знак +, то вийде величезна кількість документів, далеко не всі з яких відповідають запиту; крім того, це велика робота, значно збільшує час пошуку.
Величезну роль у підвищенні точності пошуку відіграє ранжування. Користувач дуже рідко переглядає більше трьох сторінок з результатами пошуку. Тому суб'єктивно він оцінює точність по "верхнім" документам. Навіть якщо потрібний документ знайдений пошуковою машиною, але розташований на двохсотий позиції, швидше за все, він ніколи не буде знайдений користувачем.
За умовчанням в Рамблере результати ранжуються за ступенем відповідності запиту (релевантності) і групуються по сайтах. При ранжируванні оцінюються різні характеристики текстів, такі як:
- Кількість входжень слів (словосполучень) в документ - чим більше разів словосполучення "Червона площа" присутній у тексті, тим вище ймовірність, що в ньому справді йдеться про Красній площі;
- Розташування слів запиту в документі - якщо словосполучення "Червона площа" присутній у заголовках або назві документа, то документ з більшою ймовірністю присвячений Червоній площі;
- Форми слів запиту - перевага віддається входженням, в яких слова мають той же відмінок, число, схиляння і т.д., що і в запиті користувача ("Червона площа", а не "Червоною площею"). Крім точного збігу, виділяються дві групи форм слів - близькі і далекі. Близькими вважаються зміни за відмінками, відміни, дієвідміни, числами та пологах. Далекими формами є причастя, дієприслівники і т.п. При ранжируванні перевага віддається близьким формам слів запиту.
- Відносна частота (відношення кількості входжень слів запиту в документ до загальної кількості слів у документі) - якщо словосполучення зустрічається 10 разів у документі з 100 слів, то він швидше відповідає запиту, ніж якщо воно зустрічається ті ж 10 разів у документі з 20 тисяч слів ;
- Відстань між словами запиту - якщо запит складається з кількох слів, то в знайдених документах оцінюється, наскільки близько один від одного розташовані ці слова. Преимущество отдается документам, в которых слова запроса находятся ближе друг к другу, потому что в этом случае они с большей вероятностью связаны между собой. Например, если слово “Красная” расположено в тексте на 5 позиции, а слово “площадь” - на 650, то скорее всего в документе речь идет не о Красной площади.
- Посещаемость документа - в некоторых случаях поисковой машине Рамблер известна посещаемость страниц (если эти страницы являются участниками рейтинга Тор 100). Преимущество отдается более посещаемым ресурсам.
- Ссылочный вес документа - при ранжировании учитывается ссылочный вес страницы, рассчитанный на основании учета гиперссылок, содержащих слова запроса. Так, если на документ словами “Красная площадь” ссылается большое количество авторитетных страниц, то ему отдается приоритет по запросу Красная площадь.
Помимо автоматических способов увеличения точности поиска, существуют различные средства, с помощью которых пользователь сам может уточнить поиск по отдельным запросам. В первую очередь к ним относится специальный язык поискового запроса, используя который можно ограничивать количество найденных документов. Например, запрос или его часть, взятые в кавычки, обрабатываются буквально, с учетом всех стоп-слов, форм, порядка, знаков препинания. Это повышает точность поиска, но уменьшает его полноту: если часть, заключенная в кавычки, неточна, нужный документ найден не будет.
Использование логического оператора OR (ИЛИ) позволяет расширить сферу поиска и увеличить его полноту, в то время как оператор NOT (И-НЕ), наоборот, повышает точность поиска за счет нахождения документов, которые содержат одни слова запроса и не содержат другие. Для повышения точности можно также задавать расстояние между словами. Если в искомом словосочетании порядок слов обычно сохраняется (например, Красная площадь), то в запросе для повышения точности имеет смысл ограничить расстояние, указав его в скобках через запятую: (2, Красная площадь). Это позволит отсеять документы, в которых слова красная и площадь не расположены рядом, а разбросаны по тексту.
Увеличить точность можно с помощью использования поиска в найденном. Каждый следующий, уточняющий поиск, проводится уже не по всей индексной базе, а только по результатам предыдущего поиска. Таким образом, круг найденных документов сужается. Например, если дать запрос Красная площадь, а затем, провести поиск в найденном по запросу Москва, то результат будет содержать только те документы, в которых говорится о Красной площади города Москвы.

Актуальность запросов в Рамблер.

Актуальность - не менее важная характеристика поиска, которая определяется временем, проходящим с момента публикации документов в сети Интернет, до занесения их в индексную базу. Например, на следующий день после теракта в Тушино огромное количество пользователей обратились к поисковой машине Рамблер с соответствующими запросами. Объективно с момента публикации новостной информации на эту тему прошло меньше суток. Однако основные документы уже были заиндексированы и доступны для поиска, благодаря существованию “быстрой базы”, которая обновляется два раза в день, а при необходимости может обновляться быстрее.
На сегодняшний день индексная база поисковой системы Рамблер состоит из 8 частей, каждая из которых живет своей независимой жизнью. Весь Интернет условно разделен на 7 секторов и называется своим цветом: красный, оранжевый, желтый, зеленый, голубой, синий, фиолетовый. Сайт компании Рамблер относится к голубому сектору. Информация о web-ресурсах каждого сектора хранится в соответствующей части индексной базы. Восьмая часть - “быстрая база” - включает в себя страницы, на которых размещен счетчик Тор 100 и которые еще не успели попасть в основную индексную базу.
Все части индексной базы собираются и обновляются по отдельности. Так, сегодня происходит переиндексация и обновление красного сектора, завтра - оранжевого и желтого, послезавтра - зеленого и т.д. Благодаря такому ступенчатому алгоритму в поисковой машине каждый день появляется свежая информация об одной седьмой части Интернета. Полный цикл обновления занимает около недели. При этом сбор информации происходит параллельно, а непосредственно на изготовление индекса документов одного сектора уходит всего несколько часов. Поэтому существует принципиальная возможность обновлять индексную базу быстрее.
Разделение Интернета на 7 секторов условно. При необходимости он может быть разбит на 10, 20 или 40 секторов, каждый из которых будет обрабатываться автономно. В такой системе заложена возможность значительного увеличения нагрузки. С ростом объема информации в сети Интернет растет и индексная база поисковой машины. Постепенно переиндексация и сборка базы начинает занимать все больше времени, а процесс обновления индекса становится более громоздким. Поступление новых данных затягивается, информация начинает терять свою актуальность. Возможность “передела” Интернета на большее число секторов позволяет удерживать размер каждой части базы в оптимальном диапазоне, контролировать время ее сборки и обновления.
“Быстрая база” отличается от остальных частей индекса меньшим объемом и очень оперативным обновлением: время ее построения занимает около двух часов. В базе содержится информация о страницах, на которых был установлен счетчик Тор 100. Участниками рейтинга Тор 100 являются новостные порталы, сайты крупных компаний, Интернет-магазины, форумы, - все наиболее популярные ресурсы в сети. Каждый раз при установке счетчика на новую страницу сайта, зарегистрированного в Тор 100, информация передается в поисковую систему. Страница ищется во всех цветах основной базы и, если она еще не известна поисковой системе, отправляется в очередь на обработку. Перед обработкой страницы дополнительно фильтруются, из них отбираются самые посещаемые. Таким образом, “сливки” с Интернета собираются два раза в день.
“Быстрая база” представляет собой разумное решение проблемы актуальности данных в поиске. Информационное агентство может выложить новость через десять минут после ее появления, потому что тратит время только на верстку страницы. Поисковая машина должна сначала заиндексировать текст, а на это требуется гораздо больше времени. “Быстрая база” охватывает все ресурсы Интернет, зарегистрированные в Тор 100, на которых был размещен счетчик, и которые еще не успели попасть в основную базу. При этом индексируются как страницы с новостями, так и другие свежие документы, появившиеся в Тор 100. В результате через сутки после теракта в поиске Рамблера была доступна не только основная информация, опубликованная на сайтах новостных агентств, которую можно найти и прочитать в разделах новостей, но и комментарии, высказывания очевидцев, обсуждения на форумах, все, что было к этому времени опубликовано на наиболее посещаемых страницах Интернета.

Скорость поиска в Рамблер.

Скорость поиска тесно связана с его устойчивостью к нагрузкам. На сегодняшний день в рабочие часы к поисковой машине Рамблер приходит около 60 запросов в секунду. Такая загруженность требует сокращения времени обработки отдельного запроса. Здесь интересы пользователя и поисковой системы совпадают: посетитель хочет получить результаты как можно быстрее, а поисковая машина должна отрабатывать запрос максимально оперативно, чтобы не тормозить вычисление следующих. Схематично обработка поискового запроса изображена на рисунке 1.

Раскрутка сайта в рамблер

Запрос поступает в поисковую систему через маршрутизатор Cisco 6000 series. Cisco передает его наименее загруженной машине первого уровня - frontend (1.1 - 1.3, на рис. машине 1.3). Frontend, в свою очередь, отправляет запрос дальше, на один из семи proxy-серверов, также выбирая наиболее свободный сервер (2.1 - 2.7, на рис. машине 2.2). Одновременно frontend отправляет запрос на машины, осуществляющие поиск по товарам (3.1 - 3.2, на рис. машине 3.1) и по базе Тор 100 (4.1 - 4.2, на рис. машине 4.1). На proxy проводится поиск по ссылочному индексу, и его результаты вместе с поисковым запросом передаются на машины, которые содержат основную индексную базу, - backends (5.1.х - 5.7.х, на рис. машинам 5.1.2, 5.2.10, 5.3.1 и т.д.) Та же информация отправляется на машины с “быстрой базой” (6.1 - 6.2, на рис. 6.1).
На текущий момент в поиск включено около 70 backend'ов. Они сгруппированы по 10 машин, и каждая группа содержит копию одной из частей поискового индекса. Таким образом, информация о сайтах, условно входящих в красный сектор Интернета, находится на backend'ах первой группы (5.1.1 - 5.1.10 на рис), оранжевый сектор - на backend'ах второй группы (5.2.1 - 5.2.10) и т.д. Proxy-сервер выбирает наименее загруженный backend в каждой группе машин и отправляет на него поисковый запрос с результатами ссылочного поиска. На backend'ах осуществляется поиск по частям индексной базы и ранжирование с учетом результатов поиска по ссылочному индексу. При ранжировании для всех найденных документов высчитываются веса по конкретному запросу.
После того, как запрос обработан на backend'ах, информация о результатах и ранжировании отдается обратно на proxy-сервер. Туда же поступают отсортированные результаты с машин “быстрой базы”. Proxy интегрирует данные, полученные с восьми машин: клеит дубли, объединяет зеркала сайтов, переранжирует документы в общий список по весам, рассчитанным на backend'ах. Так, первым в списке найденного может быть документ с машины 5.3.1, вторым и третьим - с 6.1, четвертым - с 5.5.2 и т.д. На proxy-сервере также реализуется построение цитат к документам и подсветка слов запроса в тексте. Полученные результаты отдаются на frontend.
Помимо информации с proxy-сервера, frontend получает результаты из поиска по товарам и из базы Тор 100, отсортированные, с цитатами и подсветкой слов запроса. Frontend осуществляет окончательное объединение результатов, генерирует html со списком найденного, вставляет баннеры и перевязки (ссылки на различные разделы Рамблера) и отдает html Cisco, который маршрутизирует информацию пользователю.
Каждый из этапов обработки запроса многократно продублирован и защищен системой балансировки нагрузки. Благодаря дублированию информации поисковая система Рамблер является устойчивой к сбоям на отдельных участках, авариям, отказам оборудования. Если одна их машин перестала функционировать, нагрузка перераспределяется на другие машины, и выпадения документов из поиска не происходит. Масштабируемость достигается простым добавлением в систему машин соответствующего уровня. До недавнего времени в Рамблере работало 40 backend'ов. В связи с тем, что осенью нагрузка на поисковые системы обычно возрастает, число backend'ов было увеличено до 70, что позволило значительно ускорить вычисление запросов.
Еще один способ повышения скорости поиска - “кэширование”, сохранение информации о запросах и результатах поиска в буфере. Многие люди дают одни и те же поисковые запросы. Вычислять их каждый раз заново было бы неразумной тратой времени. Поэтому если запрос уже обрабатывался в течение некоторого интервала времени, результаты поиска отдаются пользователю “из кэша”.
Лингвистический анализ текста документов и запроса также позволяет ускорить обработку информации. Например, определение значения омонимов уменьшает количество нерелевантных запросу документов, которые нужно ранжировать и цитировать. Выделение устойчивых обозначений (С++, б/у) на этапах индексации и обработки запроса приводит одновременно к повышению точности и сокращению временных затрат на обработку каждого отдельного элемента обозначения (раньше запрос С++ обрабатывался как отдельно латинское С, отдельно плюс и еще один плюс. Запрос вычислялся долго, а среди результатов поиска было много нерелевантных документов, например, страницы, содержащие математические формулы и т.п.) С этой же целью используются словари стоп-слов. Стоп-слова - это наиболее частотные слова языка, которые встречаются практически в любом тексте и являются малоинформативными. В основном, это служебные слова - предлоги, частицы, артикли. Если нет специальных указаний, поисковая машина игнорирует стоп-слова, встречающиеся в запросе, чтобы не тратить время на обработку дополнительной информации, снижающей качество поиска.

Наглядность поиска в Рамблер.

Наочність представлення результатів є необхідним компонентом зручного пошуку. На поганий вітрині легко не помітити хороший товар. По більшості запитів пошукова машина знаходить сотні, а то й тисячі документів. В наслідок нечіткості запитів або неточності пошуку, навіть перші сторінки не завжди містять тільки потрібну інформацію. Це означає, що користувачеві часто доводиться проводити свій власний пошук усередині списку знайденого. Різні елементи відповідної сторінки допомагають орієнтуватися в результатах пошуку.
Угруповання по сайтам призначена для того, щоб на сторінці можна було вивести якомога більше Інтернет-ресурсів, релевантних запиту користувача. Це буває важливим, коли необхідно отримати інформацію з різних джерел. Якщо більш інформативною для відвідувача є дата поновлення або релевантність окремих документів, у повторній сторінці Рамблера існує можливість сортування за цими параметрами.
У деяких випадках корисним буває знання імені сайту. Якщо користувача цікавить конкретний Інтернет-ресурс, ім'я може дати йому набагато більше інформації, ніж заголовок сторінки або цитата.
Якщо запитом відповідає більше однієї сторінки з сайту, то як результат пошуку пред'являється найбільш релевантна з них, а нижче розташовується частковий список інших документів. Це збільшує кількість потенційно корисної інформації на повторній сторінці і часто дозволяє уточнити пошук без додаткового запиту.
Цитата допомагає визначити, наскільки корисну інформацію містить знайдений документ. Дуже часто відвідувачеві не потрібно переходити за посиланням, щоб виявити, що текст не відповідає його інтересам і потребам. Іноді відповідь на питання користувача міститься безпосередньо в цитаті документа. Це економить час і підвищує ефективність роботи пошукової системи.
Відновити текст - іноді єдиний спосіб отримати доступ до вмісту знайденого документа. Ресурс буває недоступний з різних причин. Документ може бути вилучений, перенесений, змінений, але його текстовий зміст деякий час зберігається в індексному базі. Крім того, всередині самого документа часто відсутня навігація, що дозволяє швидко знайти фрагмент, релевантний запитом. У відновленому тексті всі слова запиту підсвічуються.
Асоціації представляють собою список запитів, які часто подаються користувачами в перебігу однієї пошукової сесії. Алгоритм побудови асоціацій влаштований так, що вони майже завжди пов'язані між собою за змістом. У деяких випадках асоціації дозволяють підвищити якість пошуку за рахунок уточнення запиту (запит "відпочинок в Польщі" - асоціації "відпочинок у Польщі з дітьми", "сімейний відпочинок", "пансіонати в Польщі"), виправлення поширених помилок (запит "gjujlf" - асоціація "погода"), можливості зорієнтуватися в незнайомій тематики (запит "антибіотик" - асоціації "сумамед", "цифран", "бісептол" і т.д.)

До чого прагне у своєму розвитку Рамблер.

Найважливішим завданням розробників є поліпшення якості пошуку, рух у бік більшої ефективності та зручності у використанні системи. З цією метою постійно змінюються пошукові алгоритми, створюються додаткові сервіси, допрацьовується дизайн.
Однак для того, щоб вижити в світі динамічного Інтернету, при розробці необхідно закладати великий запас стійкості, постійно заглядати в завтрашній день і приміряти майбутнє навантаження на сьогоднішній пошук. Все, що сьогодні програмується в Рамблере, розраховане "на виріст". Такий підхід дозволяє займатися не тільки постійною боротьбою і пристосуванням пошукової машини до зростаючих обсягів інформації, але і реалізовувати щось нове, дійсно важливе і потрібне для підвищення ефективності пошуку в мережі Інтернет.

No comments:

Post a Comment

Женские бюстгальтеры размер стиль чашки Женские ботинки женская обувь высота каблука Женская обувь на каблуках Женские блейзеры и костюмы мода стиль ландшафтний дизайн дерева рослини сад харчування, дієти салат сік сніданок маркетинг ідея товар споживач сільське господарство вирощування тварини корми Краса і здоров'я волосся обличчя шкіра маркетинг клієнт компанії послуги реклама дієти рецепт салат харчування Краса і здоров'я волосся обличчя харчування створення сайту просування управління хостинг створення сайтів інтернет компанії створення сайтів інтернет сайт пам'ятки замок музей палац дачне господарство гриби насіння плоди Будівництво будинків котеджів проекти Охорона безпека ворота двері велотехника велосипед колеса покришки рами Ремонт та облаштування дизайн приміщення Інтернет-маркетинг бізнес сайт любовь к Парижу, отдых в Париже садова техніка газонокосарки мотоблок обладнання персонал резюме робота резюме робота роботодавець Любовь и семья працевлаштування досвід співбесіди Блог о женщинах и мужчинах Меблі та інтер'єр бізнес гроші фінанси автомобіль авто запчастини машини www.myyunku.com www.nicesoft.ru www.naqatube.com www.nurotaxtb.uz www.pushkin-museum.ru www.pozitiff.info www.rap-z.ru www.qazaqpen-club.kz www.russkie-pesni.com www.rixtechtools.com