загрузка...
30 июля 2008

Что Google грядущий нам готовит?

Рубрика SEO оптимизация |

Извлеченные документы затем ранжируются в соответствии с другими статистическими показателями, такими, как частота появления условий запроса, хост домена, анализ ссылок и т.п.

Затем извлеченные документы представляются пользователю, как правило, в отранжированном порядке и без каких-либо дальнейших группирований или установленной иерархии.

В некоторых случаях выбранные части текста документа представляются пользователю для беглого знакомства с содержимым документа.

Современная логическая поисковая система, сопоставляющая условия запросов, имеет хорошо известные ограничения, в частности, не определяет документы, которые не имеют условий запроса, но имеют ключевые слова.

Например, в типичной поисковой системе, поиск по фразе «австралийские пастушьи собаки» может не выдать документы о других пастушьих собаках, таких, например, как Колли, которые не имеют точных условий запроса.

И наоборот, в результатах поиска система может выдать документы с большим PR (PageRank), которые представляют темы Австралии и пастухов, но не имеют ничего общего с собаками.

Проблема здесь заключается в том, что традиционные системы индексируют документы на основе отдельных терминов, а не понятий в целом.

Запросы часто содержат словосочетания, такие, например, как: » австралийская пастушья собака «, «Президент Соединенных Штатов Америки» или «Кинофестиваль Sundance».

В лучшем случае, некоторые системы индексируют документы по заранее определенным и весьма ограниченным наборам известных фраз, как если бы это делал человек.

Индексирование фраз из трех, четырех, пяти или более слов, как правило, избегается в связи с ограничением возможностей вычислительных и запоминающих устройств.

Например, если взять любую фразу, состоящую из пяти слов, и предположить, что система имеет 200 тыс. условий, то в результате будет примерно 3.2 раз из 10 супремумов по 26 возможных фраз, что явно больше, чем любая существующая система может хранить в памяти или программно манипулировать.

Еще одна проблема заключается в том, что есть фразы, которые используются гораздо чаще других, которые и составляют словарный запас с точки зрения их использования.

Новые фразы всегда генерируются из таких источников, как: технологии, искусство, мировые события и закон.

Использование других фраз с течением времени будет сокращаться.

Еще одна проблема, которая возникает в существующих информационно-поисковых системах, это появление «СПАМ» документов.

Страницы: 1 2 3 4

Оставьте свой отзыв

Вы должны войти, чтобы оставить комментарий

Потребление памяти: 15.21MB