Что Google грядущий нам готовит?
Рубрика SEO оптимизация |Извлеченные документы затем ранжируются в соответствии с другими статистическими показателями, такими, как частота появления условий запроса, хост домена, анализ ссылок и т.п.
Затем извлеченные документы представляются пользователю, как правило, в отранжированном порядке и без каких-либо дальнейших группирований или установленной иерархии.
В некоторых случаях выбранные части текста документа представляются пользователю для беглого знакомства с содержимым документа.
Современная логическая поисковая система, сопоставляющая условия запросов, имеет хорошо известные ограничения, в частности, не определяет документы, которые не имеют условий запроса, но имеют ключевые слова.
Например, в типичной поисковой системе, поиск по фразе «австралийские пастушьи собаки» может не выдать документы о других пастушьих собаках, таких, например, как Колли, которые не имеют точных условий запроса.
И наоборот, в результатах поиска система может выдать документы с большим PR (PageRank), которые представляют темы Австралии и пастухов, но не имеют ничего общего с собаками.
Проблема здесь заключается в том, что традиционные системы индексируют документы на основе отдельных терминов, а не понятий в целом.
Запросы часто содержат словосочетания, такие, например, как: » австралийская пастушья собака «, «Президент Соединенных Штатов Америки» или «Кинофестиваль Sundance».
В лучшем случае, некоторые системы индексируют документы по заранее определенным и весьма ограниченным наборам известных фраз, как если бы это делал человек.
Индексирование фраз из трех, четырех, пяти или более слов, как правило, избегается в связи с ограничением возможностей вычислительных и запоминающих устройств.
Например, если взять любую фразу, состоящую из пяти слов, и предположить, что система имеет 200 тыс. условий, то в результате будет примерно 3.2 раз из 10 супремумов по 26 возможных фраз, что явно больше, чем любая существующая система может хранить в памяти или программно манипулировать.
Еще одна проблема заключается в том, что есть фразы, которые используются гораздо чаще других, которые и составляют словарный запас с точки зрения их использования.
Новые фразы всегда генерируются из таких источников, как: технологии, искусство, мировые события и закон.
Использование других фраз с течением времени будет сокращаться.
Еще одна проблема, которая возникает в существующих информационно-поисковых системах, это появление «СПАМ» документов.






