Новая технология поиска для Яндекса

26.11.03

✎

18:50

Я как-то предложил одну идею Яндексу, они так и не ответили. Это было еще год назад (http://guest.yandex.ru/yandex/?message_id=520899), потом я напомнил - опять не ответили. Отправил в Google (на англ.) - пришел автоматический ответ, что ваше пожелание учтено.

Сейчас поиск производится по одному/нескольким словам с учетом их словоформ ("идти", "идет", "шел"). Но когда человек ищет что-то вручную, то он задает серию запросов, постоянно видоизменяя запрос, чтобы получить то, что ему нужно.

А моя революционная идея вот какая:
-------------------------
1. пользователь задает ключевое слово.
2. Поисковая машина находит релевантные сайты.
3. На них находятся другие ключевые слова,
связанные с исходным.
4. Поисковая машина продолжает поиск по новым ключевым словам
и такие сайты считает самыми релевантными.

Эта технология аналогична той, которую пользователь проделывает самостоятельно, вручную. Мне кажется это будет прорыв покруче чем Google со своим индексом цитирования.
--------------------------
Ваше мнение по этому поводу?

1 Vser1

27.11.03

✎

04:34

Уважаемый Волшебник, несовсем понял технологию, можно ли более подробный пример.
Но из того что дошло: поисковая машина получив от пользователя ключевое слово, обрашается по сопоставленным этому слову сайтам, анализируя на них сопостовления по данному слову и добавляя данную информацию в результаты своего поиска.
Но не приведет ли данное действие:
1.К появлению перекрестных ссылок на одни и теже сайты из разных мест поиска, что затруднит обработку запроса самому поисковику.
2.Пользователь на свой запрос получит еще больше мусора в котором ему придется разбираться.
Если в чем то не прав прошу сильно не бить.

2 Волшебник

29.11.03

✎

00:31

Продемонстрирую на конкретных примерах:

Например, пользователь вводит слово для поиска "Nokia". Поисковая машина находит море страничек, на которых встречается это слово. Поисковая машина не знает, что такое Nokia, но на найденных сайтах часто встречаются слова "телефон", "мобильный телефон", "сотовая связь" и т.д. Поэтому самыми релевантными из всех найденных страничек будут те, на которых кроме слова Nokia также встречаются связанные слова (наиболее часто встречающиеся рядом с исходным словом).

Другой пример: я хочу найти какой актер снимался в фильме "Тень" в главной роли. Я задаю слова для поиска "актер фильм Тень". Поисковая машина находит сайты, на которых встречаются эти слова, и рядом с ними наверняка несколько раз встретится "Алек Болдуин" (то, что я ищу). Это придаст этим сайтам наибольшую релевантность, я быстрее найду то, что мне нужно.

Третий пример: я хочу подобрать себе какой-нибудь USB-drive, я набираю в строке поиска "USB диск". Поисковая машина находит странички, где есть эти слова, на них встретятся связанные слова, например "flash-память", или "HandyDrive" (конкретная марка USB-диска). В результате сайты, на которых встречаются эти дополнительные слова, связанные с исходным, получают наибольший вес, а все посторонние сайты отсеиваются.

Более того, создается впечатление, что компьютер понимает, о чем идет речь. Т.е. он не ограничивается только словами USB, а включает в алгоритм поиска слова "flash", "память", "брелок", "диск", "хранение", "накопитель", "диск", "HandyDrive" и т.д. Таким образом, компьютер правильно угадывает предметную область и поиск становится более точным, более целеноправленным.

Отвечаю на ваши замечания:
1) ссылки на одни и те же сайты должен отсеивать Яндекс, задачка на уровне первокурсника. Сложнее с документами, которые растиражированы по разным сайтам с минимальными изменениями. То, что это добавляет работы поисковику - совершенно верно. Но на то она и машина, чтобы трудиться и облегчать нам жизнь
2) Пользователь в общей сложности получит больше ссылок, но самые ценные (релевантные) будут наверху. Согласитесь, что вы всегда просматриваете одну или две страницы результатов поиска (в редких случаях идет глубокий поиск). Поэтому эта технология позволит вытащить из горы руды настоящие бриллианты!

3 Vser1

29.11.03

✎

07:40

(2) по пункту 2) Проблема в том, что поисковик по данной логике работы должен будет анализировать весь текст по ссылкам, а там может попадаться куча мусора и кто ему объяснит, что не надо учитывать в одном случае скажем слово "поход", а в другом оно будет иметь огромное занчение.
Возможно Важему предложению не хватает какой-нибуть изюминки. Давайте поддерживать эту тему может еще кто-то сможет предложить разумное решение.
А пока как я понимаю проблема сводится к тому что бы выработать оригинальный алгоритм для поисковика, по выявлению релевантных понятий второго уровня.

4 kos

29.11.03

✎

15:25

(0) Идея хорошая, но ИМХО получится так что при поиске "актер фильм Тень" машине нужно будет перелопатить и сравнить релевантные "неизвестные"
слова, а их окажется ой как много. По моему нынешних мощностей не хватит, хотя идея хорошая.

5 kos

29.11.03

✎

15:36

Цитирую: "
Метод, который вы описываете, называется поиск с псевдообратной связью. Предложен еще в 70-е годы.

Поисковые системы в интернете не применяют его в основном по э к о н о м и ч е с к и м соображением. Подробнее можете посмотреть краткий обзор на сайте http://www.dialog-21.ru

С уважением,
Илья
"
_____
Это для тех кто не заходил на http://guest.yandex.ru/yandex/?message_id=520899),

6 Волшебник

29.11.03

✎

15:39

Так может настало время, когда теперь его можно применять? По сравнению с 70-ми годами компьютеры сильно выросли по мощности. Раз в миллион или два. :)

7 kos

29.11.03

✎

15:55

А экономические соображения. Чел в сети должен проводить как можно дольше - больше денег. Вот когда все люди станут как саморетяне, вот тогда и посмотрим. По секрету сообщаю, всё что делается, делается для
вытягивания денег. К примеру например компы, автомобили, итд.. список длинный. Скажем так: "Кушать хотят все."
_______
Проблема не стоит так остро чтобы её решать!

8 Львенок

29.11.03

✎

16:43

Нет, ну ребята, одно дело пробежаться по индексу и найти все проиндексированные странички в которых свтераются исходные ключевые слова, и совершенно второе открыть ВСЕ эти страницы, чтобы найти в них другие слова. Яндекс же не хранит у себя ВСЕ страницы сети и он не индексирует ВСЕ слова на этих страницах. Тогда у него нет никакой другой возможности отыскать какие слова встречаются на этих страницах вместе с ключевым словом, кроме как открыть все эти страницы, и провести поиск на них. Или я чего-то не понимаю?
___
Искренне Ваш, Львенок.

9 Волшебник

29.11.03

✎

17:02

(8) конечно, не понимаешь.
Надо было все эти слова собирать еще при составлении индекса. А открывать все страницы - невозможно физически.

10 kos

29.11.03

✎

17:36

(9) ИМХО:
1. Индекс получится очень большой.
2. время поиска увеличится, что ни есть гуд.
3. самое важное, это то что никому не нужно.
Волшебник, видимо есть сои субпричины по которым поиск с псевдообратной связью не применяют.

_______________
Вы б лучше мне рефераты нашли или книги cоответствующие, а то у меня найти не получается, а вам наверное заняться нечем, нежель флеймом занимаетесь.

11 Волшебник

29.11.03

✎

18:12

Рамблер уже делает шаги в этом направлении.

Щелкните по этой ссылке:
http://search.rambler.ru/cgi-bin/rambler_search?qs=0&sa=1&old_q=%EA%EE%EC%EF%FC%FE%F2%E5%F0&words=Nokia&where=1

Вы увидете, что те, кто ищет "Nokia" так же ищут и и связанные слова

мобильные телефоны
nokia мелодии
сотовые телефоны
мелодии
nokia 3310
siemens
nokia 3210
сотовик
sms
мелодии nokia
nokia3310
мтс
логотипы
мегафон
мелодии для nokia
nokia 8210
сотовые телефоны nokia
логотип
nokia 3330

Вот она релевантность!
Сайты, где встречается больше всего таких слов нужно показывать первыми!

12 kos

29.11.03

✎

18:23

Честно скажу: "Я не знаю, механизма работы поисковиков". Наверное научный прогресс перешел ту черту, которая позволяет наворачивать такие фишки. Видимо я отстал от жизни.
:)

13 skunk

29.11.03

✎

18:50

Насчет индексов. Я не знаю как в принципе это работает, но возьмите и посмотрите прогу Консультатнт+. Она довольно сильно работает с документами причем поиск в них осуществляется достаточно быстро. Так что думаю физически то что предлагает Волшебник осуществимо. Но вот только я не спец по БД. Поэтому ничего более в этом деле увы дополнить не могу.

14 kos

29.11.03

✎

18:57

(11) Как это делает, уже сделал! Пользуйся рамблЁром и не парься.

15 Волшебник

29.11.03

✎

19:28

Эти слова не используются при сортировке результата поиска. А было бы здорово. Тем более я говорил про другие слова - те, которые встречаются на тех самых сайтах.

16 kos

29.11.03

✎

21:16

Значит у разработчиков есть непреодолимые преграды которые не позволяют реализовать проект.

17 Волшебник

20.05.04

✎

22:30

Еще раз подниму веточку, может кому интересно.

18 ВигВам

20.05.04

✎

23:47

Бред вы всякий пишите. аймитесь делом.

19 Митя

21.05.04

✎

12:33

В идее есть и новое, и оригинальное.
Однако новое из того, что предложено, не оригинально,
а всё оригинальное в ее улучшении, увы, не ново.
По-английски этот метод называется pseudo-relevance feedback.
Его идея состоит в том, что первые документы в ответах достаточно
качественные и позволяют добавить хорошие ключевые слова.