Близкие слова / related words

idle0 · Post by **idle0** » 13 Jul 2006 21:19

Вот такой вопрос. Как решить такую задачу.

Дается одно слово на английском языке. Например sand.

Надо придумать алгоритм который сгенерит много слов которые часто импользуются во фразах, содержащих первое слово.

Т.е. f(sand) = (dunes, brown, drift, granular, desert, white, beach, ...)

Куда копать?

Иоп · Post by **Иоп** » 14 Jul 2006 06:45

Ну, самый примитивный способ это анализ текстов на предмет слов расположенных по соседству с заданным. Составляется словарь из которого исключаются все предлоги, местоимения и т.п. После того, как получен словарь релевантных слов, необходимо проверить обратную релевантность, т.е. брать каждое слово из словаря и анализировать тексты на предмет того, как часто рядом с ним встречается исходное слово. Если обратная релевантность достаточно сильная, то слово заносится в итоговый словарь, если нет, то исключается.