Необходимо найти процент похожести двух текстов

php анализ текст text processing обработка текста

Прошу помочь найти библиотеку, функцию, теорию либо что-то еще для нахождения процента похожести (совпадения) двух текстов. Желательно не по-строчные алгоритмы, возможность дальнейшего интегрирования с PHP (COM, command line). Был опробован WinMerge, результатом несколько недоволен, впрочем, на сколько я понял, процент совпадения из него выудить не удастся. Заранее благодарю.

Примечание:
Ноябрь, прошу прощения, я, видимо, не верно выразился — WinMerge предоставляет не тот результат, который необходим мне, либо я не уверен, что знаю как его получить.
Gurusik, благодарю за ссылки. Задача решается несколько проще, думаю, чем предложили Вы — у меня нет необходимости учитывать морфологию. Можете что-то предложить еще после данного дополнения? Спасибо.
Ответы:
Не довольны - пишите сами)
По ссылке уже были?
По ссылке [1] для исследования текста и распознавания автора используют "лингвистический анализатор" - [2].
мне в голову приходит такой алгоритм:
в каждом тексте есть уникальные фонемы (как корень слова) в соответствии с тематикой текста. Нужна база фонем, из которых необходимо определить специфичные, а потом сравнивать специфичные фонемы двух текстов. Простой алгоритм..
1. Удаляете знаки препинания, скобки и тп.
2. Юзаете функцию levenstein() в php.
пардон, опечатался.
levenshtein конечно же :)


16 лет назад

RPI.su - самая большая русскоязычная база вопросов и ответов. Наш проект был реализован как продолжение популярного сервиса otvety.google.ru, который был закрыт и удален 30 апреля 2015 года. Мы решили воскресить полезный сервис Ответы Гугл, чтобы любой человек смог публично узнать ответ на свой вопрос у интернет сообщества.

Все вопросы, добавленные на сайт ответов Google, мы скопировали и сохранили здесь. Имена старых пользователей также отображены в том виде, в котором они существовали ранее. Только нужно заново пройти регистрацию, чтобы иметь возможность задавать вопросы, или отвечать другим.

Чтобы связаться с нами по любому вопросу О САЙТЕ (реклама, сотрудничество, отзыв о сервисе), пишите на почту [email protected]. Только все общие вопросы размещайте на сайте, на них ответ по почте не предоставляется.