Проверка Схожести Документов

Сравните два документа и найдите одинаковые абзацы или предложения. Используйте боковую панель для настройки параметров анализа.

Как это работает: Токенизация текста → Построение инвертированного индекса → Схожесть Jaccard/Cosine

Обработка...

Уровень сравнения:

🧠 Умная сегментация

Автоматически определяет блоки кода, списки, заголовки, таблицы и цитаты для повышения точности

Порог схожести: 70%

Используется алгоритм инвертированного индекса, поддерживает китайский, английский и другие языки

Использует алгоритм инвертированного индекса для быстрого обнаружения схожести

Шаг 1: Токенизация Текста: Разделить документы на слова/токены и удалить стоп-слова (например, 'в', 'и', 'с')
Шаг 2: Построить Инвертированный Индекс: Создать таблицу поиска, сопоставляющую каждое слово с абзацами/предложениями, содержащими его
Шаг 3: Вычислить Оценку Схожести: Использовать схожесть Jaccard или Cosine для измерения пересечения контента между документами

💡 Пример:
Текст A имеет 10 слов, Текст B имеет 8 слов, 5 слов одинаковые → Схожесть около 50%

Текст A

0 строк, 0 символов

Текст B

0 строк, 0 символов

Перетащите файл A сюда или нажмите для выбора

Перетащите файл B сюда или нажмите для выбора

Click "Анализировать" to analyze text similarity

Как рассчитывается схожесть?

Схожесть% = (общие слова ÷ всего слов) × 100

Больше общих слов = выше схожесть. Как два рецепта с похожими ингредиентами дадут похожие блюда

Общая схожесть -

Косинусная схожесть

Схожесть по Жаккарду

Схожесть по Левенштейну

Количество слов A: -

Количество слов B: -

Общие слова: -

Уникальные слова: -

Настройки проверки на дубликаты