二文書重複検出器

2つの文書を分析し、類似段落や文を特定。サイドパネルで分析パラメータを調整できます。

仕組み: 単語に分割 → 共通単語を探す → 類似度 = 共通単語 ÷ 総単語数
処理中...

🔍 高度な文書分析

高度なアルゴリズムで段落レベルと文レベルの比較を行い、完全一致と類似コンテンツを高精度に特定。テキスト類似度・文章類似度を判定する文書類似度検出器として、学術研究やコンテンツ検証、コピペチェック / コピー検出に最適です。

📊 詳細な類似度レポート

文書類似度検出器としての詳細レポートを提供。テキスト類似度スコア、ハイライト表示、並列比較を網羅。結果はエクスポートでき、コピペチェック / コピー検出や文書レビューに活用可能です。

🌐 複数形式対応

PDF、Word(DOCX)、プレーンテキストなど様々な形式の文書を比較可能。ファイルの直接アップロードや貼り付けで、テキスト類似度・文章類似度を即時判定し、コピペチェック / コピー検出にも対応します。

よくある質問

文書類似度チェックの精度はどのくらいですか?

コサイン類似度やジャッカード指数などの最先端のアルゴリズムを採用し、95%以上の精度で類似コンテンツを検出します。テキストの再利用、書き換え、引用など、様々な類似パターンを識別できます。

対応しているファイル形式は何ですか?

PDFファイル、Microsoft Word文書(.docx)、プレーンテキストファイルに対応しています。ファイルを直接アップロードするか、テキストを貼り付けて分析できます。

このツールは無料ですか?

はい、当社の文書類似度チェックツールは完全無料で、登録不要、隠れた料金は一切ありません。

類似度のパーセンテージはどのように計算されますか?

実はとてもシンプルです。2つの買い物リストを比較して同じ商品がいくつあるかを見るようなものです:

  1. 単語に分割: 文を個々の単語に分割します。例えば「今日公園に行きました」は[今日、公園、に、行きました]になります。中国語、英語、日本語、韓国語などに対応しています。
  2. 辞書を作成: 各単語がどこに出現するかを記録して素早く検索できるようにします。「の」「は」「the」などの非常に一般的な単語は、類似度の判定に役立たないためフィルタリングされます。
  3. 比率を計算: 同じ単語がいくつあるかを数えて、総単語数で割ります。例えば、2つの文章に合計100のユニーク単語があり、そのうち40が同じ場合、類似度は40%です。

📊 実例:
文A:「今日公園に行きました」(5単語)。文B:「公園に行きました」(4単語)。共通単語:「公園」「に」「行きました」(3単語)。総ユニーク単語:5個(今日、公園、に、行きました)。類似度 = 3÷5 = 60%