あいまい検索(類似検索)
ドキュメント群の中から自然文で入力された質問文と類似するドキュメントを検索するあいまい検索(類似検索)技術。質問文と完全一致しなくても、検索が可能なその技術をご紹介します。
あいまい検索(類似検索)とは?
あいまい検索(類似検索)とは、ドキュメント群の中から、自然文で入力された質問文と類似するドキュメントを検索する技術です。質問文と完全一致しなくても、検索が可能になるあいまい検索(類似検索)の技術の一部をご紹介します。
例)検索質問が「デジタルカメラの画像をプリンターで印刷する方法は?」の場合

- ・「デジタルカメラ」と「デジカメ」、「プリンター」と「プリンタ」等、
表記の揺れを吸収 - ・キーワードやフレーズでもあいまい検索(類似検索)が可能
- ・キーワード検索を圧倒する回答力を実現
- ・検索精度は維持されておりノイズが少ない
- ・キーワード検索、属性検索との組み合わせも可能
あいまい検索(類似検索)の処理フロー
全文検索における、あいまい検索(類似検索)の処理は、大きく次の2ステップからなります。
ステップ1:部分文字列の選別
質問文から出現頻度をもとに検索に有効な部分文字列を高速に選別します。検索精度を維持して検索処理を高速化しているため、質問文が長文であっても問題ありません。
ステップ2:スコアの算出
各部分文字列の「出現頻度」および「出現集中度」を考慮したスコアを算出します。たとえば、部分文字列が出現するドキュメント数が少ない場合は「出現頻度」が低いためスコアが高くなります。また、部分文字列が同じドキュメントに繰り返し出現している場合は「出現集中度」が大きくなりスコアが高くなります。

あいまい検索(類似検索)の活用例
あいまい検索(類似検索)は、例えば次のような場面で大きな効果を発揮します。