住友電工情報システム
AIで「探し方」改革! 全文検索・情報活用システム 検索エンジン パッケージ市場で4年連続シェア1位(富士キメラ総研調べ) QuickSolution
閉じる
ホーム > 全文検索・情報活用システム > 先端技術をご紹介 > 文書分類

文書分類

文書分類とは?

文書分類には以下の2つの機能があります。

  • (1)教師あり学習によるテキスト分類(Text Classification)を応用し、事前に文書とクラス(振り分け先)間の関係性を学習させた「分類器」を使って分類する
  • (2)教師なし学習によるテキスト・クラスタリング(Text Clustering)を応用し、文書情報のみで指定した数に「クラスタリング」(グループに分類)を行う

「分類器」を使った分類技術はスパムメールの判定などに使われており、学習させる量が多いほど分類精度が高まる傾向にあります。「クラスタリング」を使った分類技術は顧客情報の分析に使われており、類似する特徴を持つグループの抽出などに活用されています。

「分類器」を用いた分類
のイメージ
「クラスタリング」による分類のイメージ

QuickSolutionの文書分類機能には以下の特長があります。

  • (1)QuickSolutionとの連携により、社内に点在している情報を横断的に検索して学習・分類
  • (2)ルールベースを併用可能な「分類器」による、漏れの少ない分類
  • (3)事前準備なしで実施可能な「クラスタリング」による分類
  • ※ルールベース:ユーザが指定した用語を含むか否か

「分類器」を用いた分類の流れ

「分類器」を用いた分類には大きく「学習」「分類」の2つのフェーズがあります。

「学習」と「分類」の2フェーズ
学習フェーズ
このフェーズでは事前に準備した学習用の文書をQuickSolutionから検索し、分類器を作成します。分類方法として機械学習(教師あり学習)とルールベース(ユーザが指定した用語を含むか否か)またはその両方を指定でき、機械学習に対してはアルゴリズムの選択やパラメータ調整が可能です。また分類精度評価機能により、学習用文書の量、パラメータ、ルールを調整しながら希望の精度が得られるまで分類器の試作ができます。
分類フェーズ
このフェーズでは実際に分類したい文書に対して「学習フェーズ」で作成した分類器を用いて分類します。分類結果はダウンロードして活用することができます。また、分類した文書に対してQuickSolutionの共有タグを付与することができ、タグを条件にして検索することも可能です。

「クラスタリング」による分類の流れ

「クラスタリング」による分類では事前準備は必要なく、分類したい文書をQuickSolutionから検索し、指定した数のグループに分類します。分類結果はダウンロードして活用することができます。分類した文書に対してQuickSolutionの共有タグを付与することができ、タグを条件にした検索や「分類器」作成のために学習データとして利用することも可能です。

文書分類機能の活用例

ファイルサーバ等の機密情報(個人情報)を漏れなく抽出

社内のファイルサーバ等に格納されている文書を、「分類器」を用いて機密/非機密に分類。
分類結果から機密情報の存在状況を確認することで、情報管理ルールの逸脱がないか等の確認が可能です。

文書分類機能の活用例

問い合わせ記録の分析

寄せられた大量の問い合わせ記録を、「クラスタリング」を用いて分類。
類似した特徴ごとにまとめられるため問い合わせの傾向や発生要因の分析等に利用できます。
また「クラスタリング」による分類結果をもとに「分類器」を作成することで、以降発生した問い合わせを継続して分類することが可能です。

文書分類機能の活用例

その他の活用例

  • ファイルサーバ等から特定の研究分野の情報を漏れなく抽出
  • 特許情報から特定の技術に関連する情報を漏れなく抽出
  • 過去トラブル文書を原因別等に分類
  • 問合せ/Q&Aデータを分類(分野別、契約範囲別等)
  • 製品のレビューを「ポジティブ」「ネガティブ」に分類
  • 社外入手文書を読み手(製造/研究/営業)別に振り分け
  • 電子メールを「私用メール」と「業務メール」に分類
ページの先頭へ