writer : techinsight

「川崎さん」と「川崎市」をキーワード「川崎」だけできっちり区別 富士通研究所が新技術開発

文書検索において最も難しいのはノイズの除去である。川崎市についての情報を検索したいのに、どこかの川崎さんの情報がヒットするのでは、目的の情報がなかなか入手できない。そこで富士通研究所は大量の文書データから固有名詞を高精度に抽出する技術を開発した。富士通研究所の川崎さんのデータと神奈川県川崎市のデータを高精度で峻別することが可能になる。

本技術では、「川崎さん」のように“右隣が「さん」は人名”という、固有名詞を文脈情報に基づいて抽出する「規則」を作成する。 

さらに「富士通の川崎さん」を、「富士通」は「組織名」で、「川崎さん」は「人名」と判別する固有名詞辞書を作成する。

従来の人名や地名などの固有名詞辞書は辞書データを人手で作成しなければならず、登録件数の多い辞書の作成や更新には多大な時間とコストが必要だった。このため、辞書を自動的に生成することが重要な課題となっていた。正解事例をもとに、固有名詞を抽出するための規則を生成する。生成する規則の例は以下のようになる。

 前後の単語から得られる文脈情報を用いる規則: 
  “右隣が「さん」→人名”
  “右隣が「所属」→組織名”

作成した固有名詞抽出規則を用いて文章から固有名詞を抽出する。固有名詞抽出では、「富士通市役所」のように固有名詞辞書を用いた抽出だけでなく、文脈情報も考慮して抽出を行う。
したがって、「富士通大学」のように固有名詞辞書に登録されていない単語であっても固有名詞として抽出することができ、さらに抽出結果から辞書データを自動生成して固有名詞辞書に追加することができる。

 本技術を用いることで、文書検索や文書作成の支援が可能になる。たとえば、検索対象の文書から固有名詞を抽出することで、「川崎」のように「地名」にも「人名」にもなりうる単語について意味の違いを区別した検索ができるようになる。

IT技術の進化は、人間が経験則に基づき無意識に行っている弁別作業を、いかにアルゴリズム化して、自動処理するかという研究が重要になる。

本技術は、エンタープライズサーチ製品に組み込むことによって、一歩進んだ社内外文書検索システムの構築が可能になるであろう。
(TechinsightJapan編集部 真田裕一)