顧客データベースにおいて、東京都の「鈴木一郎」さんと大阪府の「鈴木一郎」さんは同姓同名の別人である可能性が高いが、同じ東京都の「鈴木一”郎”」さんと「鈴木一”朗”」さんは、別人かもしれないし、漢字を間違えて登録した同じ人が重複しているのかもしれない。こうした重複データを解析して同じデータを1本にまとめることを「名寄せ処理」と呼ぶ。
今般、富士通研究所が、極めて高速にこの「名寄せ」を処理する技術を開発した。
同社では、今回、従来の手法と精度を同等に保ちつつ、約10倍高速に顧客データベースの名寄せを行うことができる技術を開発した。
顧客データベース中のデータを、従来のように郵便番号といった一つの項目だけを対象に分割するのではなく、すべての項目内容を対象に他の顧客データの中から類似するデータを検索し、各項目の検索結果を総合評価することで、名寄せの見落としを少なくした。
顧客データの表記の違いについて、すべてのケースを網羅して検索すると処理に時間がかかる。
今回は、データどうしに共通部分があり、文字の先頭や末尾、あるいは中間部分の一箇所のみが違う程度のものであれば類似であると限定したうえで、データを高速に検索できる手法を用い、名寄せ精度を保ちつつ処理速度を向上させた。
今回開発した技術を用いることにより、従来は処理に時間がかかっていた数百万件の顧客情報の名寄せを数時間で実現することが可能となる。
同社のテストでは、10項目からなる約200万件の顧客情報に名寄せを適用するのに1.4時間と従来技術の約10分の1の時間で名寄せ処理を終えることができたという。
重複した顧客データベースが、名寄せされないままでいると、届かないDMが多数発生したり、同一顧客に別々の営業をかけたりすることになり、非効率であるとともに、顧客満足実現の足を引っ張ることになる。
定期的かつ的確に名寄せ処理を行って、健全な顧客データベースを運用したいものである。
(TechinsightJapan編集部 真田裕一)