レーベンシュタイン距離を使った名寄せの事例

ここ最近までお仕事がかなり詰まっていてブログの投稿が全然できていなかったのですが、時間ができたのでXの過去ポストについての記事を投稿していきたいと思います。
そんなわけで、今回はレーベンシュタイン距離を使った名寄せの事例の紹介です。

以前の記事でChatGPTで以下のような制作マクロについて紹介しました。

ChatGPTでレーベンシュタイン距離で近い値を返すマクロを作る【Twitterで発信したTIPS】 | patent & marketing (patent-and-marketing.com)

このツールを使い、8月に開催したセミナー用の分析で対象にしたグローバルの医薬関連の出願人名の名寄せをしていました。

黄色で塗ったロシュさんなどは比較的適切に抽出できています。

この例では、C列における各出願人名をそれより上の出願人名のうちどれが一番近いかをレーベンシュタイン距離(二つの文字列を同じにするための最小の操作回数)で確認して、レーベンシュタイン距離が一番近い出願人名を返したうえで、レーベンシュタイン距離の値と文字の一致率を集計しています。

こんな感じで、エクセルでもいろいろな関数を組み合わせることで名寄せの支援もできたりします。

 ということで、今回は以前作ったレーベンシュタイン距離を使った名寄せの事例について紹介しました。弊所ではこのツールを含め様々な特許情報分析の手法を用意しており、クライアントの要望に沿った分析手法の開発も行っています(なお、弊所では顧問契約をしていただいているクライアント様には弊所開発のツールを自由に利用して頂いています)。
 また、このような分析手法に関する個別指導・セミナーや、個別の分析プロジェクトについても対応可能です。ご相談などありましたら管理人の特許事務所のページからお知らせください。
 よろしくお願いします。