英文特許のタイトルに使われている単語などを自動集計する数式【Microsoft365】
今回は、複数の英文特許出願におけるタイトル(発明の名称)から、そこで使われている単語・熟語を抽出して集計するExcelの数式について紹介します。
まず前提としてMicrosoft365でしか使えない数式でありそれより前のバージョンのExcelでは使えないものの、利用可能なのであればグローバルな知財関連業務にかなり役に立つ数式ではないかと思います。
このような英文特許のタイトルは、商用DBはもちろんのこと、以下のような無償で利用可能な海外特許のDBでも取得できます。
Google Patents
WIPO PatentScope
espacenet
Lens.org
さて、それでは数式を含む処理例の画面を示します。この例ではA列に発明の名称のリストを貼り付けています。
そして、タイトルを貼り付けたA列の範囲をB2セルで参照し、B列に表示されたタイトルを画像で示す数式で参照して単語・熟語に分割して集計しています。
この数式のよいところは、1つのセルに数式を貼り付けて範囲を指定するだけで、例えば数千件の出願のタイトルで使用されている英単語・英熟語を1発で集計できる点です。このため、どの語が発明を表すためによく使われているか、すなわち重要な語であるかを簡単に把握することができます。
数式は以下の通りです。仮に範囲の変更が必要な場合にも5行目と12行目の”B2#"の部分だけを変更すればよいです。なお、この数式ではバグというか仕様上の問題点がありますので修正版の数式も後述しています。
=LET(
■処理①,"区切文字を挿入",
置換対象,{","," IN "," TO "," OF "," FOR "," BY "," ON "," AROUND "," AT "," FROM "," ONTO "," UNDER "," BETWEEN "," WITH "," AS "," A "," AN "," THE "," SAID ","THAT"," AND "," OR "," AND/OR "},
置換関数,LAMBDA(テキスト,古いテキスト,SUBSTITUTE(テキスト,古いテキスト," ★ ")),
分割表,REDUCE(UPPER(B2#),置換対象,置換関数),
■処理②,"区切文字で分割し単語・複合語化",
分割,REDUCE("",分割表,LAMBDA(A,B,VSTACK(A,TEXTSPLIT(B,,"★",,,"")))),
前後スペース削除,TRIM(分割),
ユニーク,UNIQUE(前後スペース削除),
スペース削除,FILTER(ユニーク,ユニーク<>""),
■処理③,"スペース削除語の単語リストごとのヒット数を集計し、単語とヒット件数の件数降順表にする",
ヒット数,BYROW(スペース削除,LAMBDA(C,COUNTIF(B2#,"* "&C&" *"))),
合成表,HSTACK(スペース削除,ヒット数),
SORT(合成表,2,-1))
処理の概要として以下の通りです。
処理① カンマ、前置詞、冠詞および接続詞を★マークに置き換えます。ここに単語を追加することで、分割する語を増やすことができます(後述)。なお、各語の前後にはスペースを入れています。
処理② 処理①で追加したマークを使って、対象としたすべてのセルに記載されたタイトル(発明の名称)で使われた単語・熟語に分け、ユニークな語のリストを作成します。
処理③ 処理②で作成したユニーク語(ワード)のリストのそれぞれの語について何件の出願で使用されているか集計して、件数の多い順に並び替えたうえでワードと件数のリストとして表示します。
LET関数で定義している語(各行の1個めのカンマの左側)を使いどんな処理をしているか端的に示しているので、各行でどんな処理が行われているかはわかるのではないかと思います。
また、複数セルに対する複数語を使った置換処理、複数セルに対する分割処理、及び、ヒット数の集計処理の3つの処理にLAMBDA関数を使っており、Microsoft365で実装された機能をフルに活用しています。実を言うとこの数式を作るのにChatGPTをかなり活用しており、BYROWとLAMBDAを使った数式はChatGPTに相談してやっとできた苦心作です。ちなみに、■処理~の3行は説明用に付けているため削除しても問題ありません。
集計するセルの範囲を変えたいときは、スピルのB2#の2箇所を変更してください。例えば、英文タイトルが貼り付けられている範囲がB2:B1000であれば、そのように変更してください。
どのぐらいの件数が処理できるかは、時間さえ掛ければいくらでもできそうですが、現実的な処理時間に納めるためには多くとも1万程度までとするほうがよさそうです。
↑の画像は3000件で処理したものですし、1000件程度なら数秒程度で処理できました。後述する数式では6000件で時間はかかるものの処理することができることは確認しています。しかし、最初に8000件程度で処理したところ処理がなかなか完了しなかったのでPCのスペックなどを考慮して処理する件数は調整してください。
このツールの使い方としては、特許調査の検索式を作成するときに検索キーワードを精査するのに使うのがよいかと思います。
というのも、検索式のキーワードを考えるときには、辞書、Wikipedia、シソーラスまたは生成AIなどを使い候補語を見つけ設定していく場合が多いと思いますが、そのようなツールから得られる一般的な用語より、実際の検索結果の母集団で使われている語から選ぶほうがより適切な語が選べるのではないかと考えるためです。
以上のように作成したツールを使いながらセミナー用に検索式を作っていたのですが、気になることがありました。
というのも、上の画像では"RING"という語が3位と予想外に順位が高いのです。この集計を行っているタイトルのリストは6月のセミナーの題材で使うために用意した米国のパルスオキシメータに関する出願を対象にした検索結果の母集団から取得しています。そのような前提から考えると、パルスオキシメータの発明のタイトルに「指輪」のような語が多く使われるのには違和感があります。そこで調べて見ると"RING"そのものがタイトルに使われる例は10件程度でした。
つまり"RING"のように、"MEASURING"や"MONITORING"などの他の言葉の一部に含まれる語の場合には、"RING"自体がそこまで多く使われているわけではないのにその語を含む他の語を含む出願の数までカウントしてしまうので実際より多くなってしまいます。これは意図する結果ではありません。
逆に、"MONITOR"と"MONITORING"というような関係の場合には、"MONITOR"で"MONITORING"の分もカウントするため、意図しない処理ではあるものの、この仕様を利用できる場合もあります。
以上の仕組みを仕様として理解して使ってもらうのであれば一応問題はありませんが、それも改良できるならしたほうがよいということで、上記の仕様を修正したので修正版も作成しました。
ただ、B2で画像のC2のようにタイトルの前後に半角スペース入れる処理を1工程挟む必要があるので(=" "&A2:A6000&" "の部分)、仕組みとして少し複雑になります。
このように修正したうえで画像での例で集計したところ上述した"RING"は件数上位には登場しなくなりました。
数式は以下の通りです。対象のテキストと単語にスペースをつけて集計することで、"RING"と"MEASURING"のように一方の語が他方の語の一部に含まれる場合に二重カウントしないようにしています。
=LET(
■処理①,"区切文字を挿入",
置換対象,{","," IN "," TO "," OF "," FOR "," BY "," ON "," AROUND "," AT "," FROM "," ONTO "," UNDER "," BETWEEN "," WITH "," AS "," A "," AN "," THE "," SAID ","THAT"," AND "," OR "," AND/OR "},
置換関数,LAMBDA(テキスト,古いテキスト,SUBSTITUTE(テキスト,古いテキスト," ★ ")),
分割表,REDUCE(UPPER(B2#),置換対象,置換関数),
■処理②,"区切文字で分割し単語・複合語化",
分割,REDUCE("",分割表,LAMBDA(A,B,VSTACK(A,TEXTSPLIT(B,,"★",,,"")))),
前後スペース削除,TRIM(分割),
ユニーク,UNIQUE(前後スペース削除),
スペース削除,FILTER(ユニーク,ユニーク<>""),
■処理③,"スペース削除語の単語リストごとのヒット数を集計し、単語とヒット件数の件数降順表にする",
ヒット数,BYROW(スペース削除,LAMBDA(C,COUNTIF(B2#,"* "&C&" *"))),
合成表,HSTACK(スペース削除,ヒット数),
SORT(合成表,2,-1))
処理としては少し面倒になりますが、これでも十分利用可能なレベルではないでしょうか。
この場合、A2以下の行にタイトルのデータを貼り付け、B2で処理の対象にする範囲を指定する操作を行えばよいので、2工程だけで発明の名称に含まれる英単語・英熟語を抽出し、これらの語が使われる出願件数を集計してよく使われる重要な語を確認することができます。
今回の記事は以上です。
本記事などについてお問い合わせなどありましたら右上のリンクから管理人の特許事務所のホームページにアクセスいただき、お知らせいただければと思います。