Code Interpreterの特許情報分析への応用例(上手くいかなかった例)
Chat GPT-4のCode Interpreter機能を特許情報分析に応用した事例の紹介です。ここでは上手くいかなかった例について紹介しようと思います。
今回はデータの取得方法について説明しませんが、いつも通りLens.orgからデータをもらってきます。テーマはJASMなどでもおなじみのTSMCさんの直近公開の1000件です。
発明者のリレーションを確認しようと思い、以下のような文でランキングとネットワーク図を使った分析を依頼します。なお、この少し前に別の分析も試しているためモジュールの再読み込みを行っています。
ランキングができました。一瞬正しく出力されているかと思ったのですが、空白を発明者として集計しています。しかも件数は1000件なのに3000件超え…?
どうして空白を発明者としてカウントしたか3000件を超えているのかは分かりませんし検証する気も無いのですが、この結果が悪さをしてしまうので複数の集計や作図などの工程を1つのプロンプトで依頼をしないほうがよいと感じました。
これに続いて、ネットワーク図も作成されました。まりも・・・?
プロンプトの後段でネットワーク図の作成に関して人数を特定しなかったために、このような結果になったと考えられます。
依頼文の意図としては文として切っていないので前段で指定した「上位30位の」という部分が後段でも有効かと思ったのですが、このあたりは厳密に指定しないといけないようです。
それから、この図で「視覚的に理解するのに役立ちます」と言われてもそうとは思えません。まりもだし。
それではと、30位までに限定するとそれらしきネットワーク図ができました。
しかし、何かおかしいと感じよく見てみると中央の○は上述した空白を表しています。空白を発明者として認識してネットワーク図を描いてしまっています。
このような問題が発生してしまうことから、集計の段階でエラーの値は削除するように依頼して再集計したうえで作図用のデータとするのがよいと感じました。
空白が1位の問題を解消するために、2位から31位までという指定してみるとそれらしきネットワーク図ができました。
できることがわかったのはいいですが、こういうデータならばもうちょっと位置を調整してもらいたく感じます。何で中央のスペースを使わないの…?
こういうところを見ると、配置などで細かい修正ができる有償ツール(パテントマップEXZなど)を使う必要がまだありそうですね。
そんなわけで一応ネットワーク図が描けましたので、今回試行した分析手法についてまとめます。
よかった点として、ChatGPTでもネットワーク図が描けることが分かりました。棒グラフ、折れ線グラフ、パイチャートなども描けますので、基本的なチャートは作図できるのではないでしょうか。
一方、わるかった点として、人間と同様に間違ったことをさも正しそうに書いてきますし、明らかに間違っているようデータでもそのまま使って分析してしまいます。しかもチャートとコメントの不一致も見られました。
このようなことも起こるため、このようなツールを使うユーザーは、AIが生成した正しい答えを出せるような依頼文を書ける知見と、AIが生成した答えを正しいか間違っているか確認できる知識と、AIの生成した答えについて適切に修正指示を出せるだけの知識とも必要になりそうです。例えば、手順を追って正しい処理を行うように依頼を分割すること、つまりこの例であれば集計を行って正しそうな結果が出たら、作図についても1つずつ依頼していくのがよさそうです。
特に大事なのは、これらの問題が発生するのは仕方ないとして間違った分析結果に基づいて会社や顧客をミスディレクションしないためにAIを使うためには正しい判断ができる幅広い知識が求められると感じました。
今回は以上です。