Lambda関数を使った疑似テキストマイニング【Twitterで発信したTIPS】
2023/6/5のツイートの解説記事です。
Microsoft365のサブスク契約をしていると利用できるLAMBDA関数機能というのがあるのですが、かなり弄りがいのある機能で、このツイートをした少し前からいろいろ試していて、このツイートのときはこの機能を最大限活用した分析機能をエクセルに実装しました。
このツールは、画像の左のA列のような特許出願の要約のテキストを読み込んでB列のように文字を区切ってやります。ここでは、LAMBDA関数の機能を使うことで画像の中のような文字の置き換え表を使うことでB列のように文字を置き換えています。
特許出願特有の対応表を作っておくことでちゃんとした形態素解析を行わなくても発明を説明する文字列を適宜分解することができます。これにより、画像の右のようにテキストマイニングによる頻出語のリストのようなデータをエクセルだけで生成することができます。個人的にはかなりのイノベーションでした。
さらに、このようなデータを使い、いくつかの技術要素に対応するキーワードのリストを作り、集計してやるとエクセルだけでテキスト分析を行うことができます。
この例は、九州にJASMもできるTSMCの日本出願について分析しています。半導体としての機能、パッケージ、トランジスタの構造、製造プロセスなどのキーワードリストを作って分析しています。このような分析は有償ツール(パテントマップEXZ)などでは当然できるのですが、手を動かすとエクセルだけで作れるのはよいですね。ただ、エクセルだと、散布図の仕様上、どっちかが日付のマトリックスチャートしか描くのが難しいので、出願人×技術分野みたいなマップを描きたいときは有償ツールを使いたいですね。