Google Patentsの悩ましい仕様(ソートの種類でヒット数が変わる…)
今回はGoogle Patentsの話です。無料で使用できるGoogle Patentsでは類似検索ができたりスクリーニングがしやすかったりキーワードリストを取得できたり意匠も検索できたりと、とても便利な特許調査・分析ツールです。
ところで、8/25に医薬品関連の特許情報分析に関するセミナーの講師をする予定なので、化学系の検索ツールも充実しているGoogle Patentsの分析への使用法をできるだけ紹介しようと仕様を確認していました。他のオープンツールにはない特徴が確認でき、有益なツールであることが確認できてきています。
しかし、一つ悩ましい仕様がわかりました。というのも「検索結果でソートの種類によってヒット数が変わる」という事象を確認しました…
以下は、小野薬品工業株式会社の製造販売するオプジーボ®の一般名「二モルバブ(Nivolumab)」で検索してみた事例です。
ソートの種類を上から「関連度順(Relevance)」、「新しい順(Newest)」、「古い順(Oldest)」に変えています。すると関連度順では10万件以上、新しい順では約1万件、古い順だと4千件ほどになります。さすがにこの差は仕様で済ますのは厳しい気がします。
「関連度順」についてはなんとなく分かる気がするのです。というのも、Google Patentsでは上述した通り各出願についてキーワードが抽出されています。また、各キーワードの上位概念である分野も付与されています。このようなキーワードなどを使って、Google Patentsでは関連度の高い出願を上位から抽出するというシステムとしていることが想定されますので、関連度であるから検索キーワードが含まれていなくても含まれているキーワードからみて近い出願が検索結果としてヒットするのはわかります。
しかし、新しい順と古い順で検索結果が違うのは頂けません…
ということでGoogle Patentsの仕様としてどこかに記載がないかヘルプでGoogle Patentsの検索に関する項目を確認すると「Keywords can be quoted for "exact search", and keywords and CPCs can be -negated with a minus sign in front. Keywords are automatically stemmed and include close synonyms.」という記載があります。ざっくりいうと同義語なども勝手に追加してくれるようです。
また、検索結果の項目では「The total number of results (About x results) is only an approximation and may change even for the same query.」という記載もあり、検索結果はだいたいで同じときに調べても変わるかもしれないということなのです。詳細は以下を確認してください。
Searching - Google ヘルプ
Search results page - Google ヘルプ
ソートの種類によって検索結果のヒット数が大きく異なる理由は分かりませんでした。いずれにしてもGoogle Patentsは他のAIツールと同じように同じタイミングでも検索結果が異なることがあるようなので、Google Patetnsを使う場合にはこのあたりも十分に意識しておき、クライアントへの報告の際にはその旨も記載したほうが良さそうです。
今回は以上です。