第19回 次世代web検索技術のイノベーション


 先日、特許庁に東京大学工学系研究科イノベーション政策研究センターの松尾豊准教授をはじめ、同センターの教職員及び学生を特許庁にお招きして、「次世代web検索技術の最新動向と特許・商標・意匠検索への応用」と題する講演会を開催しました。読者の皆さんにはあるいは当たり前のweb検索エンジンの仕組みかもしれませんが、ほとんど素人の筆者はじめ参加者の一部にはとても良い勉強になったので、皆様にも共有したいと思います。


 はじめにご講演いただいたのは、同センター助教の森純一郎博士です。森先生からは、web検索エンジンの仕組みなどをご説明いただいた後、特に商標、意匠に絞って、web検索の一層の活用方策を提言いただきました。


 検索エンジンの仕組みとしては、webページをどのように集めるか(クローニング)→集めたページをどのように管理するか(インデキシング)→検索クエリーとwebページをどのようにマッチングするか(ランキング)と進んでいきます。検索エンジンには1998年から使われている、webページをプログラムにより自動でクローニング、インデキシング、ランキングを行う「ロボット型」と、それまで使われていた人手で収集、分類する「ディレクトリ型」がありますが、それぞれ得失があります。なお、現在Googleはロボット型のエンジンを用いて数十億から数百億のページを検索対象にしているとのことです。森先生には東京大学を訪れたGoogleのロボットのログを示していただきましたが、映画「マトリックス」に出てくるムカデのような攻撃ロボットがコンピュータ室の暗い地下を徘徊しているようで、ちょっと不気味な感じもしました。もちろんそうした物理的なものではありませんが。


 我々、特に商標審査官が最も興味があるのは、ランキングの仕組みです。出願された商標が、世の中でどの程度知られているのか、これを著名性といいますが、web時代の前まではこれを辞書などにのみ頼って判断していました。今でも主要な辞書に載っているかどうかは著名か一般名詞かなどの判断材料になりますが、現代の強力なツールがweb検索です。web上様々な商品やサービスに使われていたり、反対に特定の商品などの名前として頻出したりするか、審査には重要な情報になります。一方で現代は知識の爆発の時代ですから、「イノベーション」でGoogle検索すると、約260万件、ヤフーに至っては3千万件を超えるサイトがヒットします。この中で、我がイノベーション・ジャパンは11位(5月2日現在)と健闘しています。また「イノベーション戦略」と引くと、ヤフーでは1500万件で、このDNDの筆者のページが何故か1ページ目の9番目に出てくるという、大変不思議なことが起こっています。こうしたランキングは(上にあればあるほどうれしくなりますが)どうして計算されているのか、これを森先生はわかりやすく説明してくれました。検索の上位にランクされるよういろいろ工夫することを検索エンジン最適化(SEO)と言いますが、具体的には以下のことなどです。


 ・クエリーに関連したキーワードを増やす
 ・キーワードをページの重要な部分に置く
 ・ハイパーリンクを張る、もらう


 しかし、これらをやり過ぎると検索会社から、はねられる、とのことです。余談ですが、DNDの家主、出口俊一さんは、人気のwebページ管理人だけあって、ああいう風貌でも?意外とこの辺の話は詳しいようです。


 さらに、森先生は、web検索と意匠の関係について語ってくれました。意匠の審査には画像を用いますが、その画像検索の進化について、人手でつけたタグを検索する方法と、将来の類似画像検索の可能性について言及されました。これには、筆者を含め、関係者はとても興味をひかれました。また、web検索と商標の関係では、自然言語処理を用いた類似文字列検索や評判情報抽出手法による信頼性の高い情報のweb検索システムの可能性を示唆されました。これらの提言は、システム対応ができるかどうかという課題はありますが、現状では極限状況で審査を行っている現場の審査官にとっては、とても素敵な世界が実現する可能性に満ちているように聞こえました。森先生、ありがとうございました。


 ついで、壇上に立たれた松尾豊准教授は、webマイニング、人工知能などの第一人者で、人工知能学会、情報処理学会などで各種賞を受賞もされている新進気鋭の学者です。第一回ウェブ学会シンポジウムを東京大学で主催されたのも松尾豊先生です。このシンポジウムの登壇者を見ると、ウェブ工学にかかわる産学の若い関係者が集まっていることがわかります。わずかに国立国会図書館長で元京都大学総長の長尾真先生が筆者より先輩で、ほかの先生方はといえば、口髭があったりしてかっこいい今風の若者に見えますが、皆さん最前線で活躍されている方ばかりのようです。先日ご紹介した藤末健三参議院議員や野口祐子弁護士もご登場されていますね。以前この欄で「IT、バイオの産業政策審議には、若い学者や企業人と一緒に行う必要があるが、そういう人は審議会には出ている暇はないだろう」と言う趣旨の話を書きましたが、こうした今風の顔ぶれを見ると、筆者の世代ではweb2.0時代の産業政策はどういう形で検討を進めたらよいのか、と一瞬悩んでしまいます。もっとも、現場の若い政策担当者は、とうの昔にこうした方々と一緒に議論していることと思いますが。(そうですよね、情報処理振興課長の東條吉朗さん。なお東條さんは前職OECDで、イノベーション政策の担当(科学技術政策局審議官)をされていました。NEDOのシンポジウムでもイノベーション政策についてご講演いただきましたね。今後の新しい政策展開に期待しましょう。)


 話が横道にそれましたが、松尾先生からは、「現在の検索からセマンティック(semantic、意味論)技術へ」と題して、キーワードの検索からより人工知能的な意味の検索に進化している現代の技術について、最先端の応用例を示しながらご講演いただきました。キーワードが持つエンティティと属性、関係性の解説の後、大量のデータがweb上にある現代では、これを活用してさらに重層的な処理することで、次世代の検索が可能になるとのお話しです。このあたりに来ると、さすがに文科系出身の職員にはちょっときついかなと言う部分もありましたが、全体として最前線の研究を非常にわかりやすく解説いただきました。松尾先生、どうもありがとうございました。


 先生方の知識は、web検索を既に多用している特許庁検索システムにも大いに役立っていくことと思います。今回のお話しを聞いて、特許庁の審査はさらに高度化出来うるのだと確信しました。今後、著作権法等の改革が進んで、知財データベースや検索システムが知財のユーザーにも活用していただける時代が来ることでしょう。とても夢のある一晩でした。東大の皆さん、また特許庁にいらしてください。お待ちしております。


 松尾先生たちの講演資料はこちらです。


【シンポジウムのお知らせ】
 5月15、16日の両日、東京大学本郷で情報知識学会年次総会が開催されます。その記念シンポジウム として「科学技術コモンズと情報知識学の挑戦」が開催されます。筆者もパネルのモデレータとして登場しますので、ご興味のある方はご参加ください。


[シンポジウム 詳細]
日時2010年5月15日(土) 13:00〜17:40
会場 東京大学 本郷キャンパス工学部2号館 213 号室 (東京都文京区本郷7-3-1)
http://www.u-tokyo.ac.jp/campusmap/cam01_04_03_j.html


開会挨拶
 「科学技術コモンズの構築に向けて」 岩田修一教授(東京大学) 基調講演
 「科学技術コモンズと情報知識学への期待」 長尾真館長(国立国会図書館)
 「科学技術コモンズとオープンアクセス」 時実象一教授(愛知大学)
招待講演
 「ライフサイエンスにおける統合データベースの構築と課題」 高木利久センター長(ライフサイエンス統合データベースセンター)
 「材料科学におけるデータベース共通プラットフォームの開発と課題」 芦野俊宏教授(東洋大学)
 「コモンズ構築と利用のための知識表現」 Steven Kraines准教授(東京大学)
特別講演
 「コモンズに関わる法的課題」 野口祐子氏(クリエイティブ・コモンズ・ジャパン常務理事)
パネル討論 モデレータ:橋本正洋氏(特許庁)
閉会挨拶 根岸正光会長



記事一覧へ