最終更新日: 2008年08月29日

落書きダイアローグ(2008/06):なぜセマンティック・ウェブは胡散臭いのか?

2008年06月23日 23:54

先月と今月の対話というタイトルをつけていたのですが、実際は架空の俺というだけのことだったから、ぜんぜん主旨とあっていなかったので反省しています。今回からは全くの架空で、かえるとふくろうの対話としました。どちらも好きな生物なのです。

ふくろうさんということで、今回からお喋りすることになったふくろうさんです。

かえるさん同じく、お喋り相手のかえるだよ・・・ってさぁ、対談ショーじゃないんだし、どのみち適当なキャラ設定なんだから、自己紹介までしなくてもいいと思うけど(笑。

ふくろうさんどうでもいいんですが、これ WordPress のリッチエディターで編集してると、このサイトのスタイルシートが適用されないので、どんどん右側へ迫り出しているんですが・・・。これ大丈夫なんでしょうか。

かえるさんさあ。編集画面上では、どうしても左端に文頭を戻したいときは、とにかく長々と喋るしかないと思うけどねぇ。本末転倒な感じがするが(笑。

ふくろうさんうーん。編集しているサイトの見栄えで出てこないとリッチエディターの意味がないような気がするんですが(笑。まぁいいでしょう。

かえるさんで、今回は何から話せばいいんだろうか。特になかったら、いま書きかけの話題をこっちに持ってきて「乱取り稽古」をやろう。

ふくろうさんほぅ・・・いや、ふくろうだから言ったわけじゃないんですが(笑。

かえるさんそんなベタな(笑。えーと、まずだね、WEB 3.0 とか言い出してるじゃん? あの手の、まぁ @IT でも InfoQ でも C|Net でもいいんだけど、ああいう手合いや自称「ウェブマーケター」たちが口にし始めている「WEB 2.0 の次」がなんなんだろうかなぁと。

ふくろうさんはいはい。それを見ていったわけですね。

かえるさんうん。そうすると、恐らくは色々人によって言ってる内容がずれてる気もするんだけど、最大公約数で言えば「セマンティックほにゃらら」ではないかと思うのだな。

ふくろうさんふむふむ。このサイトでも運営者がときどきわざと間違えて使っている、「セマンティック・ウェブ」とかですね。

かえるさんそう。で、俺もまぁ・・・同一人物が書いてるわけだから(笑、セマンティック・ウェブというフレーズの根っこにある発想が、なんとなく胡散臭くて嫌なんだけど、ともかく印象だけで嫌だと言ってるのもどうかと思うので、ちょっとは調べてみようかなと、思ったわけだね。

ふくろうさんあれは、Wikipedia 的というか教科書的に言えば、ティム・バーナーズ・リーさんが Scientific American に書いた、”The Semantic Web” という論文がきっかけだったという話ですね。いわく、「セマンティック・ウェブはどこかに作る別のウェブじゃなくて、いまあるウェブの拡張である」と。そういうウェブでは、情報に正規化された(well-formed)意味が与えられているので、人とコンピュータがお互いに得意な作業に専念できるようになるだろうという話でした。

かえるさん・・・なんだ、けっこう知ってるじゃん(笑。

ふくろうさんいや、これは対話編の読み物や入門書によくある、異常に推論力や物わかりがいい素人という、ご都合主義を皮肉ってみただけです(笑。本当はあまり知りませんので、調べたことを教えて下さい。

かえるさんそうか。なんか、架空のキャラだけど我ながら気味悪いな(笑。いや、そんなことはどうでもよくて、最初は確かにその人の論文からスタートしてもよかろうと思うのだけれど、その論文のスローガン的な部分っていうか、既に文字面がマーケティング屋みたいな調子で非常に胡散臭いんだけど(笑、平たく読めばさ、感想としては「なんだ、ナイト爵位とかもらってても、結局はジョージ・オウエル以下じゃん」みたいな話になっちゃうんだよね。で、例の『アンビエント・ファインダビリティ』っていう、或る意味では狡猾なマーケティング本でも、やれティム・バーナーズ・リーは「サー」の爵位をもってるとか、Scientific American のインパクトファクターだとか、そういったミーハーなことを書いて、セマンティック・ウェブはすんごい影響力をもってるんだという与太話をしているわけだ。

ふくろうさんふむ。

かえるさんで、何をやってるのかと言うと、『現代思想』という雑誌でも紹介されていたように、アメリカでは哲学科で意味論とか様相論理をやってた連中が IT 企業に就職しているというわけだ。中には社員の7割が哲学科の出身だというオントロギーベンチャーもあるらしい。が、そこでやってることは「いかにも形式的な」形而上学みたいに見えるけど、実際は記号論理という形式を使っているだけのことで、背後にはちゃんと具体的な世界像がある。何か抽象的で没価値的なことをやっているようでいて、実際にはアマチュア形而上学をしてるだけなんじゃないかという気がするね。

ふくろうさん出てきているものはそれほどエキサイティングではないかもしれませんが、理論としては色々と考えられているように思いますが・・・。オントロギーをやっている人たちは必要最低限の形式化でもってものごとを進めようとしているんじゃないでしょうか。ですから、数学的な理論とはアプリケーション(適応箇所)が違うと思うのですよ。今回の話題について言えば、理屈を立てるにはモデル理論を知っている必要があるとは思いますが、それを応用してセマンティック・ウェブを語るのに、上向きのレーヴェンハイム=スコーレムの定理とか、その種の数学的なあれこれを知っている必要はないだろうと思います。それは宮台真司風の「とどのつまり、バカは中途半端にものごとを知らなくてもよろしい」ということではなく、単に不要というだけの話です。知っていれば何かちょっぴり得なことがあるかもしれませんが、それはそれだけのことだと。

かえるさんふむ。では、「セマンティック・ウェブ」とは言っても、クリプキやタルスキーやモンタギューは知らなくてもよいと。それはいいとして、では「サー」ティム・バーナーズ・リーを筆頭に、一山幾らみたいな取り巻きが口にしているアレはなんなの? かえるとして聞くけど、おいしいの?(笑

ふくろうさん恐らく彼らの年頭にあったのは、まず「ドキュメント」という単位で情報を捉えることには限界があるという認識だったろうと思うのです。ウェブページの1ページとか、FLASH Paper の1ファイルとか、そういった単位で情報を扱うと、いまでもそうですが、検索して上位にヒットしていても、実際にサイトへ行ったりファイルをダウンロードしてみたら、たったワンフレーズしかふれていないのに、SEO だけで検索の上位に捕まえてしまったという不幸な結末が待っているかもしれません。

かえるさんうん。で、それは幸か不幸か「ウェブページ」をみんながぼちぼちと作る時代から、ブログが「ほおむぺえぢ」だという時代になってきて、少しはマシになったんじゃないの? 勝手に RSS とかが配信されるようになったし、場合によっては、Google もやってるとは思うけど、巡回したページの形態素分析をやってキーワードを取り出してから、それをタグとして登録しているような気もするよ。ブログやサイトの運営者、あるいは del.icio.us とかでソーシャルに付与されているタグも利用するだろうけど、機械的にやる方が良い場合も多いからね。

ふくろうさんすると、ページという単位かどうかはともかく、コンテンツにタギングが為されているということについては、特に反対しないということですよね。そもそも(笑、このサイト(MD)の運営者はセマンティック・ウェブになんとなく反対しているわりに Dublin Core のタグをかなり前からヘッダー部のソースコードに書いてるじゃないですか。あれはセマンティック・ウェブを実現するために提案されたものですから。

かえるさんおお、そうだな(笑。でも、彼がいま耳元で囁いた限りでは、「他のシステムから利用してもらうフォーマットとして、他人にとって使い勝手がいいんだったら付けるぜ」だって。うむ、これもこれで一理はあるな。自分が嫌とか嫌いでも協力はしようってこと、あるじゃん。俺にはカンケーねーけど、お前らだけでも楽しいんだったら、やれば? みたいな。

ふくろうさんうーん。

かえるさんで、まぁ俺も少し色々と見てはみたんだが、やっぱりどうも胡散臭いのが抜けきらないんだよ。だから、サポートしようって連中は本を出したりポータルサイトで幾らでも書けるだろうから(出版社やメディアは流行ってくれる方がいいんだろうし)、あまり懐疑的な内容は日本でも乏しいので、まずはクリティカルシンキングのケースとして、マ”ァみなさん聞いてください(これ、若い人は分かるんだろうか)。

ふくろうさんはい(笑。セマンティック・ウェブについて、どういう印象をお持ちなんでしょうか。偏見のような気もしますが、語ってやってくださいな。

かえるさんそうね。第一に、一つのテクストを限られた語彙で「定義=固定」しようとする、非常に古臭い言語哲学とか言語観を下敷きにしているような気がしたのね。で、ポストモダニストという一面をもっている俺の嫌悪感が目覚めたのさ(笑。第二に、W3C が well-formed な意味を決めるのであれ、どこかの利権団体が決めるのであれ、これは情報の意味づけとか価値の付与ということに関するファシズムではないかと。その当時は、セマンティック・ウェブをやってる人は数学的なモデル理論を当然のように仮定していると思っていたから、それこそ同型なモデルが数限りなくありうる可算無限モデルのうち、どれか一つを well-formed な意味(解釈関数とフレーゲ的な Sinn、いや機能主義的な心の反応でもいいのかもしれない)の集まりとして・・・でもさ、一つの意味だけが well-formed だとか言ってる時点で、既にふつうのロジックで言う well-formed とはぜんぜん意味合いが違うんだけど・・・ともかく特権的に誰かが決めてやろうという話に見えるんだよ。でまぁ、ふつうの反応として、お前ら何様だ? というわけ。で、第三に、マイクロブログの隆盛を見ていると、セマンティック・ウェブはロウバストではないかという気がしてくるのね。tumblr の一行メモに、お前らいったい幾つの XML 属性を付けるつもりだ? というか。あんなもん、タグを付与する必要すら感じないじゃん。ああいうのにどうやって「正規の意味」をくっつけようというのか、という疑問があって。

ふくろうさんふむ。なるほど、わかりました。いえ、同意するという意味ではなく、単にそう語ったという事実を了解しただけですが。

かえるさんで、2001年にティム卿の論文が出た後で、いわゆるソーシャルソフトウェアの業界からは否定的な反応があったと。『アンビエント・ファインダビリティ』にも紹介されているけど、クレイ・シャーキーの「セマンティック・ウェブ、三段論法、そして世界観」という論説がよく知られているね。あと、メタデータをソーシャルに(つまりは自主的にみんながめいめいに)ドキュメントへ追加できるといいんじゃないかっていう、Dublin Core のようなアイディアについては、コリー・ドクトロウの「メタクラップ」というページがよく知られている。

ふくろうさんふむふむ。では、まずさきほど説明してもらった印象が不当なものかどうかを検討してみましょう。そこで、適切かどうかはともかく、W3C の見解を確認しながら進めてみます。すると、僕たちにはまず「データ」とか「コンテンツ」があって、これをどんな形式であっても一律に利用できるインターフェイスがあればとても便利です。つまり、アプリケーションがあらゆる形式のデータを一つのスキームにしたがって扱えるようになれば、整理しやすくなります。

かえるさんテキスト、XHTML、RDF、音声ファイル、動画ファイル、プログラムファイル、FLASH、PDF、などなどだな。

ふくろうさんそうですね。で、同じ発想から RDF, RSS が出てきていて、これらは今や誰も見ていないようなブログでも、自動的に発行されています。

かえるさんその言い方はちょっとへんだぞ。素人がつくってるココログとか Jugem ブログとかはともかく、大学の研究室のサイトとか、企業の商品情報のページとかは、まだ殆どページごとに RDF なんか公開していないし、それどころかサイトに RSS が全くない場合だってたくさんある。いまのところは、情報を「拾って欲しい」というスケベ根性のある連中だけがじゃんじゃん公開してるだけじゃないのか? 俺から見ると、RDF が「本来は公開して欲しい」サイトで積極的に公開されているとは思えんね。まぁ、これは「どのサイトが有用なのか」という価値観の話になってしまうけど・・・しかし、ともかくマーケティング屋とか SEO 屋が率先して検索結果を汚染しているがゆえに、逆にまともな情報発信者は RSS をわざわざ公開したり、検索エンジンへの掲載結果について競おうとは思っていないだろう。RDF を使ったマーケティングに使われているという時点で、「誰にとってどんな価値があるかは色々ある」という公正さや自由さが機能しないステージにもっていかれてしまっている。何をやってもマーケティング屋とか SEO 屋の「努力の結果」がしゃしゃり出てくるだけでさ。今じゃ、RSS が Google の検索結果に乗ってくるんだぜ。あんなのコンテンツでもなんでもねーじゃん。

ふくろうさんRSS については僕も同感です。メタデータはコンテンツの検索を一定のルールに沿って容易にするためのものであり、コンテンツの検索結果に直接 RSS を掲載するのは馬鹿げています。そんなことをしたいなら、最初からドキュメントを XML+XSLT で書けばよいのです。しかし・・・「検索結果からスパムを取り除くために正規化を要求する」という後ろ向きの発想では、セマンティック・ウェブの主旨に合っていない気がします。そもそもセマンティック・ウェブは、検索エンジンだけのためにメタデータを正規化しようとしているわけではありませんから。もっと広くアプリケーションどうしのデータ交換を目的にしていると言っているのです。

かえるさんでは、セマンティック・ウェブの範疇にも入ってるから質問するけど、たぶんセマンティック・ウェブを語るには「オントロギー」の話をしておかないと上っ面の話になるんだろう。なので、OWL の構文論的な要求範囲を見ると、あれは全く統語論レベルの話しかしていないわけだから、意味、つまり或るサイトで公開されているコンテンツどうしの関係とか、あるいは異なるサイトどうしのコンテンツについて何も語っていないよね。特に後者の話をすると、OWL の構文論を充足する複数のモデルがあるとして(ふつうは違う人間が意味づけをするのだから、こう仮定するのは自然だろう)、それぞれのモデルに属している意味を整合的に対応させる規則があるのかどうか、オントロギーは何も語らない。じゃあ、「セマンティック・ウェブ」はいいけど、肝心の「セマンティクス」はどこで決まるんだろうか?

ふくろうさんたぶん、そこに誤解の原因があるのです。いま W3C のドキュメントを見ながら話しているので、やや軽薄な理解かもしれませんが、僕が見る限り、W3C で語られている「セマンティック・ウェブ」の「セマンティクス」は、やはり冒頭でも少し言ったように、ロジックで言う本来のセマンティクスなのです。それを取り違えると、「RDF とか OWL には、りんごがどのカテゴリーに入るのか書いてないし、誰がそれを決めるのかも書いてない」といったおかしな誤解が生じます。こう言ってよければ、セマンティック・ウェブはセマンティクスを押しつけないのです。寧ろ、色々なモデルを相互に運用したり取り込んだりできるように、最低限の構文規則を守ってくれと提案しているにすぎません。誰も、「リンゴ」とか「マッキンゼー&カンパニー」とか「織田信長」といった言葉の意味について、あらかじめ何かを強制したりはしませんし、どのコンテンツに意味があるかも語ったりはしません。セマンティック・ウェブは・・・そんな些事のためにあるわけではないのです。

かえるさんなるほど。相互運用性を高めると。うーん、それはそれで説得力はあるけど、「それってなんていう SOA ですか?」みたいな話に落ち込みそうだな。言ってることは理解できるが、オープンな規格はおうおうにして市場へ投げ込まれると、どこかがヘゲモニーを握ってデファクトになった時点でオープンじゃなくなるわけだろ。セマンティック・ウェブだって、IBM とか Sun とかがヘゲモニーを握ったりしたら、特定の SOA ソリューションの単なるデータ形式になっちまう可能性だってあるだろ。いや、Google が握ったら API の仕様とかに吸収されたりさ。

ふくろうさんどうなんでしょうね。いずれにしても、ベースになる構文論を決めて、最低でもそれにしたがってコンテンツに意味を与えるというやり方でなければ、フラグメントだらけで検索や組み合わせのストレスが非常に高くなると思います。

かえるさんでも、その点は冒頭でも言ったように、HTML ドキュメント1つの意味を与えるなら、既に Google とかがページのコンテンツを勝手に解析してタギングしてるんじゃないかって気がするけど。そういうチカラ技の方が強いと思うよ。「これこれをしなきゃコンテンツを公開できない」みたいな、言ってみりゃお上品なコンテンツ制作なんて、啓蒙したり説得して回り切れるタイミングは既に過ぎてしまったと思う。爆発してるじゃん。コンテンツが。いまからどうやってこれに Dublin Core とかを追加しろって言うんだよ。

ふくろうさんうーん。既にあるものについては、そのコンテンツをあらわす何かが代わりになるのかもしれません。

かえるさんWindows のショートカットみたいに? だから言ってるじゃん。そんな権利が誰にあるんだって。それを Google が自動的に代行するなら、いまの SEO と同じことじゃん。つまり、人が意味を決めるなら「権利」の話に落ち込んでしまうし、自動的に意味が決まるなら「義務」の話に落ち込んでしまう気がするんだよ、この話は。

ふくろうさんうーん、うーん。では仕切り直してもういちど調べさせてください。何か誤解があるような気がするんですよ。これまで話してきた中で、名前空間の話が全く出てきていないですよね。複数のモデルがあって、それらが同型だろうとなかろうと、どちらも「渋谷哲平」とか「おにぎり」とかの名詞をもつとすると、場合によっては各々のモデルがもっている関係、たとえばカテゴリーでの親子関係に相違があるかもしれません。或るモデルでは「渋谷哲平」は「ダサイもの」に入るかもしれませんし、他のモデルでは「好きだったもの」に入るかもしれない。そして、名前空間を決めておかないと「f(a) and -f(a)」を満たす a の集合を考えなければならなくなります。

かえるさんタイプ理論かい。それはそれでお手軽なことだが、ではどのタイプの体系が「適切」だったり「正しい」んだろうか? それを決めるのは誰なんだ? プログラミングの場合は、予め決まっている Int とか String とか tupple といった型にはまっているかどうかで判断できるわけだけど、じゃあその理屈で「マイケル・ジャクソン」にはどういう意味づけが適切なんだろうか?

ふくろうさんやはりどうもそっちに行くみたいですね。僕もいま、ajit さんの “Beyond Web 2.0: The social web or the semantic web ? and the rise of the Umbrella social networks” というエントリーを読んでいるのですが、なかなかこの疑問に答えるのは難しいですね。

かえるさんそのエントリーによると、『アンビエント・ファインダビリティ』では和らげられていたけれど、やっぱセマンティック・ウェブとソーシャル・アプリケーションには、トップダウンとボトムアップという対立があるように描かれているな。2003年くらいならともかく、2007年でも Web 2.0 Workgroup のメンバーがこういうことを語っているわけだから、やはりオントロギーではなくタギングということになるんじゃないの? どうもこう、オントロギーと言われているものは思想として弱いんだな。タギングは、言ってみれば「あるとは変項の・・・・じゃなくて、あるとは del.icio.us のタグになることだ」ってな感じのスローガンで、どんどん押していけるし。やはりストローソンよりもクワインの方が、正しいかどうかは別にして「パワフル」なんだな(笑。

ふくろうさんうむむ。ちょっとまってください。これはもう少し勉強してから、お話しましょう。今回は僕も勉強不足で、クリティカル・シンキングに再反論するところまで行けません。

かえるさんあいよ。じゃあ、また来月にしよう。

コメントがあればご記入ください。

  

  

  

archive / 過去の記事

Buzztracker daily image
image produced by buzztracker.org.

Take a survey 2008!

Save the Net