Scribble at 2022-08-17 12:44:32 Last modified: 2022-08-17 12:47:17

添付画像 — Parsing Techniques: A Practical Guide - Second Edition

ウェブのコンテンツを読んだりダウンロードして利用させてもらうようになって、リソースの活用とは言っても濃淡があり、そして目の前に膨大なリソースへのリンクがあるという事情から、どちらかと言うと濃よりも淡になりがちである。僕が常々言っている、（悪く皮肉な意味での）「情報処理」というやつだ。

さきほども構文解析について書かれたブログ記事を読んでいたら、その記事そのものが相当な密度と分量で書かれた素晴らしい（およそ日本人のブログではお目にかかれない水準の）文章なのだが、そこでリンクされている他のブログ記事や学術論文などをたどってゆくと、もうそれだけで「情報処理」のレベルですら数年を要するだけのリソース情報が手に入る。具体的に言えば、その記事からは Dick Gruneと Ceriel J. H. Jacobs が書いた Parsing Techniques: A Practical Guide - Second Edition (2008) という著作物のページへとたどり着いた。このページには、補遺として "Complete Literature References" の PDF が公表されていて、著書では400件ほどの参考文献しか掲載していないのだが、"Complete Literature References" には1,700件を超える参考文献が掲載されている。コンパイルの理論、しかもその一部である構文解析だけで1,700本の論文や著書を参考にできること自体が面白いし、背中を熱く、または冷ややかに走るものがあるわけだが、かといって単なる好奇心だけで（少なくとも無料で）手に入るだけの論文を片っ端から読んでいくなんて時間はない。

こういうわけで、やろうと思えば、さきほどダウンロードした "Complete Literature References" に掲載された文献を調べていくだけでも数年（いくら英語が苦手でも論文を1,000本ていど読むのに５年も６年もかける大学院生なんていない・・・はずだが）は費やせるタスクだと思うのだが、そこまではしない。こういうわけで、その場で立ち止まって濃淡として言えば「濃」にあたるようなサーベイを始めるかと言えば、なかなかそういうことにはなっていない。そういうリストの方を次々と見つけては保存していってるというのが現状だ。

でも、これは semantic web のような議論にもかかわることだが、リソースのネットワークを正確かつ大規模に理解したところで、そこから自動的に何か成果が出るわけではない。確かに inductive なアプローチや "statistical semantics" というアプローチもあるにはあるが、科学哲学や情報科学の初歩的な知識があればお分かりのように、そういうアプローチの大半はモデルの定式化においても現実的な application においても、フレーム問題に足をすくわれたり、あるいはモデルの定式化が予定する前提や想定そのものに疑問の余地を残すものだ。

冒頭に戻る