Scribble at 2022-06-29 09:53:11 Last modified: 2022-06-29 10:00:49

Keisuke Inoue - 検索アルゴリズムは文書に現れる単語の重要性そして文書の検索語に対する適合性を計算する際に、それぞれの単語や文字列が世の中の文書（実際には検索エンジンがアクセスできる文書ということですね）どのくらい頻繁に使われているか、という情報を使っている、ということになり、つまり、世の文書が増えることはその情報を豊かにしていることになるので、その意味ではアルゴリズムの助けになっていると言えると思います。

インターネットでは、情報の量が多いほど質の高い情報が見つかりやすいと思いますか？それはなぜですか？

参考になる。皮肉な意味で。

つまり、「データ・サイエンティスト」というのは、人の質問していることを日本語話者として理解する能力すらなくても程度の低い算数ができればなれるという一例だからだ。アルゴリズムなんてどれほど最適化されたところで「ゴミの山からはゴミしか拾えない」という事実にすら気づいていないバカに、人の質問へ答える資格などない。

そして別の意味でも参考になる。これも皮肉な意味でだ。

上記の回答が「データ・サイエンティスト」という自意識プレイのパフォーマンスとして、その枠内での妥当性をもつのだとしても、それはつまり data science に情報の良し悪しを判定することはできないという明白な事実を補強することになるからだ。こうすれば「良い情報」は見つかりやすくなるかもしれないが、我々は「良い情報」が何であるかを知らないというわけで、これはいかにも悲惨な話である（人によっては「ベイズの定理」とはこういう悲惨さを正当化する理屈だと言ったりする。無知や思い込みから出発してもデータが増えたら結果としての事後確率は〈必ず〉改善されると誤解している人が統計学者にも多いからだ）。

冒頭に戻る