2018年05月27日に初出の投稿

Last modified: 2018-05-27

現代の仕様では、恐らくウェブページから取得したソースに含まれる文章やタイトルの文字列を構文解析するにあたって、それが難読化されているかどうかに注意などしていないと思う。たとえば、「河本孝之」という文字列をユニコードの数値参照表現に変換すると「河本孝之」であることを考えてみる。Google にせよ DDG にせよ Bing にせよ、このていどの表現がソースに含まれていることは予定して扱うかもしれないが、この数値参照表現を更に再帰的に変換して「&#27827 ...」としたらどうだろうか。更に、これを「&#38&#59;&#35 ...」などとしたら?

所与のデータに、こういう処理を加えなければコンテンツを適正に構文解析できない(ひいてはコンテンツの「意味」を適正に処理できない)場合があるからといって、全てのデータに対して数値参照があるかどうか判定する処理を加えたり、実際に数値参照を再帰的に逆変換するようなことをしていたのでは、Google だろうと他の検索エンジン企業だろうと、手元に莫大なデータがあっても解析はぜんぜん終わらないだろう。そこで大切なのは、やはりコンテンツの何が重要な要素なのかを、あらかじめ(もちろんビジネスとして)適正に断定するということだ。そして、或るウェブコンテンツにおいて扱うべき要素を決めたら、それ以外は捨てる。もちろんアーカイブはするにしても、それを再び引っ張り出して解析にかけなくてはコンテンツの重要な要素を見逃している可能性があると判断されるまでは、放置されるだろう。

よって、数値参照など使っているコンテンツは「コンテンツとしてそもそもどうでもいい」という断定が最初に置かれて、どれだけの分量がページのソースに含まれていても無視される(つまりページランクのような評価に全く寄与しない)と考えてもいいのだが、実際にそうかどうかは試してみないとわからない。

  1. もっと新しいノート <<
  2. >> もっと古いノート

冒頭に戻る


※ 以下の SNS 共有ボタンは JavaScript を使っておらず、ボタンを押すまでは SNS サイトと全く通信しません。

Twitter Facebook