Scribble at 2024-05-28 11:41:53 Last modified: unmodified
おおむね僕もこの記事と同意見だ。
いわゆる「ビッグ・データ」と呼ばれているものが IT なりシステム・エンジニアリングなり情報科学において大きなテーマとなってきたのは、大きく言って二つの点で課題があったからだ。第一に、もちろんデータの量が膨大であるから、それを格納するストレージを確保したり維持しないといけない。ここで、ストレージのコストという観点だけに着目すると、そのデータを活用できる仕方で加工した後にオリジナルのデータを消してもよいなら、確保するべきストレージには上限すなわち一定の分量が見込めるので、コストや処理の効率や解析に要する時間などの見積もりが出しやすくなる。しかし、手持ちのデータを解析する手法が将来も改善の余地があるとなれば、オリジナルのデータを消してしまうわけにはいかないかもしれないので、そのままデータを溜め続けるのであれ、あるいは何らかのメディアに記録するのであれ、別のコストや手順が必要になる。そして、もしそういう将来の手法で正確に解析するためには、時間軸において最初期からのデータを全て使うことが求められるとなれば、一定の分量が貯まったら光学メディアに記録してストレージからは削除するといったことだけでは済まなくなる。どこかの時点で全てのデータをストレージに展開する必要があるからだ。
第二に、そうやって大量に格納しているデータを、どうやって解析すればよいのか、そしてそもそも解析して何を知りたいのか、あるいは何をするために解析して知る必要があるのかという与件なり要件が分からないという重大な問題があった。もしあなたが、或る EC サイトのユーザによるアクションを記録したログだと言われて 5PB(現在の標準的なパソコンで使う 1TB のストレージ容量で 5,000 個分)のデータを渡されたとする。それらを一斉に解析するためのストレージが用意されていて、そこに全てのデータが展開されているとしよう。ここで重要になるのは、(1) そのデータを使って何が知りたいのか、(2) そのデータを使って何を知りうるのか、(3) 知りうる範囲から知りたいことを決めたとして、それをどうやって解析できるのかという三つのポイントであり、これら全てに答えられない者は、少なくとも企業で働く「データ・サイエンティスト」とは言えない。企業で働いている限りは、データを活用する取締役会や情報システム部といった他の人々の要望が正確に何であるかを理解して、それを満たす解決策を提案できなくては、どれほど複雑で高度な数学を扱えようと、サラリーマンとしては全くの「無能」である(巨大な企業では、そういう橋渡しを社内 SE のような人材が担っていたりするが、たいていはそれら関係者の中で最も無能だったりする)。
こうして、上の記事が述べているように、ストレージの問題はクラウド・サービスの普及だとか、既存の多くの DBMS がクラスター構成に対応して大規模なスケーリングを展開できるようになり、機能的にもコスト的にも解決されたと言って良い。もちろん、劇的に安くなったと言いたいわけではなく、ビッグ・データを活用するべきスケールの企業であれば確保できる筈の予算の中で過剰なコストがかからなくなってきたという意味である。資本金が100億円にも満たない会社が、格好をつけて「ビッグ・データ」などと言ってみても、彼らにそんな分量のデータはないし、そんな分量のデータを解析して得る情報で劇的に経営方針やサービス内容が改善できるわけでもない。はっきり言って、大多数の企業はビッグ・データを活用するよりも先に、経営判断として決めたりやるべきことがあるはずだ。
すると次に、どうも見ているとビッグ・データを活用している事例が見えてこないという実情がある。確かに大塚商会やら IT ゼネコンやらコンサルが主催するセミナーとかでは継続的に事例が紹介されるけれど、それらはそもそも初手というか与件が大半の中小企業とはかけ離れている。予算が数百億円とか、専用の担当部署があって数百人が携わっているとか、要するに日経が発行しているビジネス系の IT 雑誌(『日経 SYSTEMS』など)に出てくるような、与件の特殊性から言っても予算規模から言っても、参考にしようがないくらい特別な事案ばかりである。したがって、そんなものをどれほどオンライン・メディアの記事で読んだり、翔泳社の書籍などで読んだところで、実際には大企業の成功ストーリーや有名経営者の回顧録を読むようなものでしかない。要は、ビッグ・データを単に活用しているとか、どこの会社ではどう活用しているといった話を掻き集めるだけでは意味がないのだ。かといって、自社にデータ・サイエンスの人員を抱えるほどの財務的な余裕がある企業なんて殆どないわけである。
そして、この記事で指摘されている次の実情として、実際にはビッグ・データなんてものを保持したり運用している企業は少ないということだ。いまのところ、ビッグ・データと考えられる何ペタバイトもの容量のデータに対応するストレージ・サービスとしては、記事でも紹介されているように Google の BigQuery を初めとして、SAP, IBM, Oracle, Microsoft などが従来のデータウェア・ハウスから発展したサービスとして色々なストレージ・サービスを提供しているわけだが、現実にビッグ・データと言いうる規模のデータを展開して利用しているのは、ほぼ官公庁や一部の巨大企業、そして彼らクラウド・サービスを提供する企業自体だけであろうと思う。
これはここで何年か前に書いたことだと思うのだが、僕はデータを大量に集めて解析して言えることというのは、大半の企業の事業活動については精度を高めるだけの意味しかないと思う。そして、その精度が殆ど実務的に意味がない精度(たとえば年間で100個しか売れない商品の売上が 0.0001 円上がると言われても、実務上は解析の結果を反映させられない)である可能性が高いのではないか。したがって、そんな膨大なデータを解析してやっと分かる微細な結果にこだわるよりも、手持ちの結果から見通せる範囲の予測について、経営判断としてインパクトの大きな決断をする方が重要であるというのが、企業の技術系部長として僕が思っていることだ。更に言えば、たいていの企業が抱えている経営課題というものは、データを云々する以前の話なのである。