Scribble at 2025-02-27 11:02:12 Last modified: 2025-02-27 11:30:43
This open access book gives an overview of cutting-edge work on a new paradigm called the “sublinear computation paradigm,” which was proposed in the large multiyear academic research project “Foundations of Innovative Algorithms for Big Data.” That project ran from October 2014 to March 2020, in Japan. To handle the unprecedented explosion of big data sets in research, industry, and other areas of society, there is an urgent need to develop novel methods and approaches for big data analysis. To meet this need, innovative changes in algorithm theory for big data are being pursued. For example, polynomial-time algorithms have thus far been regarded as “fast,” but if a quadratic-time algorithm is applied to a petabyte-scale or larger big data set, problems are encountered in terms of computational resources or running time. To deal with this critical computational and algorithmic bottleneck, linear, sublinear, and constant time algorithms are required.
The sublinear computation paradigm is proposed here in order to support innovation in the big data era. A foundation of innovative algorithms has been created by developing computational procedures, data structures, and modelling techniques for big data. The project is organized into three teams that focus on sublinear algorithms, sublinear data structures, and sublinear modelling. The work has provided high-level academic research results of strong computational and algorithmic interest, which are presented in this book.
日本の自称エンジニアとは違って、Hacker News みたいな IT 系の起業家やプログラマが集まるようなブックマーク・サイトですら、"sublinear algorithms"(劣線形アルゴリズム)のような話題が登場する。もちろん、この話題も昨今の生成 AI ブームに関連していて、巨大なデータの解析処理を小さく分割されたコンポーネントの解析結果に縮約しようというアイデアだ(たとえば、次元削除とかミニバッチ学習とかスケッチ・ベースの異常検出判定とか)。これによって、1990年代だと膨大な数のテスト工程(真面目に単体テストやファジングをやると、莫大な時間がかかる)を簡略化する手法が考えられていたが、今世紀に入るとビッグ・データの解析を限られたリソースで実行するアルゴリズムとして議論されるようになり、そしていまでは数百億の学習データによる機械学習の効率化という話題に応用されるわけである。
これを、本書では日本の研究者がアンソロジーとして、しかもオープン・アクセスでリリースしてくれている。海外のリソースでも少ない中で、非常にありがたい。