Scribble at 2025-09-06 12:20:16 Last modified: unmodified
Apertusは、15兆トークンという膨大なデータで学習されており、そのうち約40%が非英語のコンテンツです。学習データは1800以上の言語を網羅しており、スイスドイツ語やロマンシュ語といった、これまでLLMであまり扱われなかった言語も含まれているとのこと。この多言語性により、多様な言語や文化圏での応用が期待されています。なお、日本語での入出力に対応しているかは記事作成時点では不明です。
日本語に対応してるかどうかは不明・・・そらそうだろうな。Huggingface でモデルのデータを確かめたけど、軽い方の 8B モデルでも個人のパソコンで動かすのは無理がある(VRAM が 32 GB 以上あるようなマシン、つまり家庭用のパソコンとして200万円くらい投資する人ならともかく)。なので、凄い凄いとは言ってるけれど、そんなもんデータをこれだけ詰め込んでたらいくらでも性能は上げられるわけで、LLM の評価はそういうことじゃないだろうと言いたい。そんな、労働集約型のビジネスが手堅いみたいな話をされても困るんだよね。AI の話題について。