Scribble at 2023-10-05 19:34:52 Last modified: 2023-10-06 09:59:07

添付画像

PLaMo-13Bでは、日本語での利用を念頭に置きましたが、外部ツールの利用などのためには英語の知識も必要であるという考えのもと学習を行いました。ベンチマーク結果を見るとこの目的はある程度達成できたといえますが、一方で英語だけ、日本語だけとみるとモデルサイズが約半分のモデルと同等程度の性能しか出ない、ということもできます。

PLaMo-13Bを公開しました

あまりにも分散モデルのデータがでかすぎて、普通のパソコンではローカルで動かせるものではない。よって、こういう説明でしか推し量れないところが多いわけだけど、なんとなく中途半端な感じがするんだよね。性能を発揮するには英語の能力が必要(分散モデルだけじゃなくて、それを使う人間も)というなら、最初から英語の性能だけで OpenAI や Meta と勝負したらいいんじゃないのかね。たかが1割も日本語のデータをトレーニングに使ってないのに「日本語の性能が凄い」とか言われてもねぇ。ということは、国内で日本語のデータでトレーニングしてる大半の LLM はゴミだってことじゃん。こんなのに負けてるんだから。

  1. もっと新しいノート <<
  2. >> もっと古いノート

冒頭に戻る


※ 以下の SNS 共有ボタンは JavaScript を使っておらず、ボタンを押すまでは SNS サイトと全く通信しません。

Twitter Facebook