Scribble at 2026-05-29 15:24:13 Last modified: 2026-05-29 15:24:56

添付画像 — Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy (short paper)

自然言語の文をプロンプトとして扱える大規模言語モデルにおいては、プロンプトのわずかな表現の違いが応答の品質（精度や整合性など）に影響を与えることが知られており、これが「プロンプト・エンジニアリング（prompt engineering）」という分野の発展につながってきた。その中で「丁寧さ」に焦点を当てた先行研究では、無礼なプロンプトはパフォーマンスの低下を招くことが多く、逆に過度に丁寧であっても結果が良くなるとは限らないと報告されていた。著者らは、この知見を最新のモデルである ChatGPT-4o を使って再検証したところ、意外にも、丁寧なプロンプトよりも無礼なプロンプトを使った方が回答の正確性が高くなるという興味深い結果を得たという。

この原因は幾つか考えられるようだが、前提を押さえておく必要はあろう。つまり、ディープ・ラーニングの研究においては、数学や情報科学のプロパーならご存じだと思うが、結局のところどうしてディープ・ラーニングが一定のプロンプトに対して一定のレスポンスを返せるのかという精密な原理は分かっていないというブラック・ボックスの状況で世界規模に応用なり実装が広まってしまっている。なので、この場合でも特定の結果が出る原因は推測によるしかないのだ。人が生成 AI の推論プロセスを理解できないという意味での「ブラック・ボックス」だけではなく、そもそも原理的にどうして生成 AI が有効なのかすら分かっていないという意味でもブラック・ボックスなのである。よって、先行研究と結果が異なる原因として、モデルの開発が進展したとか、プロンプトの長さが影響しているとか推測されてはいるが、どれも説得力に欠けるというのが僕の感想だ。そもそも実験の件数が50という非常に少ない回数での結果だという点でも、実験の精度や設計そのものについて大きな疑問がある。（いまどき、実験のセット・アップだけなら、それこそ生成 AI でいちどに何千パターンも提案できるはずだ。）

なお、この論文を取り上げた Hacker News では、生成 AI への「接し方」という議論も展開されているようだが、はっきり言ってそのような擬人化を前提にした議論は、まさしく駐輪場の屋根を何色に塗るかという話に他ならないと思う。プログラムや機械ごときに接し方を問うなど笑止も甚だしい。（と、言いつつ僕は偽善者なので、機械やプログラムには丁寧に接することを良しとしているわけだが。）

冒頭に戻る