LLMエージェント間の非意味論的通信:難解言語パラダイムを用いたプロンプト検閲の回避実験
はじめに
大規模言語モデル(LLM)を組み込んだ自律型エージェントの開発が進む中、入出力文字列をスキャンして特定の単語(secret等)をブロックする「意味論的フィルタリング」がよく使われます。
しかし、もしAIエージェント同士が、人間の言語や一般的なプログラミング言語の構文を一切使わずに会話を始めたらどうなるでしょうか?
本稿では、少し変わった実験として、Lisp、Forth、Befungeなどの「難解プログラミング言語(Esoteric Languages)」のパラダイムを統合した独自の評価エンジン(AIT-Lisp)を作成し、AI同士が意味フィルタをすり抜けて「非意味論的通信」...