システムプロンプト3万トークンのLLMに作業をさせてはいけない
長い会話の途中で書かせたコードは、雑になる。
Claude Codeでもcursorでも、50往復したセッションでの出力と、/clearした直後の出力を比べれば誰でも分かる。何が起きているかは直感的には「モデルが疲れた」で片付けられがちだが、実際にはそうじゃない。
EMNLP 2025の論文[1]が示した結論はシンプルで、少し怖い。 コンテキストが長いと、それだけで性能が落ちる。検索精度を完璧にしても。
実験環境はQAタスクだが、示唆するメカニズムは汎用的——長さそのものがコスト。
一回のセッションなら、まだ消せる。/clearすればいい。コンパクションを走らせてもいい。
問題はペルソナ...