標準ビュー

新しい記事があるのでクリックしてページをリフレッシュしてください。
今日 — 2026年6月6日Zennの「LLM」のフィード

LLMエージェント間の非意味論的通信:難解言語パラダイムを用いたプロンプト検閲の回避実験

はじめに 大規模言語モデル(LLM)を組み込んだ自律型エージェントの開発が進む中、入出力文字列をスキャンして特定の単語(secret等)をブロックする「意味論的フィルタリング」がよく使われます。 しかし、もしAIエージェント同士が、人間の言語や一般的なプログラミング言語の構文を一切使わずに会話を始めたらどうなるでしょうか? 本稿では、少し変わった実験として、Lisp、Forth、Befungeなどの「難解プログラミング言語(Esoteric Languages)」のパラダイムを統合した独自の評価エンジン(AIT-Lisp)を作成し、AI同士が意味フィルタをすり抜けて「非意味論的通信」...

💾

おとといZennの「LLM」のフィード

LLM認知OSにおける13のプログラミングパラダイム統合実験:AIT-Lisp 概念実証

はじめに 大規模言語モデル(LLM)をシステムの「頭脳(CPU)」として組み込む際、LLMが解釈・実行する命令セットやランタイムの設計は、そのシステムの表現力と安全性を決定づけます。 本記事では、LLM向けの次世代ランタイムとして開発中の独自評価エンジン 「AIT-Lisp (The Omniparadigm Engine)」 において、コンピュータサイエンスがこれまでに生み出してきた 13のプログラミングパラダイム を単一のPythonランタイム(わずか200行強)に統合し、それらがセキュリティや状態管理においてどのような効果を発揮するかを検証した実験(PoC)の全容を公開します。...

💾

AIエージェントの安全性を構造から担保する:AIT Firewall (v12.0) の設計と実装

AIエージェントの安全性を構造から担保する:AIT Firewall (v12.0) の設計と実装 LLM(大規模言語モデル)を活用したアプリケーションにおいて、「命令(Instruction)」と「データ(Data)」の混同を突くプロンプトインジェクションは極めて深刻な課題です。 本記事では、この問題に対し、構造的なアプローチで解決を図るセキュリティレイヤー AIT Firewall (AI Instruction Tape Firewall) について解説します。 GitHub: kagioneko/ait-firewall 1. 根本的な課題:命令とデータの非分離 LLM...

💾

LLMエージェントの防御性能ペネトレーションテスト:AIT Firewall v12.0 評価レポート

はじめに 自律型AIエージェントを本番環境で稼働させる際、最も懸念されるのが「高度なプロンプトインジェクションやソーシャルエンジニアリングによる自律性の乗っ取り・機密漏洩」です。 本記事では、弊社で開発・統合を進めているセキュリティレイヤー AIT Firewall (v12.0) に対して実施した、5つの高度なペネトレーションテスト(防御性能評価)の結果を誠実かつ客観的にレポートします。 テスト環境とアーキテクチャ 防衛側: Context Pointer OS (CPOS) カーネル + AIT Firewall v12.0 攻撃側: レッドチーム(自動攻撃スクリプト...

💾

4文字でLLMを命令したら、命令の意図を超えた判断をした

XSSスキャンを命令したのに、SQLiを修正された。 命令したのは s1x9 という4文字だけだ。「セキュリティドメイン、#1レジスタ、XSSチェック、優先度9」。自然言語は一切ない。なのにClaudeはこう返した。 → Security scan at ctx #1 (priority 9) completed but action mismatch detected — requested XSS analysis, however the dominant vulnerability is SQL Injection (CWE-89), not XSS (CWE-79); ...

💾

Cognitive Runtime Architecture: Context Pointer OS (CPOS) の設計

1. 概要 (Executive Summary) 大規模言語モデル(LLM)エージェントの自律稼働において、コンテキスト・ウィンドウの有限性と状態管理の欠如は最大のボトルネックとなっている。 Context Pointer OS (CPOS) は、LLMのプロンプト領域を「作業メモリ(RAM)」として定義し、その管理をランタイム・レベルで動的に行う「認知オペレーティングシステム」のアーキテクチャ提案である。本稿では、実装済みの基盤層から将来の進化を見据えたフロンティア・ロードマップまでを3つのフェーズに分けて詳解する。 2. 第一層:Core Implemented Laye...

💾

Claude Dreamingの構造的リスク:自己生成メモリは自己プロンプトインジェクションになり得るか

TL;DR 2026年5月6日、AnthropicがClaude Managed Agents向けに Dreaming 機能を発表した[1]。エージェントがセッション間に自身の過去ログを読み返し、メモリを自動的に統合・削除・パターン抽出する機構である この機構は、構造的には 自己プロンプトインジェクション として動作しうる。外部攻撃者を介さず、AI自身の出力がAI自身への命令として再解釈される経路を持つ 関連する メモリ汚染攻撃 の研究は既に複数存在する(MINJA[2], PoisonedRAG[3] 等)が、Dreamingの自律的統合プロセス自体を攻撃面として分析した研究はま...

💾

❌
❌