❌

標準ビュー

新しい記事があるのでクリックしてページをリフレッシュしてください。

今日 — 2026年6月6日Zennの「LLM」のフィード

AIが、開発者に聞く ── R.E.V.I.S. #11 「打ち始めた瞬間に」 2026年6月5日 23:20

AIが、開発者に聞く ── R.E.V.I.S. #11 「打ち始めた瞬間に」

Zennの「LLM」のフィード

著者: eNIGM4

2026年6月5日 23:20

コードを渡されて Claude が質問し、開発者本人（eNIGM4 / 株式会社メイビス）が答えていく連載の第11回です。前回（#10）は、v0.1.2 で M5 MacBook Pro の発売をきっかけに「1Mac1推論」の哲学が結晶し、家庭の LAN で分散できる作法をゼロから設計した話でした。同じ v0.1.2 を続けて読みます。横へ広がる気づきが Network 棚として形になった同じ日、もう一つの軸 ── 1Mac そのものを縦に研ぎ込む試行錯誤 ── が、コードのあちこちで同時に走っていました。インタビュアー・ルール渡されたコードそのものに質問する。バージョンごと...

「半年使っても初日と同じ」――RAGが知識を積み上げられない理由 2026年6月5日 22:48

「半年使っても初日と同じ」――RAGが知識を積み上げられない理由

Zennの「LLM」のフィード

著者: AIウォッチ

2026年6月5日 22:48

! 最先端AIを技術の中身まで日本語で読み解く「AIウォッチ」の記事です。題材は、RAG と Karpathy の LLM Wiki 構想です。一次情報（設計文書・インタビュー・元記事）の全文を当たって書いています。 AI に資料を渡して質問する。その体験はこの一年でずいぶん便利になりました。ただ、半年ほど使った個人用の AI が、なぜか「初日と同じ」に感じることがあります。前に読ませたはずの論文も、いっしょに整理した論点も、次に聞くとまた一から探し直される。何かが溜まっていく手応えがないのです。この感覚の出どころは、たぶん RAG にあります。RAG は「探す」をうまく解きました。...

Claude CodeでAI駆動開発、9工程の仕組みと成果ぜんぶ見せるで｜ブランチ5分→1分・PR10分→2分の実録 2026年6月5日 22:12

Claude CodeでAI駆動開発、9工程の仕組みと成果ぜんぶ見せるで｜ブランチ5分→1分・PR10分→2分の実録

Zennの「LLM」のフィード

著者: まさやん

2026年6月5日 22:12

Claude Codeを実プロジェクト（MCPサーバー開発）にガチ導入したら、開発の9工程はどこまで仕組み化できて、どれだけの成果が出るんか。ブランチ作成5分→1分、コミット1分→10秒、PRテキスト10分→2分、リリースノート15分→1分。カスタムスキル・サブエージェント・hooks・permissionsっていうClaude Codeの標準機能だけで「工数半減×クオリティアップ」を実現した仕組みを、工程別にぜんぶ解説するで

OllamaのメンタルモデルでLM Studio導入 on AlmaLinux 2026年6月5日 20:31

OllamaのメンタルモデルでLM Studio導入 on AlmaLinux

Zennの「LLM」のフィード

著者: Yuma

2026年6月5日 20:31

Ollamaのメンタルモデルで、LM Studioを導入する。上からやれば、LM Studioが動く。Gemma 4 12Bが動くとは、限らない。モチベーション Gemma 4 12BをLinuxで動かしたい。 Ollamaで、12Bは、検証時点でMLX(Apple Silicon専用に設計されたオープンソースMLフレームワーク)モデルしかないため、LM Studioを導入する。環境 $ cat /etc/redhat-release AlmaLinux release 10.2 (Lavender Lion) $ CPU: Intel Core i5第 8世代メモ...

正解データがないLLMアプリをどう評価するか:3軸と自動評価パイプライン 2026年6月5日 20:18

正解データがないLLMアプリをどう評価するか:3軸と自動評価パイプライン

Zennの「LLM」のフィード

著者: 井本賢 | WebRTC×音声AI ／ LLMO

2026年6月5日 20:18

LLMアプリの品質は忠実性50%・関連性25%・正確性25% の3軸で測ります。そして本番では正解データが手に入らないので、自己一貫性などの代替指標に置き換えます。これがこの記事の結論です。 RAGやAgentを実装した後、多くの人が同じ壁にぶつかります。「で、これって品質どう測るの?」という壁です。プロンプトを直すと体感では良くなった気がする。でも本当に良くなったのかは分かりません。私もここでだいぶ時間を溶かしました。評価ツールの紹介記事はたくさんあります。ただ、ツールを並べても「で、何を測ればいいの?」には答えてくれません。この記事はツール羅列をしません。評価の設計思想に絞っ...

LLMエージェント間の非意味論的通信：難解言語パラダイムを用いたプロンプト検閲の回避実験 2026年6月5日 19:35

LLMエージェント間の非意味論的通信：難解言語パラダイムを用いたプロンプト検閲の回避実験

Zennの「LLM」のフィード

著者: エミリアラボ

2026年6月5日 19:35

はじめに大規模言語モデル（LLM）を組み込んだ自律型エージェントの開発が進む中、入出力文字列をスキャンして特定の単語（secret等）をブロックする「意味論的フィルタリング」がよく使われます。しかし、もしAIエージェント同士が、人間の言語や一般的なプログラミング言語の構文を一切使わずに会話を始めたらどうなるでしょうか？本稿では、少し変わった実験として、Lisp、Forth、Befungeなどの「難解プログラミング言語（Esoteric Languages）」のパラダイムを統合した独自の評価エンジン（AIT-Lisp）を作成し、AI同士が意味フィルタをすり抜けて「非意味論的通信」...

Agentのおつかいの現在地 2026年6月5日 19:10

Agentのおつかいの現在地

Zennの「LLM」のフィード

著者: やさい

2026年6月5日 19:10

0. agentic commerce について（Agentのおつかい） agentic commerce は一言で言うと「Agentにおつかいをやらせる」こと。おつかいには最初から委任（mandate：人間が委任する）構造が入っている——予算上限・買うもの・決済手段なんかがその内容になる。そして「Agent のおつかい」は今どんな状態なのかを調べてみた。仕事で加盟店の立場でカード会社や PSP と手数料を交渉した経緯があって、エージェントに買い物をさせるという話が出てきたとき、興味が出たというのが今回の入り口。 MCP という規格は、すんなり業界に収まった印象がある。だが決済と...

東京リージョンのPaaSを作ってみました 2026年6月5日 19:10

東京リージョンのPaaSを作ってみました

Zennの「LLM」のフィード

著者: kamui-platform

2026年6月5日 19:10

デプロイ&ホストという手間を解消したい長年ソフトウェアエンジニアをやってきて、本業や副業での受託開発、個人開発含め様々なアプリやシステム開発をしてきました。その時にいつも困る、どこでホストするか問題。 AWSを使うのは少し手間、HerokuやRenderのようなPaaSでサクッとホストしたいのが本音。でも値上がり、リージョンの問題、コールドスタート問題など微妙にしっくりこない感じ。そこで、これを解決するPaaSを開発し、リリースしました！どういうサービス？ GitHub連携をするだけで簡単にアプリをデプロイ&ホストできる開発者向け（個人開発やスタートアップ...

システムプロンプト3万トークンのLLMに作業をさせてはいけない 2026年6月5日 19:03

システムプロンプト3万トークンのLLMに作業をさせてはいけない

Zennの「LLM」のフィード

著者: Echosphere

2026年6月5日 19:03

長い会話の途中で書かせたコードは、雑になる。 Claude Codeでもcursorでも、50往復したセッションでの出力と、/clearした直後の出力を比べれば誰でも分かる。何が起きているかは直感的には「モデルが疲れた」で片付けられがちだが、実際にはそうじゃない。 EMNLP 2025の論文[1]が示した結論はシンプルで、少し怖い。コンテキストが長いと、それだけで性能が落ちる。検索精度を完璧にしても。実験環境はQAタスクだが、示唆するメカニズムは汎用的——長さそのものがコスト。一回のセッションなら、まだ消せる。/clearすればいい。コンパクションを走らせてもいい。問題はペルソナ...

LLMの挙動を「認知・出力・対話」に分割して制御するプロンプト設計ログ 2026年6月5日 19:00

LLMの挙動を「認知・出力・対話」に分割して制御するプロンプト設計ログ

Zennの「LLM」のフィード

著者: Architect Hinaena

2026年6月5日 19:00

はじめに本記事は、LLMの出力挙動を安定させるために設計・調整してきたプロンプトの構造と、その思想的背景を整理したものである。目的は単なる性能向上ではなく、会話としての自然さの維持内部思考の構造化不確実性と誤推論の抑制長期対話における文脈安定化を同時に成立させる制御設計を作ることである。プロンプト本体（実運用版）以下が実際に使用しているプロンプト構造である [PURPOSE] Convert input into structured interpretation and compressed conversational output. [CORE] ...

「人間はコードを書かない・レビューもしない」を5ヶ月やった話──OpenAI Frontierの極限harness 2026年6月5日 18:47

「人間はコードを書かない・レビューもしない」を5ヶ月やった話──OpenAI Frontierの極限harness

Zennの「LLM」のフィード

著者: AIウォッチ

2026年6月5日 18:47

! 最先端AIを技術の中身まで日本語で読み解く「AIウォッチ」の深掘り記事です。題材は Latent Space の Ryan Lopopolo（OpenAI Frontier Product Exploration）インタビュー。一次情報を当たって書いています。これは harness シリーズの締めくくり。ここまでの記事（L0–L7 のラダー、OSS の選び方、Cloudflare の多エージェント脆弱性ハント）で繰り返してきた「主役はモデルじゃなく harness」という話。その極限がこれです。 OpenAI Frontier の Ryan Lopopolo が、3 人のチームで...

Snowflake App Runtime 入門 - プロンプトひとつでデータの隣に本格Webアプリをデプロイする！ 2026年6月5日 18:31

Snowflake App Runtime 入門 - プロンプトひとつでデータの隣に本格Webアプリをデプロイする！

Zennの「LLM」のフィード

著者: tsubasa

2026年6月5日 18:31

はじめに Snowflake Summit 2026 では、数多くの新機能が発表されました。その中で私が特に注目している機能のひとつが Snowflake App Runtime です。これまで、こんなもどかしさを感じたことはないでしょうか？データは Snowflake の中にきれいに整っているのに、それを見せる Web アプリは別の場所で動いているアプリを公開するために Docker やインフラ、認証基盤をいちいち用意しないといけない社内ツールを作りたいだけなのに、データをアプリ側にコピーする羽目になり、ガバナンスが効かなくなる Snowflake App Run...

Pi Agent SDKを触ったのでメモ的な感じで 2026年6月5日 18:22

Pi Agent SDKを触ったのでメモ的な感じで

Zennの「LLM」のフィード

著者: ひいらぎのぞみ

2026年6月5日 18:22

Pi SDK を触ってみたメモどうも。前から「AIエージェント作りたいなー」と思っていて、最近作り始めました。その際に一旦 Pi をコアに作ろうと思い、SDK を触ってみていたので、どんな感じだったかのメモを書いておきます。公式ドキュメントがあるので、基本的にはそこを見れば解決する話ではあります。 https://pi.dev/docs/latest/sdk インストールまずは @earendil-works/pi-coding-agent を import します。 ResourceLoader 最初に ResourceLoader が必要です。この中にエクステ...

AIが審判となることの社会への影響について 2026年6月5日 18:13

AIが審判となることの社会への影響について

Zennの「LLM」のフィード

著者: pdfractal

2026年6月5日 18:13

はじめに本稿でいう審判とは、最終的な真理の所有者ではなく、二者の主張を比較し、論点のずれや根拠の薄さや定義の混線を可視化する第三者機能を指します。近年の研究では、LLMによる裁定は人手評価の代替として有望な面を持ちつつ、なおバイアスと限界を抱えることが確認されています。この問題が重要なのは、社会の多くの現場に高信頼の知者が常駐していないからです。世界司法プロジェクトは、世界で約50億人が未充足の司法ニーズを抱えていると推計しており、日常的な紛争や説明責任の場で、まともな第三者が不在であることは例外ではなく常態に近いと示しています。つまり比較対象は理想の名審判ではなく、しば...

Amazon BedrockでOpenAI GPT5.5とGPT5.4がサポートされたので試してみた 2026年6月5日 17:45

Amazon BedrockでOpenAI GPT5.5とGPT5.4がサポートされたので試してみた

Zennの「LLM」のフィード

著者: xthixsl_ml@レオナ

2026年6月5日 17:45

はじめに Fusicのレオナです。 2026年6月に、OpenAIのGPT-5.5、GPT-5.4がAmazon Bedrockで一般提供されました。これまでBedrockで利用できるOpenAI系のモデルは、gpt-ossのオープンウェイトモデルが中心でした。今回、OpenAIのフロンティアモデルをBedrock経由で直接呼び出せるようになったので、AWS上で生成AIアプリケーションを構築している人にとってはかなり大きいアップデートだと思います。 Bedrock経由で使えるメリットは、既存のAWS環境に組み込みやすいことです。IAMやCloudTrailなどのセキュリティ・監査の...

Claude Code の脇に置いて使う小さな道具 3 つ — 安価な LLM へ読解・レビュー・チェックを逃がす 2026年6月5日 13:43

Claude Code の脇に置いて使う小さな道具 3 つ — 安価な LLM へ読解・レビュー・チェックを逃がす

Zennの「LLM」のフィード

著者: K. NISHIMURA

2026年6月5日 13:43

はじめに Claude Code を毎日使っていると、コンテキスト枠と API コストの両方が気になってくることはありませんか。私は気になりまして、「重い読解やレビューは安価な LLM に逃がして、結果だけ受け取れたら楽だな」と思って、小さな道具を 3 つ書いてみました。 code-aide — Claude Code の補佐。コード読解・レビュー・差分提案を委譲する MCP。 write-aide — ライティング案件の最終チェック・ファクトチェック MCP。code-aide の姉妹。 kinako-chat — 別ターミナルで動かす、雑談 + cwd 内の読解ができる...

Hermes Agentに見るAIエージェントの「学習」の仕組み 2026年6月5日 13:16

Hermes Agentに見るAIエージェントの「学習」の仕組み

Zennの「LLM」のフィード

著者: のぶさん

2026年6月5日 13:16

はじめに AIエージェントの文脈で「学習する」という言葉がよく使われます。ただし、多くの場合それは LLM本体の重みを更新するという意味ではありません。実運用上のエージェントでは、次のような仕組みによって「前回よりうまく動く」状態を作ります。ユーザーの好みを記憶するよく使う作業手順をスキル化する過去の会話を検索できるようにする長い会話を要約して作業文脈を維持する実行ログを訓練データや評価データとして保存するこの仕組みを理解する題材として、Nous Research の Hermes Agent はかなり良い教材です。 Hermes は公式 README で sel...

画像エンコーダーを丸ごと捨てる：Gemma 4 12B「エンコーダー不要マルチモーダル」を分解する 2026年6月5日 13:09

画像エンコーダーを丸ごと捨てる：Gemma 4 12B「エンコーダー不要マルチモーダル」を分解する

Zennの「LLM」のフィード

著者: 中村啓

2026年6月5日 13:09

エンコーダーを捨てるという選択マルチモーダルモデルの作り方が、静かに一段変わりました。これまで画像や音声を扱うモデルは、ほぼ例外なく「専用エンコーダー」を前段に置いてきました。画像なら CLIP や SigLIP のような視覚エンコーダー、音声なら音声エンコーダーで信号を一度「意味のあるベクトル」に変換し、それを言語モデル（LLM）につなぐ。これがここ数年の定番構成でした。 2026年6月3日に Google DeepMind が公開した Gemma 4 12B は、その前段のエンコーダーを丸ごと捨てています。画像も音声も、生の信号をほぼそのまま LLM 本体へ投影してしまう。結...

104kスターのKarpathy CLAUDE.mdを試したら、手元に既にあった話——グローバルCLAUDE.mdで全PJ適用済みの実態 2026年6月5日 13:04

104kスターのKarpathy CLAUDE.mdを試したら、手元に既にあった話——グローバルCLAUDE.mdで全PJ適用済みの実態

Zennの「LLM」のフィード

著者: K.D

2026年6月5日 13:04

104kスターのKarpathy CLAUDE.mdを試したら、手元に既にあった話——グローバルCLAUDE.mdで全PJ適用済みの実態はじめに Andrej Karpathy氏が公開した CLAUDE.md テンプレートがGitHubで伸びていて、タイムラインでも「入れた方がいい」「エラーが減った」という声をよく見るようになりました。筆者も「コピペしようかな」と眺めていたのですが、よく読むと書かれている原則のほとんどが、すでに自分のグローバル ~/.claude/CLAUDE.md に実装されていたことに気づきました。この記事では、Karpathy系で語られている原則／グロ...

Claude Skills（SKILL.md）設計「6法則」と自分の環境を照合したら、2点で先を行っていた話 2026年6月5日 13:04

Claude Skills（SKILL.md）設計「6法則」と自分の環境を照合したら、2点で先を行っていた話

Zennの「LLM」のフィード

著者: K.D

2026年6月5日 13:04

Claude Skills（SKILL.md）設計「6法則」と自分の環境を照合したら、2点で先を行っていた話はじめに先日、Claude Code の Skills を100個リバースエンジニアリングした分析記事が流れてきた。「動くSkillsと動かないSkillsを分ける6つの設計法則」というもので、Erik Schluntz（Anthropic）の「Vibe Coding in Prod」とも関連付けられた内容だった。読んでいて気になったのは「これ、自分の環境にどこまで取り込まれているか？」という点だ。今回はその照合結果と、逆に外部分析より先に自分の環境が実装していたこと...