一份面向 AI Agent 自进化研究与实践的开放 Survey:帮你判断一个系统是真能从反馈中改进,还是只是在 demo 里看起来聪明。
中文主入口 | 英文版 | 在线网站 | 论文 PDF | Evolve-AGI Index | 项目报告
GitHub Topics: agent-evolution, self-evolving-agents, self-evolution, self-improvement, ai-agent, llm-agent, agent-swarm, memory-system, skill-library, harness-engineering, benchmark.
GitHub topic 收录证据(2026-06-05):GitHub Topic Indexing Readiness 已验证远端 topics、GitHub Search 和 topic 页面均返回本仓库;如果网页 topic 页短暂滞后,按 GitHub search/API 作为更新鲜证据。
想判断一个 AI Agent 是不是“真自进化”,先问五件事:改了什么、为什么改、谁验证、是否保留、能否回滚。
- 这份 Survey 不先堆链接,而是先给判断表:一个系统到底改变了 prompt、memory、workflow、code、weights,还是只换了说法。
- 读项目时不要先看名字、stars 或 demo;先看它有没有 Observe -> Interpret -> Modify -> Verify -> Retain 的闭环。
- Evolve-AGI Index 目前只是工作型证据指数原型,用来提示 benchmark、闭环、迁移、治理这些证据是否足够,不是 AGI 分数,也不是单个项目判决。
- 这不是普通 Awesome List,而是一份围绕“AI Agent 如何可靠地改进自己”的开放 Survey。
- 在本 Survey 的严格口径下,自进化系统需要说明可变对象、反馈信号、更新算子、独立评估器、保留机制和回滚路径。
- 当前读者最容易复查的机制骨架是五类进化回路:规范到执行、搜索、评估器、反思/记忆、种群/归档。
- Evolve-AGI Index 把 benchmark、闭环、证据、迁移、可运行性、动量和治理放在一张可讨论的表里,但权重仍是 editorial/proposed,还需要外部验证和敏感性分析。
- 读者可以从这里快速进入定义、五类回路、代码自改进 benchmark、项目 model card、公开报告和论文,而不是被几百个链接淹没。
| 读者 | 你会得到什么 |
|---|---|
| 研究者 | 一套从分类、方法、系统、评估到未来路线图的 Survey 主线。 |
| 工程师 | 判断一个 agent 项目是否具备可验证反馈、可审计记忆、评估框架和回滚能力。 |
| 产品/投资/行业读者 | 区分真实能力积累、刷榜、演示热度和治理成熟度。 |
| 内容/教育读者 | 获得带证据入口的选题地图:项目、论文、趋势、痛点、图谱和长尾主题页面。 |
| 你是谁 | 先读什么 | 你能带走什么 |
|---|---|---|
| 第一次来 | 什么才算自进化 AI Agent | 一张判断表:改了什么、谁验证、如何保留、能否回滚。 |
| 想理解机制 | 五类进化回路 | 把规范到执行、搜索、评估器、反思/记忆、种群/归档分开看。 |
| 想比较项目 | 代码自我改进 Benchmark Matrix 和 项目报告 | 不被 star 或 demo 带偏,先看 evaluator、archive、lineage 和限制。 |
| 想查趋势 | 2026 Star 抓取试点 和 Value LSH 证据分诊 | 区分历史热度、当前动量、启发式分诊和证据修复队列。 |
英文读者现在可以从 /en/ 进入定义、五类回路、代码 benchmark、项目证据、报告状态、Value LSH、资料库覆盖、Survey 快照、研究图谱、证据图、增长试点、Evolve-AGI worksheet、论文和博客导读。长尾文章正文和许多 report 页仍是中文优先或 source-tracing 页面,因此不宣称完整翻译 parity。
flowchart LR
RAW["原始证据<br/>GitHub / 论文 / 博客 / 社交"] --> PROC["加工证据<br/>分析 / 研究 / 项目"]
PROC --> SURVEY["Survey 综合<br/>五类进化回路 + 痛点 + benchmark"]
SURVEY --> SPARK["核心洞察<br/>受控自进化"]
SPARK --> EAI["Evolve-AGI Index<br/>证据加权估计"]
EAI --> PAPER["论文核心<br/>论点 + 贡献 + 路线图"]
SURVEY --> SITE["网站 + 图谱 + 报告"]
本轮是新的 hourly public metadata 修复包,不再沿用 2026-06-18 08:33 +0800 的上一个 authenticated packet 作为唯一前台口径。抓取链路本身是可用的,但仍按“先重试 live GitHub API,失败时明确回退到上一个 authenticated packet”的规则更新,避免伪造 freshness。
| 仓库 | 这轮状态 | 为什么重要 | 证据状态 |
|---|---|---|---|
| china-qijizhifeng/agentic-Harness-engineering | Relative to the previous authenticated packet at 2026-06-18 08:33 +0800: stars 586 -> 587; updatedAt 2026-06-17T22:42:17Z -> 2026-06-18T05:57:41Z. | 它是“harness 本身可进化”的最直接锚点。 | [KNOWN] Authenticated GitHub API;未做本地运行/benchmark 复核。 |
| NousResearch/hermes-agent | Relative to the previous authenticated packet at 2026-06-18 08:33 +0800: stars 196,193 -> 196,402; forks 34,528 -> 34,599; issues 7,113 -> 7,155; PRs 14,525 -> 14,601; commits 11,937 -> 11,960; pushedAt 2026-06-18T00:33:34Z -> 2026-06-18T06:23:58Z; updatedAt 2026-06-18T00:33:41Z -> 2026-06-18T06:36:50Z. | 它回答“可用产品型 agent 长什么样”这个核心问题。 | [KNOWN] Authenticated GitHub API;未做本地运行/benchmark 复核。 |
| stanford-iris-lab/meta-harness | Relative to the previous authenticated packet at 2026-06-18 08:33 +0800: stars 1,111 -> 1,114; updatedAt 2026-06-17T23:02:05Z -> 2026-06-18T04:37:56Z. | 它是 outer-loop harness search 的最干净参考样本。 | [KNOWN] Authenticated GitHub API;未做本地运行/benchmark 复核。 |
| rohitg00/agentmemory | Relative to the previous authenticated packet at 2026-06-18 08:33 +0800: stars 23,263 -> 23,298; forks 1,911 -> 1,914; updatedAt 2026-06-18T00:26:09Z -> 2026-06-18T06:19:19Z. | 它回答“长期记忆如何跨 Codex / Claude Code / Hermes / OpenClaw 持续积累”。 | [KNOWN] Authenticated GitHub API;未做本地运行/benchmark 复核。 |
| pinchbench/skill | Relative to the previous authenticated packet at 2026-06-18 08:33 +0800: stars 1,240 -> 1,241; updatedAt 2026-06-17T19:25:46Z -> 2026-06-18T02:36:26Z. | 它是 skill、memory、benchmark 三条线交叉的 evaluator substrate。 | [KNOWN] Authenticated GitHub API;未做本地运行/benchmark 复核。 |
| lsdefine/GenericAgent | Relative to the previous authenticated packet at 2026-06-18 08:33 +0800: stars 12,939 -> 12,944; forks 1,497 -> 1,499; issues 83 -> 85; PRs 62 -> 61; commits 869 -> 871; pushedAt 2026-06-17T17:02:31Z -> 2026-06-18T06:26:09Z; updatedAt 2026-06-17T23:19:13Z -> 2026-06-18T06:26:18Z. | 它是“不要预装技能,而是让技能树生长”的 self-evolving 极简路线。 | [KNOWN] Authenticated GitHub API;未做本地运行/benchmark 复核。 |
| openclaw/openclaw | Relative to the previous authenticated packet at 2026-06-18 08:33 +0800: stars 379,223 -> 379,285; forks 79,378 -> 79,403; issues 3,323 -> 3,313; PRs 3,147 -> 3,190; commits 59,899 -> 59,995; pushedAt 2026-06-18T00:33:16Z -> 2026-06-18T06:36:30Z; updatedAt 2026-06-18T00:27:58Z -> 2026-06-18T06:36:11Z. | 它是“agent 是否真的能给人用”的产品运行时锚点。 | [KNOWN] Authenticated GitHub API;未做本地运行/benchmark 复核。 |
| obra/superpowers | Relative to the previous authenticated packet at 2026-06-18 08:33 +0800: stars 231,049 -> 231,445; forks 20,541 -> 20,570; issues 122 -> 125; PRs 141 -> 142; updatedAt 2026-06-18T00:33:46Z -> 2026-06-18T06:36:20Z. | 它把可复用技能和工程方法论这条线接进了自进化公开证据链。 | [KNOWN] Authenticated GitHub API;未做本地运行/benchmark 复核。 |
| EvoMap/awesome-agent-evolution | No public metadata delta was observed relative to the previous authenticated packet at 2026-06-18 08:33 +0800. | 它帮助我们检查公开叙事是否比普通 awesome list 更有证据密度。 | [KNOWN] Authenticated GitHub API;未做本地运行/benchmark 复核。 |
| uid4oe/insight-swarm | No public metadata delta was observed relative to the previous authenticated packet at 2026-06-18 08:33 +0800. | 它是“shared knowledge graph 替代中心 orchestrator”的 swarm 概念锚点。 | [KNOWN] Authenticated GitHub API;未做本地运行/benchmark 复核。 |
| desplega-ai/agent-swarm | Relative to the previous authenticated packet at 2026-06-18 08:33 +0800: PRs 4 -> 6; pushedAt 2026-06-17T22:00:05Z -> 2026-06-18T02:28:29Z. | 它把用户要求的 agent-swarm 主线补进了公开证据链。 | [KNOWN] Authenticated GitHub API;未做本地运行/benchmark 复核。 |
GitNexus 证据链本轮可用但有边界:node .gitnexus/run.cjs status 和带 -r awesome-evolution-workspace-cleanup 的 query 都能工作,并把小时更新链路指回历史脚本里的 renderGraphJson、renderGraphMd、renderRunNote 等节点;但索引状态仍然是 stale,所以本轮把它作为关系证据,不把它当作“已经最新”的索引结论。
一句话:本项目的核心洞察,是把 Self-Evolving AI Agents 从“自我改进的故事”变成“可审计的改进系统”。
三句话:一个系统只有在反馈中改变自己的 prompt、memory、tool policy、workflow、code、weights 或 population,并且保留可验证证据时,才进入自进化范围。Survey 背后的全部资源现在按同一个问题重排:哪个对象在变,什么信号驱动它变,谁阻止它变坏。Evolve-AGI Index 是这次重排后的工作型证据表,用来暴露 benchmark、闭环、迁移和治理证据是否足够,而不是给领域下最终分数。
五句话展开:
- 过去读者需要在链接、star 热度、论文列表和网站材料之间自行判断;现在先看到结论,再进入证据。
- Survey 不是“论文综述合集”,而是把论文、项目、benchmark、社交/博客信号和用户痛点互相校验。
- 关键判断不再是“项目名字里有没有 evolution”,而是“系统是否形成 Observe -> Interpret -> Modify -> Verify -> Retain 的闭环”。
- Evolve-AGI Index 不只是网站模块,而是一个方法原型:把不同证据摆到同一张可审查的表里,同时暴露权重、口径和验证缺口。
- 对外读者看到的每个核心判断都应该能回到论文、项目报告、数据索引或 benchmark 证据;没有证据链的结论标记为
[UNVERIFIED]。
| 序号 | Survey 结论 | 对读者的意义 | 证据入口 |
|---|---|---|---|
| 1 | 自进化是受控系统过程,不是 demo 标签。 | 读任何项目先问“改了什么、谁验证、怎么回滚”。 | paper abstract, ch1 intro |
| 2 | Benchmark 是选择压力,也是风险源。 | 分数提高不等于能力积累;要看隐藏测试、迁移、成本、失败候选。 | ch5 evaluation, survey ch5 |
| 3 | 记忆、技能、评估框架是核心基础设施。 | 不要只看模型层;可审计记忆、可安装技能和评估器才决定长期可用性。 | ch7 painpoints, agent-swarm evolve |
| 4 | 五类进化回路比项目名更稳定。 | 新项目可以按机制归类,而不是被营销词牵着走。 | survey methods, method taxonomy |
| 5 | Evolve-AGI Index 只能作为工作型证据表。 | 它把 benchmark、闭环、证据、迁移、可运行、动量、治理七个信号拆开看,不能当领域标准。 | Evolve-AGI Index, trend snapshot |
| 6 | 用户真正关心信任边界。 | 产品价值来自可靠、透明、可控、低成本,不来自“更自主”的口号。 | survey ch7, site survey |
| 7 | 失败候选和负结果是资产。 | 没有被拒补丁、回归记录和 lineage,无法判断系统是否真的会进化。 | ch8 future, survey spark analysis |
一句话:Evolve-AGI Index 是本 Survey 的工作型证据指数原型,用来检查这个领域的证据成熟度,不是 AGI 终局能力评分,也不是单个项目的最终排名。
EAI = Σ(signal_score × signal_weight)
| 信号 | 权重 | 为什么进入核心 |
|---|---|---|
| Benchmark 表现 | 18% | 自进化必须接受实测;但 benchmark 不能单独决定成熟度。 |
| 闭环强度 | 20% | 没有可变对象、反馈、选择和保留机制,就没有自进化。 |
| 证据链可信度 | 18% | 原始材料、分析、model card 和论文附录必须互相能追溯。 |
| 迁移与验证 | 14% | 只在一个公开测试上涨分,不能证明能力积累。 |
| 实现可获得性 | 12% | 能运行、能复用、能审计,才有工程价值。 |
| 领域动量 | 10% | 新项目和社区动量是趋势信号,但不能覆盖证据质量。 |
| 治理准备度 | 8% | 自修改系统必须有安全边界、日志、回滚和时间戳信心。 |
权重是当前 Survey 的 editorial/proposed weights,用来把不同证据放在同一张可讨论的表里;它们还不是经同行验证的领域标准,也没有完成敏感性分析或置信区间估计。
**Data Snapshot / 数据快照:**Evolve-AGI trend 使用的是 2026-06-01 趋势输入快照:93 个 strict evolution repos、200 个 broad evolution repos、239 条 trend public-report records。仓库治理和网站覆盖使用 docs/indexes/master-index.md 的最新生成口径:684 个 classified GitHub repositories、292 个 analyzed project/model-card reports、99 个 strict evolution repos、205 个 broad evolution repos、490 个 public project report files。两个口径不能混用:前者服务指数趋势,后者服务仓库覆盖审计;public project reports 当前是 indexable evidence pages,但不等于逐篇文案审查完成。
| 层级 | 当前角色 | 关键证据 |
|---|---|---|
| 原始证据 | 保留 GitHub、论文、博客、社交素材,作为判断起点。 | raw index, raw-github/, raw-papers/, raw-social/, raw-blogs/ |
| 加工分析 | 把素材转成分类、机制、model card、paper review、证据队列和 Evolve-AGI Index。 | processed index, GitHub analysis, projects index |
| Survey 论文 | 把机制、系统、评估、工业实践、痛点和未来方向写成论文结构。 | survey CN chapters, paper drafts, survey latex |
| 公开结果 | 发布 PDF、网站、报告、图谱、趋势快照和主题页面。 | results index, site, reports |
| 证据目录 | 给读者检查证据链、索引和公开结果的入口。 | CONTENT_INDEX.md, master index |
flowchart TB
Q["核心问题<br/>严格口径下什么算自进化?"] --> A["资源重组<br/>原始证据 -> 加工分析 -> Survey -> 公开结果"]
A --> B["机制框架<br/>Five Evolution Loops"]
A --> C["证据框架<br/>trust chain + model card"]
A --> D["测量框架<br/>Evolve-AGI Index"]
B --> P["论文核心"]
C --> P
D --> P
P --> R["README / 网站 / PDF / 主题页"]
| 章节 | Survey 成果 | 当前入口 |
|---|---|---|
| Ch1 Introduction | 定义 self-evolution,并把 Evolve-AGI Index 作为 evidence-to-index 方法原型纳入讨论。 | paper-drafts/ch1-intro.tex |
| Ch2 Taxonomy | 区分 continual learning、online learning、self-supervision、AutoML、RL 和严格口径下的 self-evolution。 | paper-drafts/ch2-taxonomy.tex |
| Ch3 Methods | 按五类 loops 分析 feedback 如何变成 retained change。 | paper-drafts/ch3-methods.tex |
| Ch4 Systems | 比较 Self-Refine、Reflexion、ADAS、DGM、AlphaEvolve、Absolute Zero 等代表系统。 | paper-drafts/ch4-evolutionary.tex |
| Ch5 Evaluation | 把 benchmark、trajectory、transfer、cost、regression 和 Goodhart 风险放在同一评估面。 | paper-drafts/ch5-evaluation.tex |
| Ch6 Frameworks | 讨论 runtime、memory、harness、workflow、tool sandbox 和 reference architecture。 | paper-drafts/ch6-frameworks.tex |
| Ch7 Pain Points | 用真实用户痛点校验研究问题:可靠性、成本、可观测性、权限、记忆污染。 | paper-drafts/ch7-painpoints.tex |
| Ch8 Future | 讨论如何把 Evolve-AGI Index 从工作型证据表升级为更严格的 field knowledge data model。 | paper-drafts/ch8-future.tex |
| 你想知道 | 先读 | 再读 |
|---|---|---|
| 这个领域一句话是什么 | 本 README 的 核心洞察 | paper abstract |
| 什么才算严格口径下的自进化 | 定义主题页 | definition criteria, ch1 intro |
| 自进化到底怎么发生 | 五类进化回路 | five-loop analysis, survey mechanisms |
| 哪些系统真的会改代码 | 代码自我改进 Benchmark Matrix | code benchmark matrix, benchmark page |
| 什么项目真的算自进化 | 核心结论 | projects/INDEX.md, analysis/github-project-data-analysis.md |
| 哪些项目在 2026 年正在增长 | 公开增长试点账本 | GitHub star growth analysis, data-engine schema |
| 哪些素材最值得先深挖 | Value LSH 证据分诊队列 | value LSH index, evidence repair queue |
| 论文现在怎么组织 | 论文主线 | paper-drafts/main.tex, survey/latex/main.tex |
| 哪些图支撑 Survey/Paper | 论文图谱页 和 可视化页 | survey figures, paper figure exporter, paper figure assets |
| Evolve-AGI Index 的边界是什么 | Evolve-AGI Index 进入论文核心 | analysis/evolve-agi-index.md, 网站页面 |
| 全量文件在哪里 | CONTENT_INDEX.md | docs/indexes/master-index.md |
| 网站和主题页面在哪里 | site | site survey page, graph page |
- [KNOWN] 全仓库治理计数来自 docs/indexes/master-index.md,由
node scripts/generate_project_indexes.mjs生成。 - [KNOWN] GitHub 语料、strict/broad evolution 子集和时间切片来自 analysis/github-project-data-analysis.md 与对应 JSON。
- [KNOWN] GitHub star-growth 试点账本来自 data-engine/github-star-history/、analysis/github-star-growth-ranking.md 和公开页面 star-growth;累计 Star 只作为 adoption prior,正式 2026 增长判断必须要求
complete_or_near_complete覆盖。 - [KNOWN] Value LSH 证据分诊图谱来自 analysis/value-lsh-index.md、data-engine/value-lsh-index/ 和公开页面 value-lsh;它是深挖优先级和证据修复队列,不是最终价值判决。
- [KNOWN] 资料库覆盖、计数口径和当前缺口来自 analysis/resource-library-coverage-audit.md;最新 raw/classified/model-card/public-report 计数以 docs/indexes/master-index.md 和 analysis/github-project-data-analysis.md 为准。
- [KNOWN] Evolve-AGI Index 方法、权重和 benchmark 输入来自 analysis/evolve-agi-index.md、site/src/data/evolveAgiIndex.ts 和 reports/evolve-agi-index-trend.json。
- [KNOWN] Survey 章节和论文主稿来自 paper-drafts/main.tex 与 survey/latex/main.tex。
- [KNOWN] GitHub topic 发现状态来自 reports/github-topic-indexing-readiness.md:远端
agent-evolutiontopic、仓库 description/homepage、GitHub Search 和 topic 页面渲染都已验证;网页展示延迟不能等同于 metadata 未生效。 - [KNOWN] 全仓库文字资产是否真的变成 Google 可索引资产,以 reports/text-asset-indexability.md 为覆盖审计;它区分 public HTML、GitHub README、processed-but-unrouted、raw-do-not-publish 和 external mirrors。
- [KNOWN] 公开 I18N 路由状态由 reports/public-i18n-route-audit.md 审计;它区分核心英文读者路径和仍缺少英文 alternate 的中文优先长尾页面。
- [KNOWN] Google/SEO 发布状态要同时看本地 sitemap/meta 审计和 live crawl 前提;当前 live readiness 证据在 reports/live-publication-readiness.md,它明确区分“生成站点可索引”和“自定义域名严格 HTTPS 可抓取”。
- [KNOWN] Search Console 的“网页会自动重定向”由 reports/google-redirect-indexability.md 分诊:sitemap/canonical 最终 URL 不应重定向,
http、www、无尾斜杠和旧 GitHub Pages URL 则是应被合并的非规范入口。 - [INFERRED] “核心洞察”是对上述证据的综合判断:把 Awesome 仓库升级为受控自进化领域的 Survey、指数和证据图谱,而不是一个单纯链接站。
| 目标 | 推荐入口 |
|---|---|
| 快速理解领域 | 先读本 README 的核心结论和 Evolve-AGI Index。 |
| 深入阅读论文 | 打开 paper-drafts/main.pdf 或 paper page。 |
| 查项目证据 | 使用 projects/INDEX.md 和 public project reports。 |
| 查数据范围 | 先看 资料库覆盖页,再查 analysis/resource-library-coverage-audit.md、docs/indexes/master-index.md 和 analysis/github-project-data-analysis.md。 |
| 按问题找主题 | 打开 主题指南,从定义、五类回路、代码自改进、Agent-Swarm、评估治理和生产痛点进入证据。 |
| 浏览网站 | 打开 Self Evolve site 或本仓库的 site source。 |
@misc{awesomeSelfEvolvingAgents2026,
title = {Awesome Self-Evolving AI Agents: Survey, Evidence Graph, and Evolve-AGI Index},
author = {aha team},
year = {2026},
howpublished = {\url{https://github.com/shiyao-huang/awesome-agent-evolution}},
note = {Open survey repository for self-evolving AI agents, benchmark evidence, project model cards, and field maturity indexing.}
}一句话:本项目的核心洞察,是把 Self-Evolving AI Agents 从“自我改进的故事”变成“可审计的改进系统”。
三句话:一个系统只有在反馈中改变自己的 prompt、memory、tool policy、workflow、code、weights 或 population,并且保留可验证证据时,才进入自进化范围。Survey 背后的全部资源现在按同一个问题重排:哪个对象在变,什么信号驱动它变,谁阻止它变坏。Evolve-AGI Index 是这次重排后的工作型证据表,用来暴露 benchmark、闭环、迁移和治理证据是否足够,而不是给领域下最终分数。
五句话展开:
- 过去读者需要在链接、star 热度、论文列表和网站材料之间自行判断;现在先看到结论,再进入证据。
- Survey 不是“论文综述合集”,而是把论文、项目、benchmark、社交/博客信号和用户痛点互相校验。
- 关键判断不再是“项目名字里有没有 evolution”,而是“系统是否形成 Observe -> Interpret -> Modify -> Verify -> Retain 的闭环”。
- Evolve-AGI Index 不只是网站模块,而是一个方法原型:把不同证据摆到同一张可审查的表里,同时暴露权重、口径和验证缺口。
- 对外读者看到的每个核心判断都应该能回到论文、项目报告、数据索引或 benchmark 证据;没有证据链的结论标记为
[UNVERIFIED]。
| 序号 | Survey 结论 | 对读者的意义 | 证据入口 |
|---|---|---|---|
| 1 | 自进化是受控系统过程,不是 demo 标签。 | 读任何项目先问“改了什么、谁验证、怎么回滚”。 | paper abstract, ch1 intro |
| 2 | Benchmark 是选择压力,也是风险源。 | 分数提高不等于能力积累;要看隐藏测试、迁移、成本、失败候选。 | ch5 evaluation, survey ch5 |
| 3 | 记忆、技能、评估框架是核心基础设施。 | 不要只看模型层;可审计记忆、可安装技能和评估器才决定长期可用性。 | ch7 painpoints, agent-swarm evolve |
| 4 | 五类进化回路比项目名更稳定。 | 新项目可以按机制归类,而不是被营销词牵着走。 | survey methods, method taxonomy |
| 5 | Evolve-AGI Index 只能作为工作型证据表。 | 它把 benchmark、闭环、证据、迁移、可运行、动量、治理七个信号拆开看,不能当领域标准。 | Evolve-AGI Index, trend snapshot |
| 6 | 用户真正关心信任边界。 | 产品价值来自可靠、透明、可控、低成本,不来自“更自主”的口号。 | survey ch7, site survey |
| 7 | 失败候选和负结果是资产。 | 没有被拒补丁、回归记录和 lineage,无法判断系统是否真的会进化。 | ch8 future, survey spark analysis |
一句话:Evolve-AGI Index 是本 Survey 的工作型证据指数原型,用来检查这个领域的证据成熟度,不是 AGI 终局能力评分,也不是单个项目的最终排名。
EAI = Σ(signal_score × signal_weight)
| 信号 | 权重 | 为什么进入核心 |
|---|---|---|
| Benchmark 表现 | 18% | 自进化必须接受实测;但 benchmark 不能单独决定成熟度。 |
| 闭环强度 | 20% | 没有可变对象、反馈、选择和保留机制,就没有自进化。 |
| 证据链可信度 | 18% | 原始材料、分析、model card 和论文附录必须互相能追溯。 |
| 迁移与验证 | 14% | 只在一个公开测试上涨分,不能证明能力积累。 |
| 实现可获得性 | 12% | 能运行、能复用、能审计,才有工程价值。 |
| 领域动量 | 10% | 新项目和社区动量是趋势信号,但不能覆盖证据质量。 |
| 治理准备度 | 8% | 自修改系统必须有安全边界、日志、回滚和时间戳信心。 |
权重是当前 Survey 的 editorial/proposed weights,用来把不同证据放在同一张可讨论的表里;它们还不是经同行验证的领域标准,也没有完成敏感性分析或置信区间估计。
**Data Snapshot / 数据快照:**Evolve-AGI trend 使用的是 2026-06-01 趋势输入快照:93 个 strict evolution repos、200 个 broad evolution repos、239 条 trend public-report records。仓库治理和网站覆盖使用 docs/indexes/master-index.md 的最新生成口径:684 个 classified GitHub repositories、292 个 analyzed project/model-card reports、99 个 strict evolution repos、205 个 broad evolution repos、490 个 public project report files。两个口径不能混用:前者服务指数趋势,后者服务仓库覆盖审计;public project reports 当前是 indexable evidence pages,但不等于逐篇文案审查完成。
| 层级 | 当前角色 | 关键证据 |
|---|---|---|
| 原始证据 | 保留 GitHub、论文、博客、社交素材,作为判断起点。 | raw index, raw-github/, raw-papers/, raw-social/, raw-blogs/ |
| 加工分析 | 把素材转成分类、机制、model card、paper review、证据队列和 Evolve-AGI Index。 | processed index, GitHub analysis, projects index |
| Survey 论文 | 把机制、系统、评估、工业实践、痛点和未来方向写成论文结构。 | survey CN chapters, paper drafts, survey latex |
| 公开结果 | 发布 PDF、网站、报告、图谱、趋势快照和主题页面。 | results index, site, reports |
| 证据目录 | 给读者检查证据链、索引和公开结果的入口。 | CONTENT_INDEX.md, master index |
flowchart TB
Q["核心问题<br/>严格口径下什么算自进化?"] --> A["资源重组<br/>原始证据 -> 加工分析 -> Survey -> 公开结果"]
A --> B["机制框架<br/>Five Evolution Loops"]
A --> C["证据框架<br/>trust chain + model card"]
A --> D["测量框架<br/>Evolve-AGI Index"]
B --> P["论文核心"]
C --> P
D --> P
P --> R["README / 网站 / PDF / 主题页"]
| 章节 | Survey 成果 | 当前入口 |
|---|---|---|
| Ch1 Introduction | 定义 self-evolution,并把 Evolve-AGI Index 作为 evidence-to-index 方法原型纳入讨论。 | paper-drafts/ch1-intro.tex |
| Ch2 Taxonomy | 区分 continual learning、online learning、self-supervision、AutoML、RL 和严格口径下的 self-evolution。 | paper-drafts/ch2-taxonomy.tex |
| Ch3 Methods | 按五类 loops 分析 feedback 如何变成 retained change。 | paper-drafts/ch3-methods.tex |
| Ch4 Systems | 比较 Self-Refine、Reflexion、ADAS、DGM、AlphaEvolve、Absolute Zero 等代表系统。 | paper-drafts/ch4-evolutionary.tex |
| Ch5 Evaluation | 把 benchmark、trajectory、transfer、cost、regression 和 Goodhart 风险放在同一评估面。 | paper-drafts/ch5-evaluation.tex |
| Ch6 Frameworks | 讨论 runtime、memory、harness、workflow、tool sandbox 和 reference architecture。 | paper-drafts/ch6-frameworks.tex |
| Ch7 Pain Points | 用真实用户痛点校验研究问题:可靠性、成本、可观测性、权限、记忆污染。 | paper-drafts/ch7-painpoints.tex |
| Ch8 Future | 讨论如何把 Evolve-AGI Index 从工作型证据表升级为更严格的 field knowledge data model。 | paper-drafts/ch8-future.tex |
| 你想知道 | 先读 | 再读 |
|---|---|---|
| 这个领域一句话是什么 | 本 README 的 核心洞察 | paper abstract |
| 什么才算严格口径下的自进化 | 定义主题页 | definition criteria, ch1 intro |
| 自进化到底怎么发生 | 五类进化回路 | five-loop analysis, survey mechanisms |
| 哪些系统真的会改代码 | 代码自我改进 Benchmark Matrix | code benchmark matrix, benchmark page |
| 什么项目真的算自进化 | 核心结论 | projects/INDEX.md, analysis/github-project-data-analysis.md |
| 哪些项目在 2026 年正在增长 | 公开增长试点账本 | GitHub star growth analysis, data-engine schema |
| 哪些素材最值得先深挖 | Value LSH 证据分诊队列 | value LSH index, evidence repair queue |
| 论文现在怎么组织 | 论文主线 | paper-drafts/main.tex, survey/latex/main.tex |
| 哪些图支撑 Survey/Paper | 论文图谱页 和 可视化页 | survey figures, paper figure exporter, paper figure assets |
| Evolve-AGI Index 的边界是什么 | Evolve-AGI Index 进入论文核心 | analysis/evolve-agi-index.md, 网站页面 |
| 全量文件在哪里 | CONTENT_INDEX.md | docs/indexes/master-index.md |
| 网站和主题页面在哪里 | site | site survey page, graph page |
- [KNOWN] 全仓库治理计数来自 docs/indexes/master-index.md,由
node scripts/generate_project_indexes.mjs生成。 - [KNOWN] GitHub 语料、strict/broad evolution 子集和时间切片来自 analysis/github-project-data-analysis.md 与对应 JSON。
- [KNOWN] GitHub star-growth 试点账本来自 data-engine/github-star-history/、analysis/github-star-growth-ranking.md 和公开页面 star-growth;累计 Star 只作为 adoption prior,正式 2026 增长判断必须要求
complete_or_near_complete覆盖。 - [KNOWN] Value LSH 证据分诊图谱来自 analysis/value-lsh-index.md、data-engine/value-lsh-index/ 和公开页面 value-lsh;它是深挖优先级和证据修复队列,不是最终价值判决。
- [KNOWN] 资料库覆盖、计数口径和当前缺口来自 analysis/resource-library-coverage-audit.md;最新 raw/classified/model-card/public-report 计数以 docs/indexes/master-index.md 和 analysis/github-project-data-analysis.md 为准。
- [KNOWN] Evolve-AGI Index 方法、权重和 benchmark 输入来自 analysis/evolve-agi-index.md、site/src/data/evolveAgiIndex.ts 和 reports/evolve-agi-index-trend.json。
- [KNOWN] Survey 章节和论文主稿来自 paper-drafts/main.tex 与 survey/latex/main.tex。
- [KNOWN] GitHub topic 发现状态来自 reports/github-topic-indexing-readiness.md:远端
agent-evolutiontopic、仓库 description/homepage、GitHub Search 和 topic 页面渲染都已验证;网页展示延迟不能等同于 metadata 未生效。 - [KNOWN] 全仓库文字资产是否真的变成 Google 可索引资产,以 reports/text-asset-indexability.md 为覆盖审计;它区分 public HTML、GitHub README、processed-but-unrouted、raw-do-not-publish 和 external mirrors。
- [KNOWN] 公开 I18N 路由状态由 reports/public-i18n-route-audit.md 审计;它区分核心英文读者路径和仍缺少英文 alternate 的中文优先长尾页面。
- [KNOWN] Google/SEO 发布状态要同时看本地 sitemap/meta 审计和 live crawl 前提;当前 live readiness 证据在 reports/live-publication-readiness.md,它明确区分“生成站点可索引”和“自定义域名严格 HTTPS 可抓取”。
- [KNOWN] Search Console 的“网页会自动重定向”由 reports/google-redirect-indexability.md 分诊:sitemap/canonical 最终 URL 不应重定向,
http、www、无尾斜杠和旧 GitHub Pages URL 则是应被合并的非规范入口。 - [INFERRED] “核心洞察”是对上述证据的综合判断:把 Awesome 仓库升级为受控自进化领域的 Survey、指数和证据图谱,而不是一个单纯链接站。
| 目标 | 推荐入口 |
|---|---|
| 快速理解领域 | 先读本 README 的核心结论和 Evolve-AGI Index。 |
| 深入阅读论文 | 打开 paper-drafts/main.pdf 或 paper page。 |
| 查项目证据 | 使用 projects/INDEX.md 和 public project reports。 |
| 查数据范围 | 先看 资料库覆盖页,再查 analysis/resource-library-coverage-audit.md、docs/indexes/master-index.md 和 analysis/github-project-data-analysis.md。 |
| 按问题找主题 | 打开 主题指南,从定义、五类回路、代码自改进、Agent-Swarm、评估治理和生产痛点进入证据。 |
| 浏览网站 | 打开 Self Evolve site 或本仓库的 site source。 |
@misc{awesomeSelfEvolvingAgents2026,
title = {Awesome Self-Evolving AI Agents: Survey, Evidence Graph, and Evolve-AGI Index},
author = {aha team},
year = {2026},
howpublished = {\url{https://github.com/shiyao-huang/awesome-agent-evolution}},
note = {Open survey repository for self-evolving AI agents, benchmark evidence, project model cards, and field maturity indexing.}
}