常驻北京,AI Engineer。
我主要关注 LLM 推理系统、隔离执行环境、平台能力和性能调优,帮助 AI 团队把模型更稳定、更高效地部署出来。
Focused on inference serving, performance tuning, sandboxed execution, and coding-agent infrastructure.
Blog · Email · X / Twitter
Ship beats perfect. 保持好奇心,持续学习。
- 推理服务与性能优化:围绕 vLLM、SGLang、TensorRT-LLM 做部署、压测、调优,关注吞吐、延迟、资源利用率和稳定性。
- 运行时与隔离执行环境:持续研究 sandbox、受限执行、工具调用边界和 agent runtime 的工程实现。
- AI 平台基础设施:关注模型部署、批处理流程、可观测性、可靠性,以及服务模型团队的实际平台问题。
- Coding Agent 系统:做 terminal-first 的 scaffolding、harness、context engineering 和自动化编程工作流。
- In-House Coding Agents / 内部编码代理建设:我认为 Coding IDE 时代正在结束,下一步会走向 IDE for Agents。抽象层级会从文件上移到 Agent,需要新的指挥中心来编排 Agent 团队,而 agentic organization 也会首次像代码一样具备可读性与可 fork 性。
- llm-inference-optimization:围绕 LLM 推理性能做实验、记录和优化总结,重点放在部署实践和性能调优。
- vllm-version-monitor:用于跟踪上游 vLLM 版本变化的轻量工具,方便持续关注推理栈演进。
- ai-coding-handbook:整理 Claude、Codex、Gemini 等 AI 辅助编程实践,偏工程工作流、方法论和落地经验。
- E-reader:本地优先的 EPUB 阅读器,叠加 AI 能力做增强阅读体验。
- tiny-notepad:本地优先的轻量笔记应用,强调简单、可控和低负担。
- gizamo-craw:基于 Telegram 的新闻编辑 Agent。
推理服务 / Inference
平台基础设施 / Infra
工具与应用 / Tooling


