Live a Little · 下篇(2021 – 2025)

Nov 29, 2025

赌城风云录

这一篇是 21–25 年,也是和大多数朋友开始重叠的几年。 21 年是数据库风口,24 年是 AI 狂热,我也算都赶上了。 22–24 年我住在知名博彩城,标题就从那来。 名字或许遗漏,但心中也还记着,江湖再见请你喝茶。


拾遗篇

早期我还写过一点前端。 用 JS 给 pitchfinder 贡献过 ACF2+ 音高检测算法,做过音频检测和可视化的小 demo。 还做过乐谱 OCR,把谱子转成乐符,再用 Java 库播放,挺好玩,只是淡了。 也做过以图搜图,提特征算相似度,试了很多组合纯粹好奇。


Databend 篇

我没数据库背景,是第一个校招生,还跳过面试。 有人问怎么做到的,我也说不清,只能感谢信任。

工作一半是工程,一半是社区。 工程是 Repo 级重构、依赖维护,偶尔写新功能。 社区源于我爱写爱分享,后来成了主线,大概分界点是落在去读书那段时间。

最早把测试从源码挪到外部单测,编译更快更干净,但要多切文件,也加了心智负担。 随着代码几年来涨得快,又做了一轮拆分提并行和质量。 sundy-li 主导的几次大规模的重构我也有参与,从 reddit 帖子发掘 arrow2 ,后来又受迟先生搞类型体操的启发。

云平台的 f 叔、之晗写的 OKR 对齐文档,让我第一次感到规范节奏,于是不久后,我们就有一个可以内部把玩的云平台原型。 我还提过一个基准测试的方案,把结果写成 json 保存到 repo ,再进行可视化。 早期 Databend 像一个巨大的练习场,我几乎摸过所有角落,也开始了解数据系统该怎么呼吸。


Apache OpenDAL 篇

我和漩涡认识于他处理官网迁移的时候。 当时的存储访问层是 dal,应该是老赵设计的,但是我们需要兼顾对象存储和 HDFS。 漩涡建议重写成通用接口,于是他做了 dal2,后来独立出来成为 opendal。

菜菜子做了早期 WebHDFS 的集成,Databend 也顺势补了 hive 支持。 数据公司大抵都有一些类似的需求,opendal 被不少友商关注,在 tison 的帮助下进入基金会孵化。

在 opendal 前,我只是拿工资写开源。 在这里,我体验到不用利润目标也能靠信任合作,“community over code”。


赌城求学

全职一年后我去澳门读应用数学与数据科学。 可能是宅久了,也可能是觉得还不够好,总之想出去看看。

数学课很多,上一节课要掉不少头发,好在最后也一路学过了凸优化。 AI 和大模型这时候也开始进入到我的学习和生活:利用 Meta 的 SAM 做分割,结合 CLIP 做交互式 caption,在 nanogpt 上改模型结构、优化器和学习率调度。

和 Databend 的联系仍然紧密:编译和 Rust 优化,做过几次分享;探索分析 lakeFS、HuggingFace 的数据;做 kubesphere 4.0 集成和 databend playground;办过线上 hackathon;管大部分中文文档,维护大模型转写英文文档的工作流;当时还面临企业版功能的源代码是否应该开放的讨论,我也翘课参加。

23 年 Apache Con 第一次线下见到 Xuanwo,我们各讲一个 OpenDAL 主题。 他是第一个给我寄过喜糖的同事,我也偶尔充当他的合并机器人。 那次还见到 tison、saka、f 叔、xp,还和 TCeason 一起去了颐和园。 后来又有机会见到之晗、Eric;Rust conf 认识 RisingWave 的朋友,很多 ID 和面容有了映射。

24 年去日本玩了一圈后专心毕设,主题是现代缓存替换算法。 和 juncheng 聊过一次,他主导了 sieve、s3fifo 等几个非常简洁有趣的算法设计。 毕业迫使我收拢精力,那是一段煎熬的时刻,还好我的导师总是以一副宁静的姿态出现。 我顺利毕业,也离开了 Databend,最后一次公开分享是《面向现代分层存储的 Caching 技术漫谈》。


NebulaGraph 篇

离开 Databend 之后要再找工作。 我还想做 data infra,也想过投递一些不那么技术的岗位。 市场很冷,两家同行业公司一路面到 CXO 也没结果。 大厂面试不算投机,面试官对我的经历不太感冒,我也没有过多准备在算法和八股上。 朋友介绍了几家 web3,虽然拿到高薪 offer 但还是顾虑合规问题,只能作罢。

转机在杭州 Apache Con。 我见到几个 Graph 厂商的朋友,从慧姐和盐粒的口中才知道 NebulaGraph 的 GenAI 团队在招人,leader 是多年的推友 wey-gu。 最后一轮是 sherman,除了常规问答,还考了一道口述算法,很难想到这会出现在文化相性的面试上。

入职前我去上海参加 Rust Conf,也顺便认认上海办公室的位置。终于见到 yihong0618,一个非常有趣的灵魂。也第一次见到 RisingWave 的其他朋友,叉鸽(foyer-rs)、润基(arrow-udf),6 个月后在 KCD Beijing,我还去了他们的北京办公室,吃到了美味的小鱼干。 PyCon China 2024 上,wey 做主题分享,我认识了 frostming、晋涛,还和粉头发 saka 合了影。 到了 2025 的 Rust Conf 上,有机会见到雷少和 andy ,他们和 tison 一起创业做新产品。 再晚一点的 PyCon 我便有了一个讲 coding agent 的主题,和好多群友也是这次相会。

业余收获也多: 做了 llama index 社区的第一个 mcp 集成方案,并且贡献了第一版实现到官方 repo; 写了第一个 agentclientprotocol Python SDK,在 JetBrains 朋友帮助下成了官方 SDK; 还拜访了他们上海办公室,拎了一筐周边回家。

我们从浦东搬到南京西路,从小黑屋搬到阳光间。 慧姐离开去了 oceanbase,wey 离职创业做 nowledage memory, 我和盐粒继续在 graph rag 和 agent 上折腾,落地了当初想的 Fusion GraphRAG。 邵老师负责端到端评估,坚持先把召回率和准确率搞上去。 它让 GraphRAG 的上手成本接近向量或全文 RAG,并且在一些领域问答准确率到 95%+。


尾声

时间走到 2025 年末,好像也就到这里了。

https://psiace.me/posts/atom.xml