$ git log --oneline --since="2024"
AI Coding
认知升级
写给数据工程师 & 算法工程师的
真实使用指南,不是营销材料
真实使用指南,不是营销材料
→ 或 Space 继续
"帮我写一个数据处理函数"
""" 背景: PySpark 3.4 + Delta Lake 任务: 按 user_id 聚合 30 天内的 click 事件,去重后返回 df 约束: - 输入 df schema: user_id(str), event_time(ts), event_type(str) - 只保留 event_type == 'click' - 输出需要有 unit test 参考: 已有 utils/spark_utils.py """
| 翻车场景 | 根因 | 修复方法 |
|---|---|---|
| 代码看起来对,跑起来报错 | 没给 schema/类型约束 | 补充输入输出的具体 shape/dtype/schema |
| API 用法是旧版本的 | 训练数据截止 | 明确说版本号,粘贴官方文档片段 |
| AI 一直在绕圈子,越改越乱 | 上下文污染,token 限制 | 开新对话,重新给精炼的上下文 |
| 生成的代码没有错误处理 | 没有明确要求 | 在提示里加:「需要处理 X/Y/Z 异常场景」 |
| 解释/注释不够,读不懂意图 | 没要求文档 | 「生成代码时附上每个函数的设计意图注释」 |
| 信心满满给了错答案(hallucination) | 模型特性 | 关键逻辑必须人工 review;让 AI 先解释思路再给代码 |