1 / 12
AI Coding 认知升级
写给数据工程师 & 算法工程师的
真实使用指南,不是营销材料
数据工程师 · AI Coding 算法工程师 · AI Research ~100 人团队 # 认知层面的对齐,不是工具教学
适合谁 已经用过 AI Coding,但感觉用得不顺、不够深
Space 继续
02 / 12
认知偏差在哪里
多数人用的是「搜索引擎思维」,AI 需要「结对编程思维」
❌ 误区思维
把 AI 当搜索引擎,一句话提问,期待完美答案
✓ 正确认知
把 AI 当新来的高级工程师,需要 onboarding、上下文和迭代
❌ 误区思维
生成的代码直接 copy-paste,不理解就上线
✓ 正确认知
你是 reviewer,AI 是实现者——你的判断力才是关键
❌ 误区思维
AI 不行,我问了几次没有好结果
✓ 正确认知
提示词和上下文的质量,决定了输出的质量上限
03 / 12
两类角色,两种用法
相同工具,不同的增益点
数据工程师
主战场:AI Coding · 流水线 · 数据质量
  • ETL / pipeline 脚手架快速生成
  • SQL 优化与解释(explain + rewrite)
  • 单测、数据 schema 验证代码
  • Spark / dbt / Airflow 配置文件
  • Debug 时粘贴错误栈让 AI 定位根因
💡 最大增益:重复性高但脑力低的「胶水代码」——AI 替你写,你做 review
算法工程师
主战场:AI Research · 实验 · 论文落地
  • Paper 解读与伪代码翻译成可运行实现
  • 实验脚本、评估函数、baseline 实现
  • PyTorch / JAX 模板与常用 trick
  • 训练曲线分析,提出 debug 假设
  • 文档、README、技术方案草稿
💡 最大增益:创意到代码的速度——让 AI 处理实现细节,你聚焦核心思路
04 / 12
理解 AI 的工作方式
它不是在「思考」,它在做超大规模的模式匹配
01
读取上下文
02
匹配训练模式
03
生成概率最高的 token
04
输出(不验证正确性)
05 / 12
Context is King
同一个问题,提示词的差距 = 输出质量的天壤之别
prompt_quality_demo.py
❌ 低质量提示
"帮我写一个数据处理函数"
✓ 高质量提示
"""
背景: PySpark 3.4 + Delta Lake
任务: 按 user_id 聚合 30 天内的
      click 事件,去重后返回 df

约束:
  - 输入 df schema: user_id(str),
    event_time(ts), event_type(str)
  - 只保留 event_type == 'click'
  - 输出需要有 unit test

参考: 已有 utils/spark_utils.py
"""
🧠 黄金公式: 背景 + 技术栈版本 + 输入/输出格式 + 约束条件 + 参考代码 = 可复现的高质量输出
06 / 12
数据工程师的 AI 工作流
从需求到可运行代码的节奏感
07 / 12
算法工程师的 AI 工作流
从 paper → 实验 → 可复现代码
📄
Paper → 可运行伪代码
把论文核心 Algorithm 部分贴给 AI,要求转成 PyTorch 伪代码(标注假设和 shape)
减少理解偏差
🧪
实验脚本批量生成
描述实验设计(超参网格、评估指标、数据 split)→ AI 生成 argparse + train loop 模板
专注设计而非 boilerplate
🔍
训练曲线 Debug 假设生成
描述 loss 曲线、metrics 异常,让 AI 列出可能原因 checklist,你逐条验证
AI 当 rubber duck
📝
技术方案 / 实验报告草稿
输入实验结论要点 → AI 生成结构化方案文档 → 你补充细节和判断
软实力增益
08 / 12
高频翻车场景
不是 AI 太笨,是姿势不对
翻车场景 根因 修复方法
代码看起来对,跑起来报错 没给 schema/类型约束 补充输入输出的具体 shape/dtype/schema
API 用法是旧版本的 训练数据截止 明确说版本号,粘贴官方文档片段
AI 一直在绕圈子,越改越乱 上下文污染,token 限制 开新对话,重新给精炼的上下文
生成的代码没有错误处理 没有明确要求 在提示里加:「需要处理 X/Y/Z 异常场景」
解释/注释不够,读不懂意图 没要求文档 「生成代码时附上每个函数的设计意图注释」
信心满满给了错答案(hallucination) 模型特性 关键逻辑必须人工 review;让 AI 先解释思路再给代码
09 / 12
工具生态地图
按场景选工具,不要追新
Cursor
IDE
目前最强的 AI 原生 IDE,适合复杂多文件项目,支持 codebase-aware 对话
GitHub Copilot
IDE 插件
VS Code / JetBrains 内嵌,适合保守派,企业合规友好,补全能力强
Claude / GPT-4o
对话式
长上下文对话,适合 paper 解读、方案讨论、复杂 debug 推理
Aider
CLI
命令行 AI 编程助手,Git-aware,适合 terminal 党和自动化脚本场景
Continue.dev
开源插件
开源可自托管,私有模型友好,数据工程师的合规选项
Codeium / Tabnine
补全
轻量补全工具,本地模型选项,敏感数据环境下的替代方案
工具不是核心,认知才是。 同一个 Cursor,用好的人 10x,用不好的人 1x。先把提示词和工作流想清楚,再升级工具。
10 / 12
初级 vs 高级用法的差距
都在用 AI,差距在哪
L1 初级使用者
  • 一句话提问,期待完美输出
  • 遇到错误就重问,不分析原因
  • 不给项目背景,零上下文
  • 生成后直接用,不 review
  • 只用补全,忽略对话能力
  • 换工具频率高,没有固定工作流
VS
L2 高级使用者
  • 结构化提示,背景+约束+期望
  • 分析错误原因,给精确的修复指引
  • 维护 context 文件,提前 onboarding
  • 关键路径必须 review,小改可快通
  • 用对话驱动架构设计和 debug
  • 固定工作流 + 持续调优提示词
差距不是工具,是提问质量 + review 能力 + 工作流设计
11 / 12
从今天开始做的事
不是培训作业,是实际能提效的改变
本周就做(Quick Wins)
  • 下一次写 pipeline/实验脚本,先把背景粘给 AI 再提问
  • 遇到 traceback,直接贴给 AI,附上上下文代码
  • 让 AI 解释你看不懂的遗留代码(代码理解场景)
  • 用 AI 补一次你一直拖着没写的单测
📦 建立基础设施(2 周内)
  • 为你的项目写一个 CONTEXT.md(技术栈 + 核心 schema)
  • 建一个个人 prompt 模板库(按场景分类)
  • 选定 1 个主力工具,深入用 2 周再评估
  • 和 1 个同事形成 AI 提示互评 pair
🧠 数据工程师专项
  • 用 AI 重构一个你自己觉得丑的老函数
  • 让 AI 给一个复杂 SQL 写可读性注释
  • 探索 Cursor 的 codebase chat 功能
  • 试用 dbt / Airflow 的 AI 提示模板
🔬 算法工程师专项
  • 找一篇最近读的 paper,让 AI 翻译核心 Algorithm
  • 下一次 debug loss 曲线,先让 AI 给 5 个假设
  • 用 AI 写下一个实验的技术方案草稿
  • 建立实验 boilerplate 的 AI 生成 prompt
// AI Coding is not about replacing engineers. // It's about amplifying the ones who learn to wield it.
AI 不会取代工程师, 但会用 AI 的工程师会取代不会用的
工具是手段 认知是核心 迭代是路径 review 是护城河
$ git commit -m "feat: upgrade AI coding cognition"
数据工程师 · AI Coding 算法工程师 · AI Research 100 人团队 2026