Overview
本页面由 LLM 维护,每次摄入后更新,反映所有来源文档的综合理解。
本 wiki 收录了 6 大知识领域的笔记与学习资料,覆盖 LLM/AI、大数据工程、智能制造、量化金融、哲学经济学、个人成长与读书笔记。
一、LLM 与 AI 技术
张老师课程全景(13课)
涵盖从数学基础到部署优化的完整知识链路,分四个阶段递进:
第一阶段:数学基础(第1-3课) — 从 线性变换 的几何直观出发,理解 Transformer 中 WQ/WK/WV 权重矩阵的本质。掌握 解码策略(Temperature/Top-K/Top-P/Beam Search)。通过 ScalingLaw 理解幂律关系——Chinchilla Law:数据量应约为参数量的 20 倍。
第二阶段:代码实现(第4-6课) — 从零手写 Transformer 架构(Model.py → Train.py → Inference.py),掌握 PyTorch 训练管线:tiktoken 分词 → 批次构建 → 前向传播 → 交叉熵损失 → AdamW 参数更新。
第三阶段:推理优化(第7-10课) — 聚焦三大瓶颈:
- FlashAttention:Tiling + Online Softmax,HBM 访问 O(N²) → O(N)
- KVCache:缓存 Key/Value,56 倍推理加速
- MHA → GQA → MQA:536MB → 130MB → 16MB
- 稀疏注意力 与 无限注意力:长上下文方案
第四阶段:微调与部署(第11-13课) — 位置编码 演进(正弦 → RoPE → ALiBi),LoRA/QLoRA 低秩适配(参数减少 99%+),模型量化(GPTQ/AWQ/GGUF)。
补充专题
- Transformer 深入理解:编解码与注意力机制深度拆解
- QKV 矩阵:Query/Key/Value 含义与计算流程
- Transformer vs MoE:混合专家架构对比
- XTuner 快速上手:上海 AI Lab 微调工具库实战
- PyTorch 初级:Tensor → 数据加载 → 模型搭建 → 训练循环 → ONNX 部署
- warmup_ratio:学习率预热比例参数
- AI 语言通胀:人机交互中语言通胀与高效 Prompt 原则
- RAG 综述:面向知识的检索增强生成
- SWIFT 框架:swift_output 输出解析
- Claude Code 实践:Obsidian Skills MCP 技能包 + 完整教程阅读心得(Plan Mode / CLAUDE.md / Subagents / MCP 工作流)
二、大数据工程与数仓
Spark 性能优化体系
六篇 Spark 优化笔记构成完整体系,从宏观到微观逐层深入:
- 性能优化全景图:框架总览与优化层次
- 宽窄依赖优化:Shuffle 避免与算子选择策略
- 小文件问题:合并策略与文件数控制
- 数据倾斜:诊断与解决方案(加盐、两阶段聚合)
- 资源配置与并行度优化:Executor/内存/并行度调优
- 内存管理:统一内存模型(Storage vs Execution)
Hive SQL
- Hive SQL 语法大全:完整语法参考
数仓建模
数据治理与基础设施
- 数据治理 SLA:服务水平协议与数据质量
- 数据压缩:压缩算法选择与存储优化
- DataLab 统一 BI 平台:腾讯 LLM-based 一站式 BI 平台,领域知识 + 多代理协作
- 性能优化三层框架:系统化性能优化方法论
三、量化金融(WorldQuant)
- BRAIN 兼职顾问指南:从注册到成为顾问的完整流程,Challenge Score 达 Gold Level → 系统邀请 → 提交 alpha → 合同签署
- BRAIN 量化学习体系:三阶段(入门/进阶/高阶),从 alpha 概念到遗传算法 + 大规模回测
- BRAIN 自学路径图:四大模块入门资源汇总
四、哲学、经济学与文化
哲学主线:认知边界与存在追问
从 洞穴之喻 出发:柏拉图 理念世界 vs 感官世界 → 亚里士多德 目的论 → 康德 形而上与经验主义 → 认知边界(希尔伯特、佛陀十四无忌、康德先天时空观)。同一性问题 以忒修斯之船追问事物本质。
经济学主线:资源配置与博弈
公地悲剧 是核心枢纽,连接 科斯定律(产权与交易成本)、公平与效率 的权衡。哈耶克 知识论论证计划经济的不可能性。
文化历史:儒学变迁与中西对比
孔子面孔的演变 展示六次形象转变;儒家的失守 分析宋代儒学应对佛道冲击;中西政教关系差异 揭示文化心理根源。
佛教思想:实践优先与悬置
十四无忌 和毒箭之喻构成实践维度——专注当下非追问终极。占卜的不可证伪性 与佛陀悬置形成对照。
个人成长与知识管理
吴军成长三维度(看得远/透/开)与 K 策略 呼应;电子仓鼠 IPO 模型克服数字囤积;Dan Koe 强调品味与使命导向;读书与思考 用叔本华和边际分析探讨独立思考价值。
五、读书笔记:心灵与意义
六、智能制造与工业数据
核心框架
智能制造以工业4.0为背景,ISA-95 为系统集成标准,数字孪生为技术支柱。中国能力成熟度模型(CMMM)提供五级评估体系。
工业数据平台
五层架构(采集 → 存储 → 计算 → 服务 → 应用)是智能制造的数字底座:
- 采集层:SCADA + PLC 网关,OT/IT/外部三大数据源
- 存储层:时序数据库(TDengine/InfluxDB)+ 数据湖(Iceberg/Hudi)
- 计算层:Flink 实时 + Spark 离线,实时与离线统一架构
- 服务层:指标API + 报表服务 + 数据订阅
- 应用层:OEE 实时看板、数据治理、数据血缘
生产系统
七大核心系统构成 ISA-95 Level 3-4 的信息化骨架:MES(执行)→ ERP(规划)→ SCADA(采集)→ PLM(产品)→ QMS(质量)→ WMS(仓储)→ CMMS(维护)。
关键指标体系
- OEE 三维度:可用率 × 性能率 × 质量率,世界级 ≥ 85%
- 质量指标:良率(链式乘积)、FPY 直通率(最严格)、Cpk 过程能力
- 设备指标:MTBF(可靠性)、MTTR(可维护性)
- 效率指标:节拍时间 Takt Time、产能利用率
优化与智能化
- 工艺参数优化:DOE → 贝叶斯优化 → 强化学习
- 智能排产:ML预测 + 运筹优化 + 实时反馈
- 预测性维护:传感器数据 + 统计/ML/DL模型,降本 30-50%
- 视觉质检:传统CV → 深度学习 → 视觉大模型
知识网络总览
六大领域之间存在深层联系:Spark 的性能优化理念(瓶颈分析、分层优化)与 LLM 推理优化(Flash Attention、KV Cache、GQA)共享相同的工程思维方式;工业数据平台的五层架构与数仓建模的分层思想一脉相承;OEE 的瓶颈分析方法论与 Spark 性能优化的排查路线图异曲同工;公地悲剧中的公平与效率权衡在数仓 SLA 治理中重现;哈耶克的知识分散论与 AI 辅助决策形成思想张力。整个知识网络以瓶颈分析、分层抽象、实践优先为共同主题。