Overview

本页面由 LLM 维护,每次摄入后更新,反映所有来源文档的综合理解。

本 wiki 收录了 6 大知识领域的笔记与学习资料,覆盖 LLM/AI、大数据工程、智能制造、量化金融、哲学经济学、个人成长与读书笔记。


一、LLM 与 AI 技术

张老师课程全景(13课)

涵盖从数学基础到部署优化的完整知识链路,分四个阶段递进:

第一阶段:数学基础(第1-3课) — 从 线性变换 的几何直观出发,理解 Transformer 中 WQ/WK/WV 权重矩阵的本质。掌握 解码策略(Temperature/Top-K/Top-P/Beam Search)。通过 ScalingLaw 理解幂律关系——Chinchilla Law:数据量应约为参数量的 20 倍

第二阶段:代码实现(第4-6课) — 从零手写 Transformer 架构(Model.py → Train.py → Inference.py),掌握 PyTorch 训练管线:tiktoken 分词 → 批次构建 → 前向传播 → 交叉熵损失 → AdamW 参数更新。

第三阶段:推理优化(第7-10课) — 聚焦三大瓶颈:

第四阶段:微调与部署(第11-13课)位置编码 演进(正弦 → RoPEALiBi),LoRA/QLoRA 低秩适配(参数减少 99%+),模型量化(GPTQ/AWQ/GGUF)。

补充专题

  • Transformer 深入理解:编解码与注意力机制深度拆解
  • QKV 矩阵:Query/Key/Value 含义与计算流程
  • Transformer vs MoE:混合专家架构对比
  • XTuner 快速上手:上海 AI Lab 微调工具库实战
  • PyTorch 初级:Tensor → 数据加载 → 模型搭建 → 训练循环 → ONNX 部署
  • warmup_ratio:学习率预热比例参数
  • AI 语言通胀:人机交互中语言通胀与高效 Prompt 原则
  • RAG 综述:面向知识的检索增强生成
  • SWIFT 框架:swift_output 输出解析
  • Claude Code 实践:Obsidian Skills MCP 技能包 + 完整教程阅读心得(Plan Mode / CLAUDE.md / Subagents / MCP 工作流)

二、大数据工程与数仓

Spark 性能优化体系

六篇 Spark 优化笔记构成完整体系,从宏观到微观逐层深入:

  • 性能优化全景图:框架总览与优化层次
  • 宽窄依赖优化:Shuffle 避免与算子选择策略
  • 小文件问题:合并策略与文件数控制
  • 数据倾斜:诊断与解决方案(加盐、两阶段聚合)
  • 资源配置与并行度优化:Executor/内存/并行度调优
  • 内存管理:统一内存模型(Storage vs Execution)

Hive SQL

数仓建模

数据治理与基础设施

  • 数据治理 SLA:服务水平协议与数据质量
  • 数据压缩:压缩算法选择与存储优化
  • DataLab 统一 BI 平台:腾讯 LLM-based 一站式 BI 平台,领域知识 + 多代理协作
  • 性能优化三层框架:系统化性能优化方法论

三、量化金融(WorldQuant)


四、哲学、经济学与文化

哲学主线:认知边界与存在追问

洞穴之喻 出发:柏拉图 理念世界 vs 感官世界 → 亚里士多德 目的论 → 康德 形而上与经验主义认知边界(希尔伯特、佛陀十四无忌、康德先天时空观)。同一性问题 以忒修斯之船追问事物本质。

经济学主线:资源配置与博弈

公地悲剧 是核心枢纽,连接 科斯定律(产权与交易成本)、公平与效率 的权衡。哈耶克 知识论论证计划经济的不可能性。

文化历史:儒学变迁与中西对比

孔子面孔的演变 展示六次形象转变;儒家的失守 分析宋代儒学应对佛道冲击;中西政教关系差异 揭示文化心理根源。

佛教思想:实践优先与悬置

十四无忌 和毒箭之喻构成实践维度——专注当下非追问终极。占卜的不可证伪性 与佛陀悬置形成对照。

个人成长与知识管理

吴军成长三维度(看得远/透/开)与 K 策略 呼应;电子仓鼠 IPO 模型克服数字囤积;Dan Koe 强调品味与使命导向;读书与思考 用叔本华和边际分析探讨独立思考价值。


五、读书笔记:心灵与意义

  • 《当下的力量》:从思维中觉醒,「强迫性思考」与「小我」的消解,与佛陀「十四无忌」一脉相承
  • 《活出生命的意义》:弗兰克尔意义疗法——人永远拥有选择态度的自由,三种发现意义的途径

六、智能制造与工业数据

核心框架

智能制造以工业4.0为背景,ISA-95 为系统集成标准,数字孪生为技术支柱。中国能力成熟度模型(CMMM)提供五级评估体系。

工业数据平台

五层架构(采集 → 存储 → 计算 → 服务 → 应用)是智能制造的数字底座:

  • 采集层:SCADA + PLC 网关,OT/IT/外部三大数据源
  • 存储层:时序数据库(TDengine/InfluxDB)+ 数据湖(Iceberg/Hudi)
  • 计算层:Flink 实时 + Spark 离线,实时与离线统一架构
  • 服务层:指标API + 报表服务 + 数据订阅
  • 应用层:OEE 实时看板、数据治理、数据血缘

生产系统

七大核心系统构成 ISA-95 Level 3-4 的信息化骨架:MES(执行)→ ERP(规划)→ SCADA(采集)→ PLM(产品)→ QMS(质量)→ WMS(仓储)→ CMMS(维护)。

关键指标体系

  • OEE 三维度可用率 × 性能率 × 质量率,世界级 ≥ 85%
  • 质量指标:良率(链式乘积)、FPY 直通率(最严格)、Cpk 过程能力
  • 设备指标:MTBF(可靠性)、MTTR(可维护性)
  • 效率指标:节拍时间 Takt Time、产能利用率

优化与智能化

  • 工艺参数优化:DOE → 贝叶斯优化 → 强化学习
  • 智能排产:ML预测 + 运筹优化 + 实时反馈
  • 预测性维护:传感器数据 + 统计/ML/DL模型,降本 30-50%
  • 视觉质检:传统CV → 深度学习 → 视觉大模型

知识网络总览

六大领域之间存在深层联系:Spark 的性能优化理念(瓶颈分析、分层优化)与 LLM 推理优化(Flash Attention、KV Cache、GQA)共享相同的工程思维方式;工业数据平台的五层架构与数仓建模的分层思想一脉相承;OEE 的瓶颈分析方法论与 Spark 性能优化的排查路线图异曲同工;公地悲剧中的公平与效率权衡在数仓 SLA 治理中重现;哈耶克的知识分散论与 AI 辅助决策形成思想张力。整个知识网络以瓶颈分析、分层抽象、实践优先为共同主题。