Text2SQL 指南

如何设计语义层和指标口径治理

这一章讲业务语言如何稳定落到数据库:RootData 场景里的“融资强、未 TGE、热度上涨、透明度低、解锁压力、顶级投资人”都不能让模型临场猜,而要进入 glossary、semantic registry、metric definition 和版本化口径。

OPENING30 秒开口版

我会把语义层设计成物理表结构和业务语言之间的稳定抽象。用户说“未 TGE”,系统映射到 token_status、tge_date 和 Token 发行状态;说“融资强”,系统映射到融资金额、轮次、投资人质量和时间窗口;说“热度上涨”,系统映射到 score_snapshots 的变化率。Text2SQL 生成前必须先锁定 semanticVersion、metric definition、relationship path 和默认口径,口径冲突时澄清或 fail-closed。

理解与记忆 · 术语、解析、关联知识点
专业术语Semantic Registry:集中管理业务术语、指标、维度、关系和版本的语义注册表。
Metric Definition:指标的计算公式、过滤条件、时间窗口和解释。
Semantic Version:语义口径版本,用来支持回放、审计和发布。
Relationship Path:表与表之间经过治理的 Join 或图关系路径。
为什么这样回答语义层题要从具体业务词切入,避免抽象说“统一口径”。面试官想听你如何把自然语言、表结构和指标版本连起来。
小白解析语义层就像一本公司内部指标字典。大家说“热度上涨”时,系统知道看哪张表、怎么算、用几天窗口,而不是每次都让模型自己猜。
关联知识点Modeling Layer 文档把 MDL 定义为物理 schema 和业务语言之间的抽象层,核心组件包括 Models、Calculated Fields、Relationships、Metrics、Dimensions。text2sql 当前实现有 semantic spine、workspace modeling 和 relationship graph。

1 MIN一分钟口语版

语义层的价值是把 Join、计算公式、指标解释和默认过滤从 prompt 里拿出来,变成可版本化、可审计、可评测的配置。它包含 Models、Metrics、Dimensions、Calculated Fields、Relationships、Glossary 和别名映射。RAG 负责召回相关语义资产,assemble-context 把它整理成 context pack,semantic-plan 用它决定 selectedTables、selectedColumns、join path、filters 和 route constraints。下游报告 Agent 拿到 data pack 时,也会看到 semanticVersion 和指标说明,保证老板端、投研端和报告端说的是同一套口径。

理解与记忆 · 术语、解析、关联知识点
专业术语Semantic Registry:集中管理业务术语、指标、维度、关系和版本的语义注册表。
Metric Definition:指标的计算公式、过滤条件、时间窗口和解释。
Semantic Version:语义口径版本,用来支持回放、审计和发布。
Relationship Path:表与表之间经过治理的 Join 或图关系路径。
为什么这样回答语义层题要从具体业务词切入,避免抽象说“统一口径”。面试官想听你如何把自然语言、表结构和指标版本连起来。
小白解析语义层就像一本公司内部指标字典。大家说“热度上涨”时,系统知道看哪张表、怎么算、用几天窗口,而不是每次都让模型自己猜。
关联知识点Modeling Layer 文档把 MDL 定义为物理 schema 和业务语言之间的抽象层,核心组件包括 Models、Calculated Fields、Relationships、Metrics、Dimensions。text2sql 当前实现有 semantic spine、workspace modeling 和 relationship graph。

ARCHITECTURE架构设计要点

业务词典

收敛未 TGE、融资强、顶级投资人、热度上涨等业务说法。

指标定义

计算公式、时间窗口、默认过滤、排序规则、解释文案。

关系路径

项目、Token、融资、机构、人物、生态的 join path 和图路径。

版本治理

semanticVersion 支持灰度、回滚、历史 runId 回放。

RAG 联动

语义资产进入索引,retrieve 和 assemble-context 召回可执行指令。

报告复用

data pack 暴露指标口径,让报告 Agent 不重新解释。

DIAGRAM架构图

语义层连接业务语言和物理表

如何设计语义层和指标口径治理 Mermaid diagram 1

指标版本如何支持回放

如何设计语义层和指标口径治理 Mermaid diagram 2

TABLE关键对象和面试讲法

对象职责面试强调
未 TGEtokens.token_status、tge_dateToken 状态和日期冲突要标风险。
融资强amount_usd、round、lead investor、time window不是单一金额字段。
顶级投资人organization tier、历史投资表现、lead 关系需要机构语义和图关系。
热度上涨score_snapshots 变化率必须有默认窗口和基准点。
透明度低字段完整度、团队、Token、融资披露解释缺失项比只给分更重要。
解锁压力unlock amount、供应占比、未来窗口结合 Token 和市场数据。
AI x Cryptotags、project_tags、文本证据标签和 RAG 证据共同判断。

VERSIONINGsemanticVersion 生命周期

阶段要做什么面试追问时的答法
draft业务方提出指标变更,写明公式、字段、时间窗口、默认排序和适用场景。临时规则不能直接写 production semantic registry,避免语义资产污染。
review检查 join path、权限影响、历史报告兼容、gold set 变化。语义层变更不是文案变更,会影响 SQL、报告和回放。
shadow eval用新旧 semanticVersion 跑同一批 gold questions 和线上 sample。看 semantic accuracy、join path error、citation accuracy、结果分布变化。
gray release按 workspace、报告类型或问题分桶灰度,并把 semanticVersion 写入 runId 和 data pack。报告 Agent 必须知道本次报告用了哪个指标版本。
rollback新版本 badcase 升高时回退 active version;历史 run 保留原版本。回滚不能改写历史 runId,只能影响新请求。

INTERVIEW MAP面试表达地图

  1. 先讲问题业务词不稳定会导致 SQL 能跑但业务错。
  2. 再讲结构glossary、registry、metric、dimension、relationship、version。
  3. 落到例子未 TGE、融资强、热度上涨、解锁压力。
  4. 连接流程retrieve -> assemble-context -> semantic-plan -> generate-sql。
  5. 收束治理版本、评测、回滚、报告复用。

SUBAGENTS面试官、候选人和红队

本章写作前已实际启动多 subagent:面试官 subagent 负责连续追问生产压力,候选人 subagent 负责把答案压成现场能讲出口的表达,资料审阅 + 红队 subagent 负责指出哪些地方容易写虚,并补充安全、评测、runId、下游报告 Agent 的攻击面。

本章追问重点:所有回答都要落到 RootData 类 Web3 主项目、Agent Bot、Text2SQL、RAG、runId/evidence/artifact/data pack 和下游报告 Agent 复用。

Q&A20 组高强度追问

面试官:“融资强”到底是什么?

我:不能让模型临场猜。我会把它定义成可配置指标,默认包括近 30 天融资金额、轮次权重、lead investor 质量和投资机构数量。不同场景可以切口径,但必须有 semanticVersion。

理解与记忆 · 背后工程点

背后工程点:业务词要变成指标定义。
专业术语:Semantic Registry:集中管理业务术语、指标、维度、关系和版本的语义注册表。
Metric Definition:指标的计算公式、过滤条件、时间窗口和解释。
Semantic Version:语义口径版本,用来支持回放、审计和发布。
为什么这样回答:语义层题要从具体业务词切入,避免抽象说“统一口径”。面试官想听你如何把自然语言、表结构和指标版本连起来。
小白解析:语义层就像一本公司内部指标字典。大家说“热度上涨”时,系统知道看哪张表、怎么算、用几天窗口,而不是每次都让模型自己猜。
关联知识点:Modeling Layer 文档把 MDL 定义为物理 schema 和业务语言之间的抽象层,核心组件包括 Models、Calculated Fields、Relationships、Metrics、Dimensions。text2sql 当前实现有 semantic spine、workspace modeling 和 relationship graph。

面试官:“未 TGE”对应哪些表字段?

我:主要看 tokens.token_status、tge_date、token launch 事件,也可能看项目详情里的 Token 状态来源。状态和日期冲突时,answer 要标记 conflictHint。

理解与记忆 · 背后工程点

背后工程点:业务状态可能跨结构化字段和来源证据。
专业术语:Semantic Registry:集中管理业务术语、指标、维度、关系和版本的语义注册表。
Metric Definition:指标的计算公式、过滤条件、时间窗口和解释。
Semantic Version:语义口径版本,用来支持回放、审计和发布。
为什么这样回答:语义层题要从具体业务词切入,避免抽象说“统一口径”。面试官想听你如何把自然语言、表结构和指标版本连起来。
小白解析:语义层就像一本公司内部指标字典。大家说“热度上涨”时,系统知道看哪张表、怎么算、用几天窗口,而不是每次都让模型自己猜。
关联知识点:Modeling Layer 文档把 MDL 定义为物理 schema 和业务语言之间的抽象层,核心组件包括 Models、Calculated Fields、Relationships、Metrics、Dimensions。text2sql 当前实现有 semantic spine、workspace modeling 和 relationship graph。

面试官:“热度上涨”用 24h、7d 还是 30d?

我:默认口径要在 semantic registry 里,比如老板实时看 7d,周报用 30d。用户没指定时使用 smart default 并在 answer 说明,影响结果很大时触发澄清。

理解与记忆 · 背后工程点

背后工程点:时间窗口是指标口径的一部分。
专业术语:Semantic Registry:集中管理业务术语、指标、维度、关系和版本的语义注册表。
Metric Definition:指标的计算公式、过滤条件、时间窗口和解释。
Semantic Version:语义口径版本,用来支持回放、审计和发布。
为什么这样回答:语义层题要从具体业务词切入,避免抽象说“统一口径”。面试官想听你如何把自然语言、表结构和指标版本连起来。
小白解析:语义层就像一本公司内部指标字典。大家说“热度上涨”时,系统知道看哪张表、怎么算、用几天窗口,而不是每次都让模型自己猜。
关联知识点:Modeling Layer 文档把 MDL 定义为物理 schema 和业务语言之间的抽象层,核心组件包括 Models、Calculated Fields、Relationships、Metrics、Dimensions。text2sql 当前实现有 semantic spine、workspace modeling 和 relationship graph。

面试官:semantic-plan 如何使用语义层?

我:retrieve 召回相关 metric、dimension、relationship 和 examples,assemble-context 生成结构化 context pack,semantic-plan 输出 selectedTables、selectedColumns、filters、joinPaths、metricFormula 和 route constraints。

理解与记忆 · 背后工程点

背后工程点:语义层要进入结构化计划,而不是塞一段文本。
专业术语:Semantic Registry:集中管理业务术语、指标、维度、关系和版本的语义注册表。
Metric Definition:指标的计算公式、过滤条件、时间窗口和解释。
Semantic Version:语义口径版本,用来支持回放、审计和发布。
为什么这样回答:语义层题要从具体业务词切入,避免抽象说“统一口径”。面试官想听你如何把自然语言、表结构和指标版本连起来。
小白解析:语义层就像一本公司内部指标字典。大家说“热度上涨”时,系统知道看哪张表、怎么算、用几天窗口,而不是每次都让模型自己猜。
关联知识点:Modeling Layer 文档把 MDL 定义为物理 schema 和业务语言之间的抽象层,核心组件包括 Models、Calculated Fields、Relationships、Metrics、Dimensions。text2sql 当前实现有 semantic spine、workspace modeling 和 relationship graph。

面试官:指标口径升级后,历史 runId 怎么回放?

我:历史 runId 记录 semanticVersion 和 metric definition refs。回放时按当时版本解释结果;如果用新版本重算,要生成新的 runId 并标注口径变化。

本题主讲 · 相似题跳转

Semantic version 与指标口径回放:语义层主讲口径版本锁,架构和时效章补充 runId 回放与历史报告。

理解与记忆 · 背后工程点

背后工程点:版本锁定是可回放的前提。
专业术语:Semantic Registry:集中管理业务术语、指标、维度、关系和版本的语义注册表。
Metric Definition:指标的计算公式、过滤条件、时间窗口和解释。
Semantic Version:语义口径版本,用来支持回放、审计和发布。
为什么这样回答:语义层题要从具体业务词切入,避免抽象说“统一口径”。面试官想听你如何把自然语言、表结构和指标版本连起来。
小白解析:语义层就像一本公司内部指标字典。大家说“热度上涨”时,系统知道看哪张表、怎么算、用几天窗口,而不是每次都让模型自己猜。
关联知识点:Modeling Layer 文档把 MDL 定义为物理 schema 和业务语言之间的抽象层,核心组件包括 Models、Calculated Fields、Relationships、Metrics、Dimensions。text2sql 当前实现有 semantic spine、workspace modeling 和 relationship graph。

面试官:报告 Agent 如何知道本次报告使用哪个口径?

我:data pack 中包含 semanticVersion、metric definitions、timeWindow、filters 和 evidenceRefs。报告 Agent 输出图表和结论时必须带这些引用。

相似题已合并 · 建议跳转

Semantic version 与指标口径回放:语义层主讲口径版本锁,架构和时效章补充 runId 回放与历史报告。

理解与记忆 · 背后工程点

背后工程点:报告复用必须携带指标元数据。
专业术语:Semantic Registry:集中管理业务术语、指标、维度、关系和版本的语义注册表。
Metric Definition:指标的计算公式、过滤条件、时间窗口和解释。
Semantic Version:语义口径版本,用来支持回放、审计和发布。
为什么这样回答:语义层题要从具体业务词切入,避免抽象说“统一口径”。面试官想听你如何把自然语言、表结构和指标版本连起来。
小白解析:语义层就像一本公司内部指标字典。大家说“热度上涨”时,系统知道看哪张表、怎么算、用几天窗口,而不是每次都让模型自己猜。
关联知识点:Modeling Layer 文档把 MDL 定义为物理 schema 和业务语言之间的抽象层,核心组件包括 Models、Calculated Fields、Relationships、Metrics、Dimensions。text2sql 当前实现有 semantic spine、workspace modeling 和 relationship graph。

面试官:同义词、别名、Token symbol 怎么进入语义层?

我:通过 glossary 和 entity resolution 管理 alias、slug、symbol、contract address、官网和社媒。候选实体低置信时不能直接绑定 SQL,要澄清或返回候选。

理解与记忆 · 背后工程点

背后工程点:别名治理连接自然语言和实体主数据。
专业术语:Semantic Registry:集中管理业务术语、指标、维度、关系和版本的语义注册表。
Metric Definition:指标的计算公式、过滤条件、时间窗口和解释。
Semantic Version:语义口径版本,用来支持回放、审计和发布。
为什么这样回答:语义层题要从具体业务词切入,避免抽象说“统一口径”。面试官想听你如何把自然语言、表结构和指标版本连起来。
小白解析:语义层就像一本公司内部指标字典。大家说“热度上涨”时,系统知道看哪张表、怎么算、用几天窗口,而不是每次都让模型自己猜。
关联知识点:Modeling Layer 文档把 MDL 定义为物理 schema 和业务语言之间的抽象层,核心组件包括 Models、Calculated Fields、Relationships、Metrics、Dimensions。text2sql 当前实现有 semantic spine、workspace modeling 和 relationship graph。

面试官:“透明度低”如何解释给用户?

我:不能只给分,要展示分项:基础信息缺失、团队信息缺失、Token 经济缺失、融资来源缺失、日历事件缺失。每个分项对应字段和来源。

理解与记忆 · 背后工程点

背后工程点:评分指标要可解释。
专业术语:Semantic Registry:集中管理业务术语、指标、维度、关系和版本的语义注册表。
Metric Definition:指标的计算公式、过滤条件、时间窗口和解释。
Semantic Version:语义口径版本,用来支持回放、审计和发布。
为什么这样回答:语义层题要从具体业务词切入,避免抽象说“统一口径”。面试官想听你如何把自然语言、表结构和指标版本连起来。
小白解析:语义层就像一本公司内部指标字典。大家说“热度上涨”时,系统知道看哪张表、怎么算、用几天窗口,而不是每次都让模型自己猜。
关联知识点:Modeling Layer 文档把 MDL 定义为物理 schema 和业务语言之间的抽象层,核心组件包括 Models、Calculated Fields、Relationships、Metrics、Dimensions。text2sql 当前实现有 semantic spine、workspace modeling 和 relationship graph。

面试官:业务方临时改评分权重,如何防止线上漂移?

我:新权重先作为 draft semanticVersion,跑评测和灰度,通过后发布。运行时锁定版本,报告 Agent 也记录版本,不能直接热改线上口径。

理解与记忆 · 背后工程点

背后工程点:指标变更需要版本发布流程。
专业术语:Semantic Registry:集中管理业务术语、指标、维度、关系和版本的语义注册表。
Metric Definition:指标的计算公式、过滤条件、时间窗口和解释。
Semantic Version:语义口径版本,用来支持回放、审计和发布。
为什么这样回答:语义层题要从具体业务词切入,避免抽象说“统一口径”。面试官想听你如何把自然语言、表结构和指标版本连起来。
小白解析:语义层就像一本公司内部指标字典。大家说“热度上涨”时,系统知道看哪张表、怎么算、用几天窗口,而不是每次都让模型自己猜。
关联知识点:Modeling Layer 文档把 MDL 定义为物理 schema 和业务语言之间的抽象层,核心组件包括 Models、Calculated Fields、Relationships、Metrics、Dimensions。text2sql 当前实现有 semantic spine、workspace modeling 和 relationship graph。

面试官:schema 变更后语义层如何更新?

我:元数据订阅或重建任务检测表列变化,更新 schema graph 和 semantic bindings,重新索引语义资产,并跑 schema linking 和关键问题回归。

相似题已合并 · 建议跳转

Schema linking、schema 变更与 join path:语义映射章主讲 join path,流程和优化章只从生成稳定性角度补充。

理解与记忆 · 背后工程点

背后工程点:语义层要跟 schema 生命周期联动。
专业术语:Semantic Registry:集中管理业务术语、指标、维度、关系和版本的语义注册表。
Metric Definition:指标的计算公式、过滤条件、时间窗口和解释。
Semantic Version:语义口径版本,用来支持回放、审计和发布。
为什么这样回答:语义层题要从具体业务词切入,避免抽象说“统一口径”。面试官想听你如何把自然语言、表结构和指标版本连起来。
小白解析:语义层就像一本公司内部指标字典。大家说“热度上涨”时,系统知道看哪张表、怎么算、用几天窗口,而不是每次都让模型自己猜。
关联知识点:Modeling Layer 文档把 MDL 定义为物理 schema 和业务语言之间的抽象层,核心组件包括 Models、Calculated Fields、Relationships、Metrics、Dimensions。text2sql 当前实现有 semantic spine、workspace modeling 和 relationship graph。

面试官:语义层和 RAG schema 检索是什么关系?

我:RAG 负责找候选语义资产和 schema 证据,语义层提供权威口径和关系路径。retrieve 找材料,semantic-plan 决定如何使用材料。

理解与记忆 · 背后工程点

背后工程点:RAG 是召回,语义层是治理口径。
专业术语:Semantic Registry:集中管理业务术语、指标、维度、关系和版本的语义注册表。
Metric Definition:指标的计算公式、过滤条件、时间窗口和解释。
Semantic Version:语义口径版本,用来支持回放、审计和发布。
为什么这样回答:语义层题要从具体业务词切入,避免抽象说“统一口径”。面试官想听你如何把自然语言、表结构和指标版本连起来。
小白解析:语义层就像一本公司内部指标字典。大家说“热度上涨”时,系统知道看哪张表、怎么算、用几天窗口,而不是每次都让模型自己猜。
关联知识点:Modeling Layer 文档把 MDL 定义为物理 schema 和业务语言之间的抽象层,核心组件包括 Models、Calculated Fields、Relationships、Metrics、Dimensions。text2sql 当前实现有 semantic spine、workspace modeling 和 relationship graph。

面试官:Join path 幻觉怎么解决?

我:预定义 relationships 和 relationship graph,Planner 从候选路径里选择,不允许 LLM 自己发明 join key。validate 还会检查字段存在和关系路径是否允许。

相似题已合并 · 建议跳转

Schema linking、schema 变更与 join path:语义映射章主讲 join path,流程和优化章只从生成稳定性角度补充。

理解与记忆 · 背后工程点

背后工程点:Join 路径必须被建模。
专业术语:Semantic Registry:集中管理业务术语、指标、维度、关系和版本的语义注册表。
Metric Definition:指标的计算公式、过滤条件、时间窗口和解释。
Semantic Version:语义口径版本,用来支持回放、审计和发布。
为什么这样回答:语义层题要从具体业务词切入,避免抽象说“统一口径”。面试官想听你如何把自然语言、表结构和指标版本连起来。
小白解析:语义层就像一本公司内部指标字典。大家说“热度上涨”时,系统知道看哪张表、怎么算、用几天窗口,而不是每次都让模型自己猜。
关联知识点:Modeling Layer 文档把 MDL 定义为物理 schema 和业务语言之间的抽象层,核心组件包括 Models、Calculated Fields、Relationships、Metrics、Dimensions。text2sql 当前实现有 semantic spine、workspace modeling 和 relationship graph。

面试官:复杂计算字段怎么处理?

我:把环比、同比、解锁占比、融资强度这类公式作为 calculated fields 或 metric definition。LLM 调用语义对象,不临时写复杂公式。

理解与记忆 · 背后工程点

背后工程点:复杂计算要下沉到配置层。
专业术语:Semantic Registry:集中管理业务术语、指标、维度、关系和版本的语义注册表。
Metric Definition:指标的计算公式、过滤条件、时间窗口和解释。
Semantic Version:语义口径版本,用来支持回放、审计和发布。
为什么这样回答:语义层题要从具体业务词切入,避免抽象说“统一口径”。面试官想听你如何把自然语言、表结构和指标版本连起来。
小白解析:语义层就像一本公司内部指标字典。大家说“热度上涨”时,系统知道看哪张表、怎么算、用几天窗口,而不是每次都让模型自己猜。
关联知识点:Modeling Layer 文档把 MDL 定义为物理 schema 和业务语言之间的抽象层,核心组件包括 Models、Calculated Fields、Relationships、Metrics、Dimensions。text2sql 当前实现有 semantic spine、workspace modeling 和 relationship graph。

面试官:如果语义层没有覆盖用户说法怎么办?

我:先通过 RAG 和 glossary 找候选,低置信时澄清或返回“口径未确认”。高价值新术语可以进入 candidate memory,人工验证后再晋升。

理解与记忆 · 背后工程点

背后工程点:语义缺口要治理,不能让模型随便补。
专业术语:Semantic Registry:集中管理业务术语、指标、维度、关系和版本的语义注册表。
Metric Definition:指标的计算公式、过滤条件、时间窗口和解释。
Semantic Version:语义口径版本,用来支持回放、审计和发布。
为什么这样回答:语义层题要从具体业务词切入,避免抽象说“统一口径”。面试官想听你如何把自然语言、表结构和指标版本连起来。
小白解析:语义层就像一本公司内部指标字典。大家说“热度上涨”时,系统知道看哪张表、怎么算、用几天窗口,而不是每次都让模型自己猜。
关联知识点:Modeling Layer 文档把 MDL 定义为物理 schema 和业务语言之间的抽象层,核心组件包括 Models、Calculated Fields、Relationships、Metrics、Dimensions。text2sql 当前实现有 semantic spine、workspace modeling 和 relationship graph。

面试官:如何防止语义资产污染?

我:candidate -> verified -> production 分级晋升,记录来源 runId、审核人、适用域和 TTL。线上只默认使用 verified 或 production,不让临时记忆直接影响核心指标。

理解与记忆 · 背后工程点

背后工程点:语义记忆要有晋升流程。
专业术语:Semantic Registry:集中管理业务术语、指标、维度、关系和版本的语义注册表。
Metric Definition:指标的计算公式、过滤条件、时间窗口和解释。
Semantic Version:语义口径版本,用来支持回放、审计和发布。
为什么这样回答:语义层题要从具体业务词切入,避免抽象说“统一口径”。面试官想听你如何把自然语言、表结构和指标版本连起来。
小白解析:语义层就像一本公司内部指标字典。大家说“热度上涨”时,系统知道看哪张表、怎么算、用几天窗口,而不是每次都让模型自己猜。
关联知识点:Modeling Layer 文档把 MDL 定义为物理 schema 和业务语言之间的抽象层,核心组件包括 Models、Calculated Fields、Relationships、Metrics、Dimensions。text2sql 当前实现有 semantic spine、workspace modeling 和 relationship graph。

面试官:不同团队指标口径不同怎么办?

我:按 workspace 或 domain 维护语义版本和 override,但公共报告要显式声明使用哪个 workspace/domain 口径。跨团队比较时要先对齐口径。

理解与记忆 · 背后工程点

背后工程点:口径可以多版本,但必须显式。
专业术语:Semantic Registry:集中管理业务术语、指标、维度、关系和版本的语义注册表。
Metric Definition:指标的计算公式、过滤条件、时间窗口和解释。
Semantic Version:语义口径版本,用来支持回放、审计和发布。
为什么这样回答:语义层题要从具体业务词切入,避免抽象说“统一口径”。面试官想听你如何把自然语言、表结构和指标版本连起来。
小白解析:语义层就像一本公司内部指标字典。大家说“热度上涨”时,系统知道看哪张表、怎么算、用几天窗口,而不是每次都让模型自己猜。
关联知识点:Modeling Layer 文档把 MDL 定义为物理 schema 和业务语言之间的抽象层,核心组件包括 Models、Calculated Fields、Relationships、Metrics、Dimensions。text2sql 当前实现有 semantic spine、workspace modeling 和 relationship graph。

面试官:如何评测语义层效果?

我:看 schema linking 准确率、metric binding 稳定率、SQL 语义正确率、同义词召回、复杂问题成功率,以及口径变更后的回归结果。

理解与记忆 · 背后工程点

背后工程点:语义层也要可量化。
专业术语:Semantic Registry:集中管理业务术语、指标、维度、关系和版本的语义注册表。
Metric Definition:指标的计算公式、过滤条件、时间窗口和解释。
Semantic Version:语义口径版本,用来支持回放、审计和发布。
为什么这样回答:语义层题要从具体业务词切入,避免抽象说“统一口径”。面试官想听你如何把自然语言、表结构和指标版本连起来。
小白解析:语义层就像一本公司内部指标字典。大家说“热度上涨”时,系统知道看哪张表、怎么算、用几天窗口,而不是每次都让模型自己猜。
关联知识点:Modeling Layer 文档把 MDL 定义为物理 schema 和业务语言之间的抽象层,核心组件包括 Models、Calculated Fields、Relationships、Metrics、Dimensions。text2sql 当前实现有 semantic spine、workspace modeling 和 relationship graph。

面试官:语义层会不会增加维护成本?

我:会,但它把成本从每次 prompt 纠错转成集中治理。对于融资、Token、评分这些高价值领域,稳定口径带来的准确率和可审计性更值得。

理解与记忆 · 背后工程点

背后工程点:要承认成本并说明收益。
专业术语:Semantic Registry:集中管理业务术语、指标、维度、关系和版本的语义注册表。
Metric Definition:指标的计算公式、过滤条件、时间窗口和解释。
Semantic Version:语义口径版本,用来支持回放、审计和发布。
为什么这样回答:语义层题要从具体业务词切入,避免抽象说“统一口径”。面试官想听你如何把自然语言、表结构和指标版本连起来。
小白解析:语义层就像一本公司内部指标字典。大家说“热度上涨”时,系统知道看哪张表、怎么算、用几天窗口,而不是每次都让模型自己猜。
关联知识点:Modeling Layer 文档把 MDL 定义为物理 schema 和业务语言之间的抽象层,核心组件包括 Models、Calculated Fields、Relationships、Metrics、Dimensions。text2sql 当前实现有 semantic spine、workspace modeling 和 relationship graph。

面试官:什么时候需要澄清而不是用默认语义?

我:当多个口径都合理且结果差异大时,比如“融资好”按金额还是顶级投资人,或者“最近”是 7d 还是季度。低风险默认可以执行并声明默认值。

理解与记忆 · 背后工程点

背后工程点:语义层和澄清策略要配合。
专业术语:Semantic Registry:集中管理业务术语、指标、维度、关系和版本的语义注册表。
Metric Definition:指标的计算公式、过滤条件、时间窗口和解释。
Semantic Version:语义口径版本,用来支持回放、审计和发布。
为什么这样回答:语义层题要从具体业务词切入,避免抽象说“统一口径”。面试官想听你如何把自然语言、表结构和指标版本连起来。
小白解析:语义层就像一本公司内部指标字典。大家说“热度上涨”时,系统知道看哪张表、怎么算、用几天窗口,而不是每次都让模型自己猜。
关联知识点:Modeling Layer 文档把 MDL 定义为物理 schema 和业务语言之间的抽象层,核心组件包括 Models、Calculated Fields、Relationships、Metrics、Dimensions。text2sql 当前实现有 semantic spine、workspace modeling 和 relationship graph。

面试官:一句话总结语义层设计。

我:语义层的目标是让业务词、指标口径、表结构和关系路径成为可版本化事实,而不是每次让模型重新发明。

理解与记忆 · 背后工程点

背后工程点:总结要强调稳定和版本化。
专业术语:Semantic Registry:集中管理业务术语、指标、维度、关系和版本的语义注册表。
Metric Definition:指标的计算公式、过滤条件、时间窗口和解释。
Semantic Version:语义口径版本,用来支持回放、审计和发布。
为什么这样回答:语义层题要从具体业务词切入,避免抽象说“统一口径”。面试官想听你如何把自然语言、表结构和指标版本连起来。
小白解析:语义层就像一本公司内部指标字典。大家说“热度上涨”时,系统知道看哪张表、怎么算、用几天窗口,而不是每次都让模型自己猜。
关联知识点:Modeling Layer 文档把 MDL 定义为物理 schema 和业务语言之间的抽象层,核心组件包括 Models、Calculated Fields、Relationships、Metrics、Dimensions。text2sql 当前实现有 semantic spine、workspace modeling 和 relationship graph。

PRINCIPLE本章背诵原则

  • 业务词必须沉淀成语义对象。
  • 指标口径要有版本、解释和评测。
  • Join、公式、默认窗口不要交给模型猜。
  • 语义层和 RAG 是召回与治理的关系。
  • 历史 runId 必须能按当时 semanticVersion 回放。