Tian Mira 如何构建包含 18,255 个规范命例的技术性八字语料库
引言
本文介绍 Tian Mira 引擎如何构建一个技术性八字(四柱命理)语料库。这不是一份人物排名,也不是占星解读,而是一项基础性工作:收集公开的出生数据,进行审计,完成跨源匹配,去重,并生成一致的、有文档记录的四柱计算结果。
最终语料库包含 18,255 个规范命例,每个命例均配备完整的 advanced_v2 计算。它源自两个在法律上相互独立的集合的 19,394 条源记录。
为什么要构建技术性八字语料库
仅凭少数精选案例,无法严肃地评估一个八字引擎。要检验计算一致性、真太阳时校正精度、四柱稳定性以及五行加权,就需要一个足够庞大、有文档记录且可验证的语料库。
构建这个语料库需要:
- 收集可靠的源出生记录;
- 在不改动的前提下进行审计;
- 识别跨源重复记录;
- 判定两条记录何时指向同一人;
- 在身份尚不确定时,保留各自独立的命例。
两个源数据集合,两种不同的权利制度
本语料库结合了两个受不同条款约束的集合。
Astro-Databank C 集合
- 3,604 条出生记录(C 字母);
- 全部记录的 Rodden 评级均为 AA;
- 已逐行对照官方 C 样本进行核实;
- 严格限于非商业用途;
- 要求注明出处(出生数据:Astro-Databank / Astrodienst;计算:Tian Mira);
- 未经权利人明确许可,禁止商业使用。
VedAstro 集合
- 15,790 条有效 AA 记录,来源于 VedAstro 数据集;
- 上游数据集在 HuggingFace 平台上标注为 MIT 许可;
- 底层数据溯源(与 Astro-Databank 的关联)未经 Tian Mira 逐行核实;
- Tian Mira 不担保每条记录的完整权利链条。
本语料库结合了受不同上游条款约束的记录。没有任何单一许可适用于全部记录。
从 19,394 条源记录到 18,255 个规范命例
源记录
来自上游集合的每条出生数据即为一条源记录。总数为:
3,604 + 15,790 = 19,394 条源记录
跨源匹配
当一条 Astro-Databank 记录与一条 VedAstro 记录可能指向同一人时,即建立一个跨源链接。匹配过程会比较姓名、日期、时间、地点及坐标。
整个语料库共审查了 1,236 条链接:
- 1,139 条已确认的链接(同一人);
- 97 条未合并的链接(身份不确定、数据冲突或坐标差异)。
规范命例
当两条源记录被确认为同一人时,它们生成一个单一的规范命例。官方的 Astro-Databank 数据作为主要来源予以保留。
当链接不确定或为误判时,两条记录保持独立,从而在保留每条源记录的同时,不做删减。
19,394 − 1,139 = 18,255 个规范命例
为何部分匹配未被合并
97 条未合并的链接可分为三类:
- 身份不确定(匹配置信度不足);
- 时间差异(姓名和日期相同,出生时间不同);
- 极端坐标差异(相距超过 8,000 公里,很可能指向两个不同的人或匹配错误)。
这 97 个案例均有个别记录。没有删除任何源记录:在可能进行人工核实之前,出于审慎考虑,两条记录均予保留。
18,255 次 advanced_v2 计算
每个规范命例均通过 Tian Mira 引擎进行了完整的四柱计算:
- 四柱(年柱、月柱、日柱、时柱);
- 日主;
- 藏干;
- 十神;
- 纳音;
- 高级五行加权(advanced_v2);
- 大运。
advanced_v2 方法对每个命例提供:
- 木、火、土、金、水的百分比(总和 = 100);
- 原始得分;
- 根气强度;
- 支持/压制比率;
- 结论及置信度。
不含任何叙述性、预测性或占卜性解读。
存储去重与发布架构
源数据包在 Astro-Databank 分发、VedAstro 分发和统一语料库中包含了同一计算的冗余副本。通过物理去重降低了存储容量。
| 层面 | 去重前 | 去重后 |
|---|---|---|
| 总容量 | 约 672.7 MiB | 约 342.7 MiB |
| 节省 | – | 约 330 MiB(49%) |
计划部署架构分为:
- 轻量文件(文档、A–Z 索引、模式、清单)用于公开站点——约 20.6 MiB;
- 32 个专家分片(18,255 次 advanced_v2 计算)用于 Cloudflare R2 存储——约 322.1 MiB。
每个分发(Astro-Databank 和 VedAstro)通过引用规范计算,而不进行物理复制。
数据溯源、权利与限制
各集合的权利
| 集合 | 制度 | 商业使用 |
|---|---|---|
| Astro-Databank C | 非商业 | 未经许可禁止 |
| VedAstro | 上游声明 MIT | 声明的许可允许,Tian Mira 不担保 |
统一语料库没有全局许可。每个命例保留其来源的权利制度。
限制
- VedAstro 记录的数据溯源未经逐行核实。
- 八字是一种象征性的文化体系,而非科学方法。
- Tian Mira 计算属于技术输出,并非预测。
- 历史久远的日期可能存在历法上的不确定性。
本语料库所能支持的工作
- 在庞大且有文档记录的数据集上审计八字引擎。
- 比较各元素加权方法。
- 研究四柱、日主和五行的分布规律。
- 作为技术和统计研究的基础。
- 清晰区分上游数据的权利制度。
本语料库不作主张的事项
- 所有 18,255 个命例均来自单一数据库。
- 所有上游数据均已经 Tian Mira 核实或担保。
- 该语料库可自由用于任何商业目的。
- 八字是一种预测性的科学方法。
- 可从计算中推导出预测性、医学、法律或金融性质的解读。
审慎结语
Tian Mira 2026 技术语料库是一项审计和研究工具。它记录了来源、匹配决策、合并规则、计算方式、限制条件和权利制度。它不声称能预测任何事情。
方法论上的透明不是卖点:它是一个技术语料库能够经受检验、挑战、修正和改善的最低条件。
方法附注
- 引擎:Tian Mira 八字计算引擎
- 方法:advanced_v2(基于根气、季节、干支互动及藏干的标准化加权)
- 校正:结合历史时区和时差的真太阳时
- 地理编码:本地 GeoNames 索引
- 解读:无(纯技术输出)
推荐引用
Tian Mira,《技术性八字语料库 2026——规范数据模型与 advanced_v2 计算》,轻量版本 2026.1,2026 年 6 月。
>
出生数据:Astro-Databank/Astrodienst(C 集合,3,604 条记录,非商业用途)和 VedAstro 数据集(15,790 条记录,上游声明 MIT 许可)。
>
八字计算及规范数据模型:Tian Mira。
当前状态
公开可下载数据集:3 604 个 Astro-Databank C 命例,免费,仅限非商业用途。18 255 个规范命例的统一语料库和 VedAstro 数据不提供公开下载。