Tian Mira 如何构建包含 18,255 个规范命例的技术性八字语料库

引言

本文介绍 Tian Mira 引擎如何构建一个技术性八字（四柱命理）语料库。这不是一份人物排名，也不是占星解读，而是一项基础性工作：收集公开的出生数据，进行审计，完成跨源匹配，去重，并生成一致的、有文档记录的四柱计算结果。

最终语料库包含 18,255 个规范命例，每个命例均配备完整的 advanced_v2 计算。它源自两个在法律上相互独立的集合的 19,394 条源记录。

为什么要构建技术性八字语料库

仅凭少数精选案例，无法严肃地评估一个八字引擎。要检验计算一致性、真太阳时校正精度、四柱稳定性以及五行加权，就需要一个足够庞大、有文档记录且可验证的语料库。

构建这个语料库需要：

收集可靠的源出生记录；
在不改动的前提下进行审计；
识别跨源重复记录；
判定两条记录何时指向同一人；
在身份尚不确定时，保留各自独立的命例。

两个源数据集合，两种不同的权利制度

本语料库结合了两个受不同条款约束的集合。

Astro-Databank C 集合

3,604 条出生记录（C 字母）；
全部记录的 Rodden 评级均为 AA；
已逐行对照官方 C 样本进行核实；
严格限于非商业用途；
要求注明出处（出生数据：Astro-Databank / Astrodienst；计算：Tian Mira）；
未经权利人明确许可，禁止商业使用。

VedAstro 集合

15,790 条有效 AA 记录，来源于 VedAstro 数据集；
上游数据集在 HuggingFace 平台上标注为 MIT 许可；
底层数据溯源（与 Astro-Databank 的关联）未经 Tian Mira 逐行核实；
Tian Mira 不担保每条记录的完整权利链条。

本语料库结合了受不同上游条款约束的记录。没有任何单一许可适用于全部记录。

从 19,394 条源记录到 18,255 个规范命例

源记录

来自上游集合的每条出生数据即为一条源记录。总数为：

3,604 + 15,790 = 19,394 条源记录

跨源匹配

当一条 Astro-Databank 记录与一条 VedAstro 记录可能指向同一人时，即建立一个跨源链接。匹配过程会比较姓名、日期、时间、地点及坐标。

整个语料库共审查了 1,236 条链接：

1,139 条已确认的链接（同一人）；
97 条未合并的链接（身份不确定、数据冲突或坐标差异）。

规范命例

当两条源记录被确认为同一人时，它们生成一个单一的规范命例。官方的 Astro-Databank 数据作为主要来源予以保留。

当链接不确定或为误判时，两条记录保持独立，从而在保留每条源记录的同时，不做删减。

19,394 − 1,139 = 18,255 个规范命例

为何部分匹配未被合并

97 条未合并的链接可分为三类：

身份不确定（匹配置信度不足）；
时间差异（姓名和日期相同，出生时间不同）；
极端坐标差异（相距超过 8,000 公里，很可能指向两个不同的人或匹配错误）。

这 97 个案例均有个别记录。没有删除任何源记录：在可能进行人工核实之前，出于审慎考虑，两条记录均予保留。

18,255 次 advanced_v2 计算

每个规范命例均通过 Tian Mira 引擎进行了完整的四柱计算：

四柱（年柱、月柱、日柱、时柱）；
日主；
藏干；
十神；
纳音；
高级五行加权（advanced_v2）；
大运。

advanced_v2 方法对每个命例提供：

木、火、土、金、水的百分比（总和 = 100）；
原始得分；
根气强度；
支持/压制比率；
结论及置信度。

不含任何叙述性、预测性或占卜性解读。

存储去重与发布架构

源数据包在 Astro-Databank 分发、VedAstro 分发和统一语料库中包含了同一计算的冗余副本。通过物理去重降低了存储容量。

层面	去重前	去重后
总容量	约 672.7 MiB	约 342.7 MiB
节省	–	约 330 MiB（49%）

计划部署架构分为：

轻量文件（文档、A–Z 索引、模式、清单）用于公开站点——约 20.6 MiB；
32 个专家分片（18,255 次 advanced_v2 计算）用于 Cloudflare R2 存储——约 322.1 MiB。

每个分发（Astro-Databank 和 VedAstro）通过引用规范计算，而不进行物理复制。

数据溯源、权利与限制

各集合的权利

集合	制度	商业使用
Astro-Databank C	非商业	未经许可禁止
VedAstro	上游声明 MIT	声明的许可允许，Tian Mira 不担保

统一语料库没有全局许可。每个命例保留其来源的权利制度。

限制

VedAstro 记录的数据溯源未经逐行核实。
八字是一种象征性的文化体系，而非科学方法。
Tian Mira 计算属于技术输出，并非预测。
历史久远的日期可能存在历法上的不确定性。

本语料库所能支持的工作

在庞大且有文档记录的数据集上审计八字引擎。
比较各元素加权方法。
研究四柱、日主和五行的分布规律。
作为技术和统计研究的基础。
清晰区分上游数据的权利制度。

本语料库不作主张的事项

所有 18,255 个命例均来自单一数据库。
所有上游数据均已经 Tian Mira 核实或担保。
该语料库可自由用于任何商业目的。
八字是一种预测性的科学方法。
可从计算中推导出预测性、医学、法律或金融性质的解读。

审慎结语

Tian Mira 2026 技术语料库是一项审计和研究工具。它记录了来源、匹配决策、合并规则、计算方式、限制条件和权利制度。它不声称能预测任何事情。

方法论上的透明不是卖点：它是一个技术语料库能够经受检验、挑战、修正和改善的最低条件。

方法附注

引擎：Tian Mira 八字计算引擎
方法：advanced_v2（基于根气、季节、干支互动及藏干的标准化加权）
校正：结合历史时区和时差的真太阳时
地理编码：本地 GeoNames 索引
解读：无（纯技术输出）

当前状态

公开可下载数据集：3 604 个 Astro-Databank C 命例，免费，仅限非商业用途。18 255 个规范命例的统一语料库和 VedAstro 数据不提供公开下载。