Tian Mira 如何建立包含 18,255 個規範命例的技術性八字語料庫
引言
本文介紹 Tian Mira 引擎如何建立一個技術性八字(四柱命理)語料庫。這不是一份人物排名,也不是占星解讀,而是一項基礎性工作:蒐集公開的出生資料,進行審計,完成跨來源比對,去重,並產出一致的、有文件紀錄的四柱計算結果。
最終語料庫包含 18,255 個規範命例,每個命例皆配備完整的 advanced_v2 計算。它源自兩個在法律上相互獨立的集合之 19,394 條來源記錄。
為什麼要建立技術性八字語料庫
僅憑少數精選案例,無法嚴肅地評估一個八字引擎。要檢驗計算一致性、真太陽時校正精度、四柱穩定性以及五行加權,就需要一個足夠龐大、有文件紀錄且可驗證的語料庫。
建立這個語料庫需要:
- 蒐集可靠的來源出生記錄;
- 在不更動的前提下進行審計;
- 識別跨來源重複記錄;
- 判定兩條記錄何時指向同一人;
- 在身份尚不確定時,保留各自獨立的命例。
兩個來源資料集合,兩種不同的權利制度
本語料庫結合了兩個受不同條款約束的集合。
Astro-Databank C 集合
- 3,604 條出生記錄(C 字母);
- 全部記錄的 Rodden 評級均為 AA;
- 已逐行對照官方 C 樣本進行核實;
- 嚴格限於非商業用途;
- 要求註明出處(出生資料:Astro-Databank / Astrodienst;計算:Tian Mira);
- 未經權利人明確許可,禁止商業使用。
VedAstro 集合
- 15,790 條有效 AA 記錄,來源於 VedAstro 資料集;
- 上游資料集在 HuggingFace 平台上標註為 MIT 許可;
- 底層資料溯源(與 Astro-Databank 的關聯)未經 Tian Mira 逐行核實;
- Tian Mira 不擔保每條記錄的完整權利鏈條。
本語料庫結合了受不同上游條款約束的記錄。沒有任何單一許可適用於全部記錄。
從 19,394 條來源記錄到 18,255 個規範命例
來源記錄
來自上游集合的每條出生資料即為一條來源記錄。總數為:
3,604 + 15,790 = 19,394 條來源記錄
跨來源比對
當一條 Astro-Databank 記錄與一條 VedAstro 記錄可能指向同一人時,即建立一個跨來源連結。比對過程會比較姓名、日期、時間、地點及座標。
整個語料庫共審查了 1,236 條連結:
- 1,139 條已確認的連結(同一人);
- 97 條未合併的連結(身份不確定、資料衝突或座標差異)。
規範命例
當兩條來源記錄被確認為同一人時,它們產生一個單一的規範命例。官方的 Astro-Databank 資料作為主要來源予以保留。
當連結不確定或為誤判時,兩條記錄保持獨立,從而在保留每條來源記錄的同時,不做刪減。
19,394 − 1,139 = 18,255 個規範命例
為何部分比對未被合併
97 條未合併的連結可分為三類:
- 身份不確定(比對信心度不足);
- 時間差異(姓名和日期相同,出生時間不同);
- 極端座標差異(相距超過 8,000 公里,很可能指向兩個不同的人或比對錯誤)。
這 97 個案例均有個別記錄。沒有刪除任何來源記錄:在可能進行人工核實之前,出於審慎考量,兩條記錄均予保留。
18,255 次 advanced_v2 計算
每個規範命例皆透過 Tian Mira 引擎進行了完整的四柱計算:
- 四柱(年柱、月柱、日柱、時柱);
- 日主;
- 藏干;
- 十神;
- 納音;
- 高階五行加權(advanced_v2);
- 大運。
advanced_v2 方法對每個命例提供:
- 木、火、土、金、水的百分比(總和 = 100);
- 原始得分;
- 根氣強度;
- 支援/壓制比率;
- 結論及信心度。
不含任何敘述性、預測性或占卜性解讀。
儲存去重與發布架構
來源資料包在 Astro-Databank 分發、VedAstro 分發和統一的語料庫中包含了同一計算的冗餘副本。透過物理去重降低了儲存容量。
| 層面 | 去重前 | 去重後 |
|---|---|---|
| 總容量 | 約 672.7 MiB | 約 342.7 MiB |
| 節省 | – | 約 330 MiB(49%) |
計劃部署架構分為:
- 輕量檔案(文件、A–Z 索引、模式、清單)用於公開站點——約 20.6 MiB;
- 32 個專家分片(18,255 次 advanced_v2 計算)用於 Cloudflare R2 儲存——約 322.1 MiB。
每個分發(Astro-Databank 和 VedAstro)透過引用規範計算,而不進行物理複製。
資料溯源、權利與限制
各集合的權利
| 集合 | 制度 | 商業使用 |
|---|---|---|
| Astro-Databank C | 非商業 | 未經許可禁止 |
| VedAstro | 上游聲明 MIT | 聲明的許可允許,Tian Mira 不擔保 |
統一的語料庫沒有全域許可。每個命例保留其來源的權利制度。
限制
- VedAstro 記錄的資料溯源未經逐行核實。
- 八字是一種象徵性的文化體系,而非科學方法。
- Tian Mira 計算屬於技術輸出,並非預測。
- 歷史久遠的日期可能存在曆法上的不確定性。
本語料庫所能支援的工作
- 在龐大且有文件紀錄的資料集上審計八字引擎。
- 比較各元素加權方法。
- 研究四柱、日主和五行的分佈規律。
- 作為技術和統計研究的基礎。
- 清晰區分上游資料的權利制度。
本語料庫不作主張的事項
- 所有 18,255 個命例均來自單一資料庫。
- 所有上游資料均已經 Tian Mira 核實或擔保。
- 該語料庫可自由用於任何商業目的。
- 八字是一種預測性的科學方法。
- 可從計算中推導出預測性、醫學、法律或金融性質的解讀。
審慎結語
Tian Mira 2026 技術語料庫是一項審計和研究工具。它記錄了來源、比對決策、合併規則、計算方式、限制條件和權利制度。它不聲稱能預測任何事情。
方法論上的透明不是賣點:它是一個技術語料庫能夠經受檢驗、挑戰、修正和改善的最低條件。
方法附註
- 引擎:Tian Mira 八字計算引擎
- 方法:advanced_v2(基於根氣、季節、干支互動及藏干的標準化加權)
- 校正:結合歷史時區和時差的真太陽時
- 地理編碼:本地 GeoNames 索引
- 解讀:無(純技術輸出)
推薦引用
Tian Mira,《技術性八字語料庫 2026——規範資料模型與 advanced_v2 計算》,輕量版本 2026.1,2026 年 6 月。
>
出生資料:Astro-Databank/Astrodienst(C 集合,3,604 條記錄,非商業用途)和 VedAstro 資料集(15,790 條記錄,上游聲明 MIT 許可)。
>
八字計算及規範資料模型:Tian Mira。
當前狀態
公開可下載資料集:3 604 個 Astro-Databank C 命例,免費,僅限非商業用途。18 255 個規範命例的統一語料庫和 VedAstro 資料不提供公開下載。