Tian Mira 如何建立包含 18,255 個規範命例的技術性八字語料庫

引言

本文介紹 Tian Mira 引擎如何建立一個技術性八字（四柱命理）語料庫。這不是一份人物排名，也不是占星解讀，而是一項基礎性工作：蒐集公開的出生資料，進行審計，完成跨來源比對，去重，並產出一致的、有文件紀錄的四柱計算結果。

最終語料庫包含 18,255 個規範命例，每個命例皆配備完整的 advanced_v2 計算。它源自兩個在法律上相互獨立的集合之 19,394 條來源記錄。

為什麼要建立技術性八字語料庫

僅憑少數精選案例，無法嚴肅地評估一個八字引擎。要檢驗計算一致性、真太陽時校正精度、四柱穩定性以及五行加權，就需要一個足夠龐大、有文件紀錄且可驗證的語料庫。

建立這個語料庫需要：

蒐集可靠的來源出生記錄；
在不更動的前提下進行審計；
識別跨來源重複記錄；
判定兩條記錄何時指向同一人；
在身份尚不確定時，保留各自獨立的命例。

兩個來源資料集合，兩種不同的權利制度

本語料庫結合了兩個受不同條款約束的集合。

Astro-Databank C 集合

3,604 條出生記錄（C 字母）；
全部記錄的 Rodden 評級均為 AA；
已逐行對照官方 C 樣本進行核實；
嚴格限於非商業用途；
要求註明出處（出生資料：Astro-Databank / Astrodienst；計算：Tian Mira）；
未經權利人明確許可，禁止商業使用。

VedAstro 集合

15,790 條有效 AA 記錄，來源於 VedAstro 資料集；
上游資料集在 HuggingFace 平台上標註為 MIT 許可；
底層資料溯源（與 Astro-Databank 的關聯）未經 Tian Mira 逐行核實；
Tian Mira 不擔保每條記錄的完整權利鏈條。

本語料庫結合了受不同上游條款約束的記錄。沒有任何單一許可適用於全部記錄。

從 19,394 條來源記錄到 18,255 個規範命例

來源記錄

來自上游集合的每條出生資料即為一條來源記錄。總數為：

3,604 + 15,790 = 19,394 條來源記錄

跨來源比對

當一條 Astro-Databank 記錄與一條 VedAstro 記錄可能指向同一人時，即建立一個跨來源連結。比對過程會比較姓名、日期、時間、地點及座標。

整個語料庫共審查了 1,236 條連結：

1,139 條已確認的連結（同一人）；
97 條未合併的連結（身份不確定、資料衝突或座標差異）。

規範命例

當兩條來源記錄被確認為同一人時，它們產生一個單一的規範命例。官方的 Astro-Databank 資料作為主要來源予以保留。

當連結不確定或為誤判時，兩條記錄保持獨立，從而在保留每條來源記錄的同時，不做刪減。

19,394 − 1,139 = 18,255 個規範命例

為何部分比對未被合併

97 條未合併的連結可分為三類：

身份不確定（比對信心度不足）；
時間差異（姓名和日期相同，出生時間不同）；
極端座標差異（相距超過 8,000 公里，很可能指向兩個不同的人或比對錯誤）。

這 97 個案例均有個別記錄。沒有刪除任何來源記錄：在可能進行人工核實之前，出於審慎考量，兩條記錄均予保留。

18,255 次 advanced_v2 計算

每個規範命例皆透過 Tian Mira 引擎進行了完整的四柱計算：

四柱（年柱、月柱、日柱、時柱）；
日主；
藏干；
十神；
納音；
高階五行加權（advanced_v2）；
大運。

advanced_v2 方法對每個命例提供：

木、火、土、金、水的百分比（總和 = 100）；
原始得分；
根氣強度；
支援／壓制比率；
結論及信心度。

不含任何敘述性、預測性或占卜性解讀。

儲存去重與發布架構

來源資料包在 Astro-Databank 分發、VedAstro 分發和統一的語料庫中包含了同一計算的冗餘副本。透過物理去重降低了儲存容量。

層面	去重前	去重後
總容量	約 672.7 MiB	約 342.7 MiB
節省	–	約 330 MiB（49%）

計劃部署架構分為：

輕量檔案（文件、A–Z 索引、模式、清單）用於公開站點——約 20.6 MiB；
32 個專家分片（18,255 次 advanced_v2 計算）用於 Cloudflare R2 儲存——約 322.1 MiB。

每個分發（Astro-Databank 和 VedAstro）透過引用規範計算，而不進行物理複製。

資料溯源、權利與限制

各集合的權利

集合	制度	商業使用
Astro-Databank C	非商業	未經許可禁止
VedAstro	上游聲明 MIT	聲明的許可允許，Tian Mira 不擔保

統一的語料庫沒有全域許可。每個命例保留其來源的權利制度。

限制

VedAstro 記錄的資料溯源未經逐行核實。
八字是一種象徵性的文化體系，而非科學方法。
Tian Mira 計算屬於技術輸出，並非預測。
歷史久遠的日期可能存在曆法上的不確定性。

本語料庫所能支援的工作

在龐大且有文件紀錄的資料集上審計八字引擎。
比較各元素加權方法。
研究四柱、日主和五行的分佈規律。
作為技術和統計研究的基礎。
清晰區分上游資料的權利制度。

本語料庫不作主張的事項

所有 18,255 個命例均來自單一資料庫。
所有上游資料均已經 Tian Mira 核實或擔保。
該語料庫可自由用於任何商業目的。
八字是一種預測性的科學方法。
可從計算中推導出預測性、醫學、法律或金融性質的解讀。

審慎結語

Tian Mira 2026 技術語料庫是一項審計和研究工具。它記錄了來源、比對決策、合併規則、計算方式、限制條件和權利制度。它不聲稱能預測任何事情。

方法論上的透明不是賣點：它是一個技術語料庫能夠經受檢驗、挑戰、修正和改善的最低條件。

方法附註

引擎：Tian Mira 八字計算引擎
方法：advanced_v2（基於根氣、季節、干支互動及藏干的標準化加權）
校正：結合歷史時區和時差的真太陽時
地理編碼：本地 GeoNames 索引
解讀：無（純技術輸出）

當前狀態

公開可下載資料集：3 604 個 Astro-Databank C 命例，免費，僅限非商業用途。18 255 個規範命例的統一語料庫和 VedAstro 資料不提供公開下載。