MiraVotre conseillère Ba Zi

Recherche technique · Corpus BaZi 2026

Comment Tian Mira a construit un corpus technique BaZi de 18 255 profils canoniques

Introduction

Ce document décrit la construction d’un corpus technique BaZi par le moteur Tian Mira. Il ne s’agit pas d’un classement de personnalités, ni d’une interprétation astrologique, mais d’un travail de fondation : rassembler des données de naissance publiques, les vérifier, les rapprocher, les dédupliquer et produire des calculs BaZi homogènes documentés.

Le corpus final compte 18 255 profils canoniques, chacun doté d’un calcul advanced_v2 complet. Il repose sur 19 394 enregistrements source issus de deux collections juridiquement distinctes.

Pourquoi construire un corpus technique BaZi

Un moteur BaZi ne peut être évalué sérieusement sur quelques cas choisis. Pour contrôler la cohérence des calculs, la correction solaire, la stabilité des piliers et la pondération des éléments, il faut un corpus suffisamment large, documenté et vérifiable.

Construire ce corpus a exigé :

  • de collecter des enregistrements source fiables ;
  • de les auditer sans les altérer ;
  • d’identifier les doublons intersources ;
  • de décider quand deux enregistrements désignent la même personne ;
  • de conserver les profils distincts lorsque l’identité reste incertaine.

Deux collections source, deux régimes distincts

Le corpus combine deux collections qui ne sont pas soumises au même régime de droits.

Collection Astro-Databank C

  • 3 604 enregistrements de naissance (lettre C) ;
  • Rodden Rating AA pour tous les enregistrements ;
  • vérifiés ligne par ligne dans le corpus officiel ;
  • usage strictement non commercial ;
  • attribution requise (données : Astro-Databank / Astrodienst ; calculs : Tian Mira) ;
  • usage commercial interdit sans permission explicite du titulaire des droits.

Collection VedAstro

  • 15 790 enregistrements AA valides du dataset VedAstro ;
  • dataset déclaré MIT par son éditeur sur HuggingFace ;
  • provenance sous-jacente (lien avec Astro-Databank) non vérifiée ligne par ligne par Tian Mira ;
  • Tian Mira ne garantit pas la chaîne complète des droits de chaque enregistrement.

Ce corpus combine des enregistrements soumis à des conditions amont différentes. Aucune licence unique ne s’applique à l’ensemble.

De 19 394 enregistrements à 18 255 profils canoniques

Enregistrements source

Chaque entrée de naissance provenant d’une collection amont est un enregistrement source. Le total s’élève à :

3 604 + 15 790 = 19 394 enregistrements source

Rapprochement intersources

Un lien intersource est établi lorsqu’un enregistrement Astro-Databank et un enregistrement VedAstro sont susceptibles de désigner la même personne. Le rapprochement compare le nom, la date, l’heure, le lieu et les coordonnées.

Sur l’ensemble du corpus, 1 236 liens ont été examinés :

  • 1 139 liens confirmés (même personne) ;
  • 97 liens non fusionnés (identité incertaine, données divergentes ou conflit de coordonnées).

Profil canonique

Lorsque deux enregistrements source sont confirmés comme désignant la même personne, ils produisent un seul profil canonique. Les données officielles Astro-Databank sont conservées comme source principale.

Lorsque le lien est incertain ou faux, les deux enregistrements restent distincts, préservant ainsi chaque source sans la supprimer.

19 394 − 1 139 = 18 255 profils canoniques

Pourquoi certaines correspondances n’ont pas été fusionnées

Les 97 liens non fusionnés relèvent de trois situations :

  • identité incertaine (niveau de correspondance trop faible) ;
  • divergence d’heure (même nom, même date, heure différente) ;
  • divergence extrême de coordonnées (plus de 8 000 km, signalant probablement deux personnes distinctes ou une erreur de rapprochement).

Ces 97 cas sont documentés individuellement. Aucun enregistrement source n’a été supprimé : la prudence exige de conserver les deux entrées jusqu’à une éventuelle vérification humaine.

Les 18 255 calculs advanced_v2

Chaque profil canonique bénéficie d’un calcul BaZi complet via le moteur Tian Mira :

  • Quatre Piliers (année, mois, jour, heure) ;
  • Maître du Jour ;
  • Tiges cachées ;
  • Dix Dieux ;
  • Na Yin ;
  • Pondération avancée des cinq éléments (advanced_v2) ;
  • Cycles de chance.

La méthode advanced_v2 expose pour chaque profil :

  • les pourcentages Bois, Feu, Terre, Métal, Eau (somme = 100) ;
  • les scores bruts ;
  • la force des racines ;
  • le ratio support / pression ;
  • la conclusion et le niveau de confiance.

Aucune interprétation narrative, prédictive ou divinatoire n’est incluse.

Déduplication du stockage et architecture de publication

Le paquet source contenait des copies redondantes des mêmes calculs dans les distributions Astro-Databank, VedAstro et le corpus unifié. Une déduplication physique a permis de réduire le volume de stockage.

NiveauAvantAprès
Volume totalenviron 672,7 MiBenviron 342,7 MiB
Économieenviron 330 MiB (49 %)

L’architecture de déploiement prévue sépare :

  • les fichiers légers (documentation, index A–Z, schémas, manifestes) destinés au site public — environ 20,6 MiB ;
  • les 32 shards experts (18 255 calculs advanced_v2) destinés à un stockage Cloudflare R2 — environ 322,1 MiB.

Chaque distribution (Astro-Databank et VedAstro) référence les calculs canoniques sans les dupliquer physiquement.

Provenance, droits et limites

Droits par collection

CollectionRégimeUsage commercial
Astro-Databank CNon commercialInterdit sans permission
VedAstroMIT déclaré en amontPermis par la licence déclarée, non garanti par Tian Mira

Le corpus unifié n’a pas de licence globale. Chaque profil conserve son régime de droits d’origine.

Limites

  • La provenance des enregistrements VedAstro n’est pas vérifiée ligne par ligne.
  • Le BaZi est un système symbolique et culturel, non une méthode scientifique.
  • Les calculs Tian Mira sont des sorties techniques, non des prédictions.
  • Les dates historiques anciennes peuvent comporter des incertitudes de calendrier.

Ce que le corpus permet

  • Auditer un moteur BaZi sur un large ensemble documenté.
  • Comparer des méthodes de pondération élémentaire.
  • Étudier la distribution des piliers, des Maîtres du Jour et des éléments.
  • Servir de base à des recherches techniques et statistiques.
  • Distinguer clairement les régimes de droits des données amont.

Ce qu’il ne permet pas d’affirmer

  • Que les 18 255 profils proviennent d’une base unique.
  • Que toutes les données amont sont vérifiées ou garanties par Tian Mira.
  • Que le corpus est libre de droits pour tout usage commercial.
  • Que le BaZi constitue une méthode scientifique prédictive.
  • Qu’une interprétation prédictive, médicale, juridique ou financière peut être extraite des calculs.

Conclusion prudente

Le corpus technique Tian Mira 2026 est un outil de travail et d’audit. Il documente ses sources, ses rapprochements, ses décisions de fusion, ses calculs, ses limites et ses régimes de droits. Il ne prétend rien prédire.

La transparence méthodologique n’est pas un argument de vente : c’est la condition minimale pour qu’un corpus technique puisse être examiné, contesté, corrigé et amélioré.

Encadré méthodologique

  • Moteur : Tian Mira BaZi calculation engine
  • Méthode : advanced_v2 (pondération normalisée avec racines, saison, interactions tige-branche et tiges cachées)
  • Correction : temps solaire vrai avec fuseau historique et équation du temps
  • Géocodage : index GeoNames local
  • Interprétation : aucune (sorties purement techniques)

Citation recommandée

Tian Mira, Corpus technique BaZi 2026 — modèle canonique et calculs advanced_v2, version légère 2026.1, juin 2026.

>

Données de naissance : Astro-Databank/Astrodienst (collection C, 3 604 enregistrements, usage non commercial) et dataset VedAstro (15 790 enregistrements, MIT déclaré en amont).

>

Calculs BaZi et modèle canonique : Tian Mira.

Statut actuel

Dataset public téléchargeable : 3 604 profils Astro-Databank C, gratuit, usage non commercial uniquement. Le corpus unifié de 18 255 profils et les données VedAstro ne sont pas proposés au téléchargement public.