# Méthode — tian_mira_site_audit_v0

## Chaîne de production

```
Sources publiques → Manifest → Fusion → QA → Export → Bundle public
```

1. **Sources** : données publiques importées dans `refs/`
2. **Manifest** : description déclarative des colonnes, types, clés, alias (YAML)
3. **Fusion** : union multi-sources avec normalisation, casting, dédoublonnage (DuckDB/Pandas)
4. **QA** : contrôles qualité (types, valeurs, géolocalisation, intégrité, anomalies)
5. **Export** : dataset.parquet (format principal), sample.csv, sample.ndjson
6. **Bundle** : packaging des exports publics avec métadonnées, citations, checksums

## Limites méthodologiques
- Les données sont fusionnées telles quelles depuis les sources. Aucune interprétation.
- La QA vérifie la cohérence interne, pas l'exactitude des sources.
- Le géocodage est effectué en offline (BAN-Lite).
- Les colonnes techniques internes (`__source`, `tmp_*`, `rag_*`) sont exclues des exports publics.

## Reproductibilité
Le run est reproductible via le manifeste et les seeds documentés dans `run_summary.json`.
Commande de reproduction dans `reports/repro_commands.sh` si disponible.
