================================================================================
  EXTRAER INFO DE LA BASE DE DATOS — ESTADO DE DATOS FLUJOS_DATOS
  Fecha: 2026-04-01
================================================================================

  Este documento recoge el estado actual de los datos del proyecto FLUJOS,
  tanto en disco como en MongoDB, y los comandos necesarios para replicar
  esta extracción en cualquier momento futuro.


================================================================================
  1. ESTADO DE MONGODB (base de datos: FLUJOS_DATOS)
================================================================================

  +------------------+----------------+------------------------------------------+
  | Colección        | Documentos     | Campos                                   |
  +------------------+----------------+------------------------------------------+
  | comparaciones    | 52.568.835     | noticia1, noticia2, porcentaje_similitud |
  | wikipedia        | 25.448         | archivo, tema, subtema, fecha, texto     |
  +------------------+----------------+------------------------------------------+

  NOTA: NOTICIAS y WikiLeaks/Torrents NO están en MongoDB todavía.
        Solo existen como ficheros en disco.


================================================================================
  2. ESTADO EN DISCO — ARCHIVOS FÍSICOS
================================================================================

  NOTICIAS
  +-------------------------------+-------------------------------+-----------+---------+
  | Sección                       | Directorio                    | Archivos  | Tamaño  |
  +-------------------------------+-------------------------------+-----------+---------+
  | Artículos (txt scrapeados)    | NOTICIAS/articulos/           | 41.467    |         |
  | Archivos raw (PDF, HTML...)   | NOTICIAS/archivos/            |  1.870    |         |
  | TOTAL NOTICIAS                |                               | 43.337    |  1.9 GB |
  +-------------------------------+-------------------------------+-----------+---------+

  WIKIPEDIA
  +-------------------------------+--------------------------------------+-----------+---------+
  | Sección                       | Directorio                           | Archivos  | Tamaño  |
  +-------------------------------+--------------------------------------+-----------+---------+
  | Artículos Wikipedia           | WIKIPEDIA/articulos_wikipedia/       | 25.448    |         |
  | Artículos tokenizados         | WIKIPEDIA/articulos_tokenizados/     | 25.448    |         |
  | TOTAL WIKIPEDIA               | (25.448 artículos + sus tokens)      | 50.896    |  611 MB |
  +-------------------------------+--------------------------------------+-----------+---------+

  TORRENTS / WIKILEAKS
  +-------------------------------+------------------------------------------+-----------+---------+
  | Sección                       | Directorio                               | Archivos  | Tamaño  |
  +-------------------------------+------------------------------------------+-----------+---------+
  | Textos extraídos              | TORRENTS/TORRENTS_WIKILEAKS_COMPLETO/txt/| 36.183    |         |
  | Tokenizados                   | TORRENTS/TORRENTS_WIKILEAKS_COMPLETO/    |           |         |
  |                               |          tokenized/                      | 36.183    |         |
  | TOTAL TORRENTS                |                                          | 72.370    |  1.1 GB |
  +-------------------------------+------------------------------------------+-----------+---------+

  MongoDB (datos físicos en disco)
  +-------------------------------+-----------+
  | Directorio MONGO/             | Tamaño    |
  +-------------------------------+-----------+
  | MONGO/                        |   3.2 GB  |
  +-------------------------------+-----------+


================================================================================
  3. COMPARACIONES — AVANCE DEL PROCESADO
================================================================================

  Las 52.5M comparaciones corresponden a artículos WIKIPEDIA cruzados entre sí
  (los nombres en la colección son del tipo "ISO_IEC 27032.txt",
  "Auditorio _Benito Juárez_.txt", etc.).

  Estimación matemática usando N*(N-1)/2 = total_comparaciones:
    sqrt(2 * 52.568.835) ≈ 10.254 artículos ya cruzados entre sí

  +---------------------------+-----------+-----------+-----------+
  |                           | Wikipedia | NOTICIAS  | WikiLeaks |
  +---------------------------+-----------+-----------+-----------+
  | Archivos en disco         | 25.448    | 43.337    | 36.183    |
  | Cargados en MongoDB       | 25.448 ✓  |     0 ✗   |     0 ✗   |
  | Artículos comparados      | ~10.254   |     -     |     -     |
  | % comparado               | ~40%      |     -     |     -     |
  | Artículos pendientes      | ~15.194   |     -     |     -     |
  | Pares pendientes aprox.   | ~115M     |     -     |     -     |
  +---------------------------+-----------+-----------+-----------+


================================================================================
  4. COMANDOS UTILIZADOS PARA EXTRAER ESTA INFORMACIÓN
================================================================================

  --- Ver variable de entorno y configuración MongoDB ---

    cat /var/www/theflows.net/flujos/.env


  --- Listar colecciones en MongoDB ---

    mongosh --quiet FLUJOS_DATOS --eval "db.getCollectionNames()"


  --- Contar documentos por colección ---

    mongosh --quiet FLUJOS_DATOS --eval "
    db.getCollectionNames().forEach(col => {
      print(col + ': ' + db[col].countDocuments() + ' docs');
    })"


  --- Ver colecciones con campos y conteo ---

    mongosh --quiet FLUJOS_DATOS --eval "
    db.getCollectionNames().forEach(col => {
      var count = db[col].countDocuments();
      var sample = db[col].findOne();
      var keys = sample ? Object.keys(sample).join(', ') : 'empty';
      print(col + ': ' + count + ' docs | fields: ' + keys);
    })"


  --- Ver un documento de muestra de comparaciones ---

    mongosh --quiet FLUJOS_DATOS --eval "
    var s = db.comparaciones.findOne();
    print(JSON.stringify(s, null, 2));"


  --- Contar archivos en disco por sección ---

    # NOTICIAS artículos
    find /var/www/theflows.net/flujos/FLUJOS_DATOS/NOTICIAS/articulos/ -type f | wc -l

    # NOTICIAS archivos raw
    find /var/www/theflows.net/flujos/FLUJOS_DATOS/NOTICIAS/archivos/ -type f | wc -l

    # WIKIPEDIA artículos
    find /var/www/theflows.net/flujos/FLUJOS_DATOS/WIKIPEDIA/articulos_wikipedia/ -type f | wc -l

    # WIKIPEDIA tokenizados
    find /var/www/theflows.net/flujos/FLUJOS_DATOS/WIKIPEDIA/articulos_tokenizados/ -type f | wc -l

    # TORRENTS total
    find /var/www/theflows.net/flujos/FLUJOS_DATOS/TORRENTS/ -type f | wc -l

    # WikiLeaks txt
    find /var/www/theflows.net/flujos/FLUJOS_DATOS/TORRENTS/TORRENTS_WIKILEAKS_COMPLETO/txt/ -type f | wc -l

    # WikiLeaks tokenizados
    find /var/www/theflows.net/flujos/FLUJOS_DATOS/TORRENTS/TORRENTS_WIKILEAKS_COMPLETO/tokenized/ -type f | wc -l


  --- Tamaño en disco por sección ---

    du -sh /var/www/theflows.net/flujos/FLUJOS_DATOS/NOTICIAS/
    du -sh /var/www/theflows.net/flujos/FLUJOS_DATOS/WIKIPEDIA/
    du -sh /var/www/theflows.net/flujos/FLUJOS_DATOS/TORRENTS/
    du -sh /var/www/theflows.net/flujos/FLUJOS_DATOS/MONGO/


  --- Estimación de artículos únicos comparados (cálculo matemático) ---

    mongosh --quiet FLUJOS_DATOS --eval "
    var total = db.comparaciones.countDocuments();
    var approxN = Math.round(Math.sqrt(2 * total));
    print('Total comparaciones: ' + total);
    print('Artículos únicos comparados (estimación): ' + approxN);"


================================================================================
  FIN DEL DOCUMENTO
================================================================================
