Preparar repositorio para despliegue: código fuente limpio

2026-01-23 02:00:40 +01:00 · 2026-01-23 02:00:40 +01:00 · 3eca832c1a
commit 3eca832c1a
parent 866f5c432d
76 changed files with 5434 additions and 3496 deletions
--- a/models/categorias.py
+++ b/models/categorias.py
@ -1,9 +1,19 @@
 from psycopg2 import extras
 from typing import List, Dict
+from cache import cache_get, cache_set


 def get_categorias(conn) -> List[Dict]:
+    # Intentar desde caché primero (datos casi estáticos)
+    cached_data = cache_get("categorias:all")
+    if cached_data:
+        return cached_data
+    
    with conn.cursor(cursor_factory=extras.DictCursor) as cur:
        cur.execute("SELECT id, nombre FROM categorias ORDER BY nombre;")
-        return cur.fetchall()
+        result = cur.fetchall()
+    
+    # Cachear por 1 hora (son datos estáticos)
+    cache_set("categorias:all", result, ttl_seconds=3600)
+    return result

--- a/models/describe.txt
+++ b/models/describe.txt
@ -1,337 +0,0 @@
-models/
-├── __init__.py              # Paquete Python (vacío)
-├── categorias.py            # Operaciones con categorías
-├── feeds.py                 # Operaciones con feeds RSS
-├── noticias.py              # Búsqueda y consulta de noticias
-└── paises.py                # Operaciones con países
-└── traducciones.py          # Operaciones con traducciones
-
-init.py
-Propósito: Archivo necesario para que Python reconozca este directorio como un paquete.
-
-Contenido: Vacío o comentario explicativo.
-
-Uso: Permite importar módulos desde models:
-
-python
-from models.noticias import buscar_noticias
-categorias.py
-Propósito: Maneja todas las operaciones relacionadas con categorías de noticias.
-
-Funciones principales:
-
-get_categorias(conn) -> List[Dict]
-Descripción: Obtiene todas las categorías disponibles ordenadas alfabéticamente.
-
-Parámetros:
-
-conn: Conexión a PostgreSQL activa
-
-Consulta SQL:
-
-sql
-SELECT id, nombre FROM categorias ORDER BY nombre;
-Retorna: Lista de diccionarios con estructura:
-
-python
-[
-    {"id": 1, "nombre": "Política"},
-    {"id": 2, "nombre": "Deportes"},
-    ...
-]
-Uso típico: Para llenar dropdowns de filtrado en la interfaz web.
-
-feeds.py
-Propósito: Maneja operaciones relacionadas con feeds RSS.
-
-Funciones principales:
-
-get_feed_by_id(conn, feed_id: int) -> Optional[Dict]
-Descripción: Obtiene un feed específico por su ID.
-
-Parámetros:
-
-conn: Conexión a PostgreSQL
-
-feed_id: ID numérico del feed
-
-Consulta SQL:
-
-sql
-SELECT * FROM feeds WHERE id = %s;
-Retorna: Un diccionario con todos los campos del feed o None si no existe.
-
-get_feeds_activos(conn) -> List[Dict]
-Descripción: Obtiene todos los feeds activos y no caídos.
-
-Criterios de activos:
-
-activo = TRUE
-
-fallos < 5 (o NULL)
-
-Consulta SQL:
-
-sql
-SELECT id, nombre, url, categoria_id, pais_id, fallos, activo
-FROM feeds
-WHERE activo = TRUE
-  AND (fallos IS NULL OR fallos < 5)
-ORDER BY id;
-Retorna: Lista de feeds activos para el ingestor RSS.
-
-Uso crítico: Esta función es utilizada por rss_ingestor.py para determinar qué feeds procesar.
-
-noticias.py
-Propósito: Módulo más complejo que maneja todas las operaciones de búsqueda y consulta de noticias.
-
-Funciones auxiliares:
-
-_extraer_tags_por_traduccion(cur, traduccion_ids: List[int]) -> Dict[int, List[tuple]]
-Descripción: Función privada que obtiene tags agrupados por ID de traducción.
-
-Parámetros:
-
-cur: Cursor de base de datos
-
-traduccion_ids: Lista de IDs de traducciones
-
-Consulta SQL:
-
-sql
-SELECT tn.traduccion_id, tg.valor, tg.tipo
-FROM tags_noticia tn
-JOIN tags tg ON tg.id = tn.tag_id
-WHERE tn.traduccion_id = ANY(%s);
-Retorna: Diccionario donde:
-
-Clave: traduccion_id
-
-Valor: Lista de tuplas (valor_tag, tipo_tag)
-
-Optimización: Evita el problema N+1 al cargar tags.
-
-Funciones principales:
-
-buscar_noticias(...) -> Tuple[List[Dict], int, int, Dict]
-Descripción: Búsqueda avanzada con múltiples filtros, paginación y traducciones.
-
-Parámetros:
-
-conn: Conexión a PostgreSQL
-
-page: Número de página (1-based)
-
-per_page: Noticias por página
-
-q: Término de búsqueda (opcional)
-
-categoria_id: Filtrar por categoría (opcional)
-
-continente_id: Filtrar por continente (opcional)
-
-pais_id: Filtrar por país (opcional)
-
-fecha: Filtrar por fecha exacta YYYY-MM-DD (opcional)
-
-lang: Idioma objetivo para traducciones (default: "es")
-
-use_tr: Incluir traducciones en búsqueda (default: True)
-
-Retorna: Tupla con 4 elementos:
-
-noticias: Lista de noticias con datos completos
-
-total_results: Total de resultados (sin paginación)
-
-total_pages: Total de páginas calculado
-
-tags_por_tr: Diccionario de tags por traducción
-
-Características de búsqueda:
-
-Filtrado por fecha: Coincidencia exacta de fecha
-
-Filtrado geográfico: País o continente (jerárquico)
-
-Filtrado por categoría: Selección única
-
-Búsqueda de texto:
-
-Búsqueda full-text con PostgreSQL (websearch_to_tsquery)
-
-Búsqueda ILIKE en múltiples campos
-
-Incluye campos originales y traducidos
-
-Paginación: Offset/Limit estándar
-
-Traducciones: JOIN condicional con tabla traducciones
-
-Optimización: Single query para contar y obtener datos
-
-Consulta SQL principal (simplificada):
-
-sql
-- Contar total
-SELECT COUNT(DISTINCT n.id)
-FROM noticias n
-- joins con categorias, paises, traducciones
-WHERE [condiciones dinámicas]
-
-- Obtener datos paginados
-SELECT
-    n.id, n.titulo, n.resumen, n.url, n.fecha,
-    n.imagen_url, n.fuente_nombre,
-    c.nombre AS categoria,
-    p.nombre AS pais,
-    t.id AS traduccion_id,
-    t.titulo_trad AS titulo_traducido,
-    t.resumen_trad AS resumen_traducido,
-    -- flag de traducción disponible
-    CASE WHEN t.id IS NOT NULL THEN TRUE ELSE FALSE END AS tiene_traduccion,
-    -- campos originales
-    n.titulo AS titulo_original,
-    n.resumen AS resumen_original
-FROM noticias n
-- joins...
-WHERE [condiciones dinámicas]
-ORDER BY n.fecha DESC NULLS LAST, n.id DESC
-LIMIT %s OFFSET %s
-Campos retornados por noticia:
-
-python
-{
-    "id": 123,
-    "titulo": "Título original",
-    "resumen": "Resumen original",
-    "url": "https://ejemplo.com/noticia",
-    "fecha": datetime(...),
-    "imagen_url": "https://.../imagen.jpg",
-    "fuente_nombre": "BBC News",
-    "categoria": "Política",
-    "pais": "España",
-    "traduccion_id": 456,  # o None
-    "titulo_traducido": "Título en español",
-    "resumen_traducido": "Resumen en español",
-    "tiene_traduccion": True,  # o False
-    "titulo_original": "Original title",
-    "resumen_original": "Original summary"
-}
-Uso en la aplicación: Esta función es el corazón de la búsqueda en la web, utilizada por los blueprints de Flask.
-
-paises.py
-Propósito: Maneja operaciones relacionadas con países.
-
-Funciones principales:
-
-get_paises(conn) -> List[Dict]
-Descripción: Obtiene todos los países ordenados alfabéticamente.
-
-Parámetros:
-
-conn: Conexión a PostgreSQL
-
-Consulta SQL:
-
-sql
-SELECT id, nombre FROM paises ORDER BY nombre;
-Retorna: Lista de diccionarios con id y nombre de cada país.
-
-Uso típico: Para dropdowns de filtrado por país en la interfaz web.
-
-traducciones.py
-Propósito: Maneja operaciones relacionadas con traducciones específicas.
-
-Funciones principales:
-
-get_traduccion(conn, traduccion_id: int) -> Optional[Dict]
-Descripción: Obtiene una traducción específica por su ID.
-
-Parámetros:
-
-conn: Conexión a PostgreSQL
-
-traduccion_id: ID numérico de la traducción
-
-Consulta SQL:
-
-sql
-SELECT * FROM traducciones WHERE id = %s;
-Retorna: Diccionario con todos los campos de la traducción o None.
-
-Campos incluidos: id, noticia_id, lang_from, lang_to, titulo_trad, resumen_trad, status, error, created_at, etc.
-
-Uso típico: Para páginas de detalle de traducciones o debugging.
-
-Patrones de Diseño Observados
-1. Separación de Responsabilidades
-Cada archivo maneja una entidad específica de la base de datos
-
-Lógica de consultas separada de lógica de negocio
-
-2. Interfaz Consistente
-Todas las funciones reciben conn como primer parámetro
-
-Retornan diccionarios (usando DictCursor)
-
-Nombres descriptivos y consistentes
-
-3. Optimización de Consultas
-Uso de _extraer_tags_por_traduccion para evitar N+1 queries
-
-Consultas COUNT y SELECT en la misma transacción
-
-Índices implícitos en ORDER BY fecha DESC
-
-4. Manejo de Traducciones
-JOIN condicional con tabla traducciones
-
-Flag tiene_traduccion para fácil verificación en frontend
-
-Campos originales siempre disponibles como fallback
-
-5. Seguridad
-Uso de parámetros preparados (%s)
-
-No concatenación directa de strings en SQL
-
-Validación implícita de tipos
-
-Flujo de Datos Típico
-python
-# En un blueprint de Flask
-from db import get_conn
-from models.noticias import buscar_noticias
-
-def ruta_buscar():
-    conn = get_conn()
-    try:
-        noticias, total, paginas, tags = buscar_noticias(
-            conn=conn,
-            page=request.args.get('page', 1, type=int),
-            per_page=20,
-            q=request.args.get('q', ''),
-            categoria_id=request.args.get('categoria_id'),
-            pais_id=request.args.get('pais_id'),
-            lang='es'
-        )
-        # Procesar resultados...
-    finally:
-        conn.close()
-Dependencias y Relaciones
-Requisito: psycopg2.extras.DictCursor para retornar diccionarios
-
-Usado por: Todos los blueprints en routers/
-
-Base de datos: Asume estructura de tablas específica (feeds, noticias, traducciones, etc.)
-
-Índices necesarios: Para optimizar búsquedas, se recomiendan índices en:
-
-noticias(fecha DESC, id DESC)
-
-traducciones(noticia_id, lang_to, status)
-
-feeds(activo, fallos)
-
-
--- a/models/noticias.py
+++ b/models/noticias.py
@ -1,8 +1,7 @@
 from psycopg2 import extras
 from typing import List, Dict, Optional, Tuple, Any
 import os
-import torch
-from sentence_transformers import SentenceTransformer
+# from sentence_transformers import SentenceTransformer (Moved to functions to avoid heavy start-up)


 def _extraer_tags_por_traduccion(cur, traduccion_ids: List[int]) -> Dict[int, List[tuple]]:
@ -74,33 +73,21 @@ def buscar_noticias(
        where.append("p.continente_id = %s")
        params.append(int(continente_id))

-    # Búsqueda
+    # Búsqueda optimizada usando FTS (Full Text Search)
    if q:
-        search_like = f"%{q}%"
        if use_tr:
            where.append(
                """
                (
-                    n.tsv @@ websearch_to_tsquery('spanish', %s)
-                    OR t.titulo_trad ILIKE %s
-                    OR t.resumen_trad ILIKE %s
-                    OR n.titulo ILIKE %s
-                    OR n.resumen ILIKE %s
+                    n.search_vector_es @@ websearch_to_tsquery('spanish', %s)
+                    OR t.search_vector_es @@ websearch_to_tsquery('spanish', %s)
                )
                """
            )
-            params.extend([q, search_like, search_like, search_like, search_like])
+            params.extend([q, q])
        else:
-            where.append(
-                """
-                (
-                    n.tsv @@ websearch_to_tsquery('spanish', %s)
-                    OR n.titulo ILIKE %s
-                    OR n.resumen ILIKE %s
-                )
-                """
-            )
-            params.extend([q, search_like, search_like])
+            where.append("n.search_vector_es @@ websearch_to_tsquery('spanish', %s)")
+            params.append(q)

    where_sql = " AND ".join(where)

@ -192,6 +179,7 @@ def buscar_noticias(
 _model_cache = {}

 def _get_emb_model():
+    from sentence_transformers import SentenceTransformer
    model_name = os.environ.get("EMB_MODEL", "sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2")
    if model_name not in _model_cache:
        device = "cuda" if torch.cuda.is_available() else "cpu"
--- a/models/paises.py
+++ b/models/paises.py
@ -1,9 +1,19 @@
 from typing import List, Dict
 from psycopg2 import extras
+from cache import cache_get, cache_set


 def get_paises(conn) -> List[Dict]:
+    # Intentar desde caché primero (datos casi estáticos)
+    cached_data = cache_get("paises:all")
+    if cached_data:
+        return cached_data
+    
    with conn.cursor(cursor_factory=extras.DictCursor) as cur:
        cur.execute("SELECT id, nombre FROM paises ORDER BY nombre;")
-        return cur.fetchall()
+        result = cur.fetchall()
+    
+    # Cachear por 1 hora (son datos estáticos)
+    cache_set("paises:all", result, ttl_seconds=3600)
+    return result