una app que recopila noticias de todo el munndo, las traduce y las convierte a vectorial para busquedas semanticas
Find a file
2026-01-28 11:20:19 +01:00
docs cambios en la busqueda ajaz y correcciones en traducciones 2026-01-28 11:20:19 +01:00
init-db Preparar repositorio para despliegue: código fuente limpio 2026-01-23 02:00:40 +01:00
init-replica Initial clean commit 2026-01-13 13:39:51 +01:00
migrations Preparar repositorio para despliegue: código fuente limpio 2026-01-23 02:00:40 +01:00
models aumento de velocidad y cambios en el tema de noticias relacionadas 2026-01-25 07:33:57 +01:00
monitoring Initial clean commit 2026-01-13 13:39:51 +01:00
routers aumento de velocidad y cambios en el tema de noticias relacionadas 2026-01-25 07:33:57 +01:00
rss-ingestor-go Initial clean commit 2026-01-13 13:39:51 +01:00
scripts cambios en la busqueda ajaz y correcciones en traducciones 2026-01-28 11:20:19 +01:00
static cambios en la busqueda ajaz y correcciones en traducciones 2026-01-28 11:20:19 +01:00
templates cambios en la busqueda ajaz y correcciones en traducciones 2026-01-28 11:20:19 +01:00
utils aumento de velocidad y cambios en el tema de noticias relacionadas 2026-01-25 07:33:57 +01:00
workers cambios en la busqueda ajaz y correcciones en traducciones 2026-01-28 11:20:19 +01:00
.dockerignore Preparar repositorio para despliegue: código fuente limpio 2026-01-23 02:00:40 +01:00
.env.example Initial clean commit 2026-01-13 13:39:51 +01:00
.env.secure.example Initial clean commit 2026-01-13 13:39:51 +01:00
.gitignore Preparar repositorio para despliegue: código fuente limpio 2026-01-23 02:00:40 +01:00
app.py Preparar repositorio para despliegue: código fuente limpio 2026-01-23 02:00:40 +01:00
cache.py Preparar repositorio para despliegue: código fuente limpio 2026-01-23 02:00:40 +01:00
config.py Initial clean commit 2026-01-13 13:39:51 +01:00
db.py Initial clean commit 2026-01-13 13:39:51 +01:00
DEPLOY.md Initial clean commit 2026-01-13 13:39:51 +01:00
docker-compose.yml Preparar repositorio para despliegue: código fuente limpio 2026-01-23 02:00:40 +01:00
Dockerfile Initial clean commit 2026-01-13 13:39:51 +01:00
Dockerfile.llm_worker Preparar repositorio para despliegue: código fuente limpio 2026-01-23 02:00:40 +01:00
Dockerfile.replica Initial clean commit 2026-01-13 13:39:51 +01:00
Dockerfile.url_worker Initial clean commit 2026-01-13 13:39:51 +01:00
entity_config.json Initial clean commit 2026-01-13 13:39:51 +01:00
FUNCIONES_DE_ARCHIVOS.md Preparar repositorio para despliegue: código fuente limpio 2026-01-23 02:00:40 +01:00
generate_secure_credentials.sh Initial clean commit 2026-01-13 13:39:51 +01:00
gunicorn_config.py Initial clean commit 2026-01-13 13:39:51 +01:00
IMPLEMENTACION_LLM_RESUMEN.md Preparar repositorio para despliegue: código fuente limpio 2026-01-23 02:00:40 +01:00
inspect_qdrant.py aumento de velocidad y cambios en el tema de noticias relacionadas 2026-01-25 07:33:57 +01:00
migrate_to_secure.sh Initial clean commit 2026-01-13 13:39:51 +01:00
NEWSPAPER_STYLE_GUIDE.md Preparar repositorio para despliegue: código fuente limpio 2026-01-23 02:00:40 +01:00
nginx.conf Preparar repositorio para despliegue: código fuente limpio 2026-01-23 02:00:40 +01:00
QDRANT_SETUP.md Initial clean commit 2026-01-13 13:39:51 +01:00
QUICKSTART_LLM.md Preparar repositorio para despliegue: código fuente limpio 2026-01-23 02:00:40 +01:00
README.md cambios en la busqueda ajaz y correcciones en traducciones 2026-01-28 11:20:19 +01:00
requirements.txt Initial clean commit 2026-01-13 13:39:51 +01:00
reset_and_deploy.sh Initial clean commit 2026-01-13 13:39:51 +01:00
scheduler.py Initial clean commit 2026-01-13 13:39:51 +01:00
SECURITY_AUDIT.md Initial clean commit 2026-01-13 13:39:51 +01:00
SECURITY_GUIDE.md Initial clean commit 2026-01-13 13:39:51 +01:00
start_docker.sh limpieza 2026-01-13 13:55:44 +01:00
TRANSLATION_FIX_SUMMARY.md cambios en la busqueda ajaz y correcciones en traducciones 2026-01-28 11:20:19 +01:00
translation_ops.py Initial clean commit 2026-01-13 13:39:51 +01:00
verify_security.sh Initial clean commit 2026-01-13 13:39:51 +01:00

RSS2 - Plataforma de Inteligencia de Noticias con IA 🚀

RSS2 es una plataforma avanzada de agregación, traducción, análisis y vectorización de noticias diseñada para transformar flujos masivos de información en inteligencia accionable. Utiliza una arquitectura de microservicios híbrida (Go + Python) con modelos de Inteligencia Artificial de vanguardia para ofrecer búsqueda semántica, clasificación inteligente y automatización de contenidos.


Características Principales

  • 🤖 Categorización Inteligente (LLM): Clasificación de noticias mediante Mistral-7B local (ExLlamaV2/GPTQ), procesando lotes de alta velocidad.
  • 🔍 Búsqueda Semántica: Motor vectorial Qdrant para encontrar noticias por contexto y significado, no solo por palabras clave.
  • 🌍 Traducción Neuronal de Alta Calidad: Integración con NLLB-200 para traducir noticias de múltiples idiomas al español con validación post-proceso para evitar repeticiones.
  • 📊 Inteligencia de Entidades: Extracción automática y normalización de Personas, Organizaciones y Lugares para análisis de tendencias.
  • 📺 Automatización de Video: Generación automática de noticias en formato video y gestión de "parrillas" de programación.
  • 📄 Exportación Inteligente: Generación de informes en PDF con diseño profesional y limpieza de ruido de red.
  • 🔔 Notificaciones en Tiempo Real: API de monitoreo para detectar eventos importantes al instante.
  • Gestión de Favoritos: Sistema robusto para guardar y organizar noticias, compatible con usuarios y sesiones temporales.

🏗️ Arquitectura de Servicios (Docker)

El sistema está orquestado mediante Docker Compose, garantizando aislamiento y escalabilidad.

🌐 Core & Acceso (Frontend)

Servicio Tecnología Descripción
nginx Nginx Alpine Gateway y Proxy Inverso (Puerto 8001).
rss2_web Flask + Gunicorn API principal e Interfaz Web de usuario.

📥 Ingesta y Descubrimiento (Backend)

Servicio Tecnología Descripción
rss-ingestor-go Go Crawler de ultra-alto rendimiento (Cientos de feeds/min).
url-worker Python Scraper profundo con limpieza de HTML via newspaper3k.
url-discovery Python Agente autónomo para el descubrimiento de nuevos feeds.

🧠 Procesamiento de IA (Background Workers)

Servicio Modelo / Función Descripción
llm-categorizer Mistral-7B Categorización contextual avanzada (15 categorías).
translator (x3) NLLB-200 Traducción neural masiva escalada horizontalmente.
embeddings S-Transformers Conversión de texto a vectores para búsqueda semántica.
ner Spacy/BERT Extracción de entidades (Personas, Lugares, Orgs).
cluster & related Algoritmos Propios Agrupación de eventos y detección de noticias relacionadas.

💾 Almacenamiento y Datos

Servicio Rol Descripción
db PostgreSQL 18 Almacenamiento relacional principal y metadatos.
qdrant Vector DB Motor de búsqueda por similitud de alta velocidad.
redis Redis 7 Gestión de colas de tareas (Celery-style) y caché.

🚀 Guía de Inicio Rápido

1. Preparación

git clone <repo>
cd rss2
./generate_secure_credentials.sh  # Genera .env seguro y contraseñas robustas

2. Configuración de Modelos (IA)

Para activar la categorización inteligente y traducción, descarga los modelos:

./scripts/download_llm_model.sh  # Recomendado: Mistral-7B GPTQ
python3 scripts/download_models.py # Modelos NLLB y Embeddings

3. Arranque del Sistema

./start_docker.sh  # Script de inicio con verificación de dependencias

📖 Documentación Especializada

Consulte nuestras guías detalladas para configuraciones específicas:


💻 Requisitos de Hardware

Para un rendimiento óptimo, se recomienda:

  • GPU: NVIDIA (mínimo 12GB VRAM para Mistral-7B y traducción simultánea).
  • Drivers: NVIDIA Container Toolkit instalado.
  • AllTalk TTS: Instancia activa (puerto 7851) para la generación de audio en videos.

🔧 Operaciones y Mantenimiento

Verificación de Calidad de Traducción

El sistema incluye herramientas para asegurar la calidad de los datos:

# Monitorear calidad en tiempo real
docker exec rss2_web python3 scripts/monitor_translation_quality.py --watch

# Limpiar automáticamente traducciones defectuosas
docker exec rss2_web python3 scripts/clean_repetitive_translations.py

Gestión de Contenidos

# Generar videos de noticias destacadas
docker exec rss2_web python3 scripts/generar_videos_noticias.py

# Iniciar migración a Qdrant (Vectores)
docker exec rss2_web python3 scripts/migrate_to_qdrant.py

Diagnóstico de Ingesta (Feeds)

docker exec rss2_web python3 scripts/diagnose_rss.py --url <FEED_URL>

📊 Observabilidad

Acceso a métricas de rendimiento (Solo vía Localhost/Tunel):


RSS2 - Transformando noticias en inteligencia con IA Local.