rss2/workers/ctranslator_worker.py

import os
import time
import logging
import re
from typing import List, Optional

import psycopg2
import psycopg2.extras
from langdetect import detect, DetectorFactory

import ctranslate2
from transformers import AutoTokenizer

DetectorFactory.seed = 0

logging.basicConfig(level=logging.INFO, format="%(asctime)s %(levelname)s: %(message)s")
LOG = logging.getLogger("translator_ct2")

TRANSLATOR_ID = os.environ.get("TRANSLATOR_ID", "")
TRANSLATOR_TOTAL = int(os.environ.get("TRANSLATOR_TOTAL", "1"))

def clean_text(text: str) -> str:
    if not text:
        return ""
    text = re.sub(r'<[^>]+>', '', text)
    text = text.replace('<unk>', '')
    text = text.replace('&nbsp;', ' ')
    text = text.replace('&amp;', '&')
    text = text.replace('&lt;', '<')
    text = text.replace('&gt;', '>')
    text = text.replace('&quot;', '"')
    text = re.sub(r'\s+', ' ', text)
    return text.strip()

DB_CONFIG = {
    "host": os.environ.get("DB_HOST", "localhost"),
    "port": int(os.environ.get("DB_PORT", 5432)),
    "dbname": os.environ.get("DB_NAME", "rss"),
    "user": os.environ.get("DB_USER", "rss"),
    "password": os.environ.get("DB_PASS", "x"),
}

def _env_list(name: str, default="es"):
    raw = os.environ.get(name)
    if raw:
        return [s.strip() for s in raw.split(",") if s.strip()]
    return [default]

def _env_int(name: str, default: int = 8):
    v = os.environ.get(name)
    try:
        return int(v)
    except Exception:
        return default

def _env_str(name: str, default=None):
    v = os.environ.get(name)
    return v if v else default

TARGET_LANGS = _env_list("TARGET_LANGS")
BATCH_SIZE = _env_int("TRANSLATOR_BATCH", 8)
MAX_SRC_TOKENS = _env_int("MAX_SRC_TOKENS", 512)
MAX_NEW_TOKENS = _env_int("MAX_NEW_TOKENS", 512)

CT2_MODEL_PATH = _env_str("CT2_MODEL_PATH", "/app/models/nllb-ct2")
CT2_DEVICE = _env_str("CT2_DEVICE", "cpu")
CT2_COMPUTE_TYPE = _env_str("CT2_COMPUTE_TYPE", "int8")
UNIVERSAL_MODEL = _env_str("UNIVERSAL_MODEL", "facebook/nllb-200-distilled-600M")
BODY_CHARS_CHUNK = _env_int("BODY_CHARS_CHUNK", 900)

LANG_CODE_MAP = {
    "en": "eng_Latn", "es": "spa_Latn", "fr": "fra_Latn", "de": "deu_Latn",
    "it": "ita_Latn", "pt": "por_Latn", "nl": "nld_Latn", "sv": "swe_Latn",
    "da": "dan_Latn", "fi": "fin_Latn", "no": "nob_Latn",
    "pl": "pol_Latn", "cs": "ces_Latn", "sk": "slk_Latn",
    "sl": "slv_Latn", "hu": "hun_Latn", "ro": "ron_Latn",
    "el": "ell_Grek", "ru": "rus_Cyrl", "uk": "ukr_Cyrl",
    "tr": "tur_Latn", "ar": "arb_Arab", "fa": "pes_Arab",
    "he": "heb_Hebr", "zh": "zho_Hans", "ja": "jpn_Jpan",
    "ko": "kor_Hang", "vi": "vie_Latn",
}

_tokenizer = None
_translator = None

def ensure_model():
    global _tokenizer, _translator

    if _translator:
        return

    model_path = CT2_MODEL_PATH
    model_bin = os.path.join(model_path, "model.bin")

    if not os.path.exists(model_bin):
        LOG.info(f"CTranslate2 model not found at {model_path}, converting from {UNIVERSAL_MODEL}...")
        convert_model()

    LOG.info(f"Loading CTranslate2 model from {model_path} on {CT2_DEVICE}")

    _translator = ctranslate2.Translator(
        model_path,
        device=CT2_DEVICE,
        compute_type=CT2_COMPUTE_TYPE,
    )

    _tokenizer = AutoTokenizer.from_pretrained(UNIVERSAL_MODEL)
    LOG.info("CTranslate2 model loaded successfully")

def convert_model():
    import subprocess

    model_path = CT2_MODEL_PATH
    os.makedirs(model_path, exist_ok=True)

    quantization = CT2_COMPUTE_TYPE if CT2_COMPUTE_TYPE != "auto" else "int8"

    cmd = [
        "ct2-transformers-converter",
        "--model", UNIVERSAL_MODEL,
        "--output_dir", model_path,
        "--quantization", quantization,
        "--force"
    ]

    LOG.info(f"Running: {' '.join(cmd)}")
    result = subprocess.run(cmd, capture_output=True, text=True, timeout=1800)

    if result.returncode != 0:
        LOG.error(f"Model conversion failed: {result.stderr}")
        raise RuntimeError("Failed to convert model")

    LOG.info("Model conversion completed")

def translate_texts(src: str, tgt: str, texts: List[str]) -> List[str]:
    if not texts:
        return []

    ensure_model()

    clean = [(t or "").strip() for t in texts]
    if all(not t for t in clean):
        return ["" for _ in clean]

    src_code = LANG_CODE_MAP.get(src, f"{src}_Latn")
    tgt_code = LANG_CODE_MAP.get(tgt, "spa_Latn")

    try:
        _tokenizer.src_lang = src_code
    except Exception:
        pass

    sources = []
    for t in clean:
        if t:
            ids = _tokenizer.encode(t, truncation=True, max_length=MAX_SRC_TOKENS)
            tokens = _tokenizer.convert_ids_to_tokens(ids)
            sources.append(tokens)
        else:
            sources.append([])

    target_prefix = [[tgt_code]] * len(sources)

    results = _translator.translate_batch(
        sources,
        target_prefix=target_prefix,
        beam_size=2,
        max_decoding_length=MAX_NEW_TOKENS,
        repetition_penalty=2.0,
        no_repeat_ngram_size=3,
    )

    translated = []
    for result in results:
        try:
            if result.hypotheses and len(result.hypotheses) > 0:
                hyp = result.hypotheses[0]
                if isinstance(hyp, list) and len(hyp) > 0:
                    first_hyp = hyp[0]
                    if isinstance(first_hyp, dict) and "token_ids" in first_hyp:
                        tokens = first_hyp["token_ids"]
                        text = _tokenizer.decode(tokens)
                        translated.append(text.strip())
                    elif isinstance(first_hyp, str):
                        token_strings = hyp[1:] if len(hyp) > 1 else []
                        if token_strings:
                            text = _tokenizer.convert_tokens_to_string(token_strings)
                            translated.append(text.strip())
                        else:
                            translated.append("")
                    else:
                        translated.append("")
                else:
                    translated.append("")
            else:
                translated.append("")
        except Exception as e:
            LOG.error(f"Error processing result: {e}")
            translated.append("")

    return translated

def split_body_into_chunks(text: str) -> List[str]:
    text = (text or "").strip()
    if len(text) <= BODY_CHARS_CHUNK:
        return [text] if text else []

    parts = re.split(r'(\n\n+|(?<=[\.\!\?؛؟。])\s+)', text)
    chunks = []
    current = ""

    for part in parts:
        if not part:
            continue
        if len(current) + len(part) <= BODY_CHARS_CHUNK:
            current += part
        else:
            if current.strip():
                chunks.append(current.strip())
            current = part
    if current.strip():
        chunks.append(current.strip())

    return chunks if chunks else [text]

def translate_body_long(src: str, tgt: str, body: str) -> str:
    body = (body or "").strip()
    if not body:
        return ""

    chunks = split_body_into_chunks(body)
    if len(chunks) == 1:
        return translate_texts(src, tgt, [body])[0]

    translated_chunks = []
    for ch in chunks:
        tr = translate_texts(src, tgt, [ch])[0]
        translated_chunks.append(tr)

    return " ".join(translated_chunks)

def normalize_lang(lang: Optional[str], default: str = "es") -> Optional[str]:
    if not lang:
        return default
    lang = lang.strip().lower()[:2]
    return lang if lang else default

def detect_lang(text: str) -> str:
    if not text or len(text) < 10:
        return "en"
    try:
        return detect(text)
    except Exception:
        return "en"

def process_batch(conn, rows):
    todo = []

    for r in rows:
        lang_to = normalize_lang(r.get("lang_to"), "es") or "es"
        lang_from = normalize_lang(r.get("lang_from")) or detect_lang(r.get("titulo") or "")

        titulo = (r.get("titulo") or "").strip()
        resumen = (r.get("resumen") or "").strip()

        if lang_from == lang_to:
            # Mark as done and copy original text if languages match
            cursor = conn.cursor()
            cursor.execute("""
                UPDATE traducciones
                SET titulo_trad = %s, resumen_trad = %s, status = 'done'
                WHERE id = %s
            """, (titulo, resumen, r.get("tr_id")))
            conn.commit()
            cursor.close()
            continue

        todo.append({
            "tr_id": r.get("tr_id"),
            "lang_from": lang_from,
            "lang_to": lang_to,
            "titulo": titulo,
            "resumen": resumen,
        })

    if not todo:
        return

    # 1. FAST LOCKING: Commit locked_at immediately to inform other workers
    cursor = conn.cursor()
    tr_ids = [item["tr_id"] for item in todo]
    cursor.execute(f"""
        UPDATE traducciones
        SET locked_at = NOW()
        WHERE id = ANY(ARRAY[{','.join(['%s'] * len(tr_ids))}])
    """, tr_ids)
    conn.commit()
    cursor.close()

    from collections import defaultdict
    groups = defaultdict(list)
    for item in todo:
        key = (item["lang_from"], item["lang_to"])
        groups[key].append(item)

    for (lang_from, lang_to), items in groups.items():
        LOG.info(f"Translating {lang_from} -> {lang_to} ({len(items)} items)")

        try:
            titles = [i["titulo"] for i in items]
            translated_titles = translate_texts(lang_from, lang_to, titles)

            for item, tt in zip(items, translated_titles):
                body = (item["resumen"] or "").strip()
                tb = ""
                if body:
                    try:
                        tb = translate_body_long(lang_from, lang_to, body)
                    except Exception as e:
                        LOG.error(f"Body translation error for ID {item['tr_id']}: {e}")
                        tb = item["resumen"]

                tt = clean_text((tt or "").strip())
                tb = clean_text((tb or "").strip())

                if not tt:
                    tt = item["titulo"]
                if not tb:
                    tb = item["resumen"]

                # 2. INDIVIDUAL COMMIT: Save each item as it's done
                try:
                    cursor = conn.cursor()
                    cursor.execute("""
                        UPDATE traducciones
                        SET titulo_trad = %s, resumen_trad = %s, status = 'done', locked_at = NULL
                        WHERE id = %s
                    """, (tt, tb, item["tr_id"]))
                    conn.commit()
                    cursor.close()
                except Exception as e:
                    LOG.error(f"Update error for ID {item['tr_id']}: {e}")
                    conn.rollback()

            LOG.info(f"Finished group {lang_from} -> {lang_to}")

        except Exception as e:
            LOG.error(f"Batch group error {lang_from} -> {lang_to}: {e}")
            # Mark these as error to avoid infinite loop if it's a model crash
            try:
                cursor = conn.cursor()
                cursor.execute("""
                    UPDATE traducciones SET status = 'error', locked_at = NULL
                    WHERE id = ANY(ARRAY[{','.join(['%s'] * len(items))}])
                """, [i["tr_id"] for i in items])
                conn.commit()
                cursor.close()
            except:
                conn.rollback()

def fetch_pending_translations(conn):
    cursor = conn.cursor(cursor_factory=psycopg2.extras.RealDictCursor)

    worker_id = os.environ.get("HOSTNAME", f"worker-{os.getpid()}")

    for lang in TARGET_LANGS:
        cursor.execute("""
            SELECT t.id as tr_id, t.lang_from, t.lang_to,
                   n.titulo, n.resumen, n.id as noticia_id
            FROM traducciones t
            JOIN noticias n ON n.id = t.noticia_id
            WHERE t.lang_to = %s
              AND (t.titulo_trad IS NULL OR t.resumen_trad IS NULL)
              AND (t.locked_at IS NULL OR t.locked_at < NOW() - INTERVAL '10 minutes')
            ORDER BY n.fecha DESC
            LIMIT %s
            FOR UPDATE SKIP LOCKED
        """, (lang, BATCH_SIZE))

        rows = cursor.fetchall()
        if rows:
            LOG.info(f"Found {len(rows)} pending translations for {lang}")
            process_batch(conn, rows)

    cursor.close()

def connect_db():
    return psycopg2.connect(**DB_CONFIG)

def main():
    LOG.info(f"CTranslate2 translator worker started (device={CT2_DEVICE}, instances={TRANSLATOR_TOTAL})")
    ensure_model()

    while True:
        try:
            conn = connect_db()
            fetch_pending_translations(conn)
            conn.close()
        except Exception as e:
            LOG.error(f"Error: {e}")

        time.sleep(30)

if __name__ == "__main__":
    main()