FLUJOS/FLUJOS_DATOS/COMPARACIONES/dividendos.py

import os

def dividir_archivo_grande(input_file, output_dir, lineas_por_archivo=1000000):
    try:
        os.makedirs(output_dir, exist_ok=True)
        with open(input_file, 'r') as f_in:
            archivo_indice = 1
            f_out = open(os.path.join(output_dir, f'parte_{archivo_indice}.txt'), 'w')
            for i, linea in enumerate(f_in):
                if i % lineas_por_archivo == 0 and i > 0:
                    f_out.close()
                    archivo_indice += 1
                    f_out = open(os.path.join(output_dir, f'parte_{archivo_indice}.txt'), 'w')
                f_out.write(linea)
            f_out.close()
        print(f"Archivo '{input_file}' dividido en {archivo_indice} partes en '{output_dir}'")
    except Exception as e:
        print(f"Error al dividir el archivo '{input_file}': {e}")

def procesar_comparaciones():
    # Directorio base
    base_dir = os.path.join(os.path.dirname(os.path.abspath(__file__)), 'FLUJOS_DATOS', 'COMPARACIONES')

    # Definir los nombres de las comparaciones y sus carpetas correspondientes
    comparaciones = {
        'wikipedia_vs_noticias': 'wikipedia_vs_noticias.txt',
        'wikipedia_vs_torrents': 'wikipedia_vs_torrents.txt',
        'torrents_vs_noticias': 'torrents_vs_noticias.txt'
    }

    # Configurar las rutas de salida
    for nombre_carpeta, nombre_archivo in comparaciones.items():
        input_file = os.path.join(base_dir, nombre_archivo)
        output_dir = os.path.join(base_dir, nombre_carpeta)

        # Verificar si el archivo de entrada existe
        if os.path.exists(input_file):
            dividir_archivo_grande(input_file, output_dir, lineas_por_archivo=1000000)
        else:
            print(f"El archivo '{input_file}' no existe. No se puede dividir.")

if __name__ == "__main__":
    procesar_comparaciones()