FLUJOS/FLUJOS_DATOS/WIKIPEDIA/docs.txt
CAPITANSITO a40b946163 Initial commit - FLUJOS codebase (production branch)
Includes: FLUJOS app (Node/Flask/Python), FLUJOS_DATOS scripts (scrapers, Keras, Django)
Excludes: MongoDB, scraped data, Wikipedia/WikiLeaks dumps, Python venv, node_modules
2026-03-31 14:10:02 +02:00

92 lines
2.8 KiB
Text
Executable file

# Crear un archivo llamado docs.txt y agregar el contenido necesario
echo "
# Descripción del Programa
Este programa descarga artículos de Wikipedia relacionados con diversas temáticas, limpia y tokeniza el contenido, y guarda los resultados en archivos de texto. También compara la similitud de las palabras entre los primeros dos artículos descargados y calcula un porcentaje de similitud. El programa detiene la descarga cuando el tamaño total de los archivos supera los 10 GB y entonces ejecuta la tokenización de los artículos.
# Paquetes Necesarios
- \`transformers\`: Para tokenización usando BERT.
- \`wikipedia-api\`: Para buscar y obtener el contenido de artículos de Wikipedia.
# Comandos para Instalar los Paquetes en Linux
Primero, asegúrate de tener \`pip\` instalado. Si no lo tienes, puedes instalarlo con:
\`\`\`bash
sudo apt update
sudo apt install python3-pip
\`\`\`
Luego, instala los paquetes necesarios:
\`\`\`bash
pip install transformers wikipedia-api
\`\`\`
# Crear y Activar el Entorno Virtual
Para evitar conflictos con otros proyectos y mantener el entorno limpio, se recomienda usar un entorno virtual. A continuación se muestran los pasos para crear y activar un entorno virtual:
1. **Crear el entorno virtual:**
Navega al directorio de tu proyecto y crea un entorno virtual llamado \`venv\`:
\`\`\`bash
python3 -m venv venv
\`\`\`
2. **Activar el entorno virtual:**
Para activar el entorno virtual, usa el siguiente comando:
\`\`\`bash
source venv/bin/activate
\`\`\`
Verás que el nombre del entorno virtual aparece antes del prompt de la terminal, indicando que el entorno virtual está activado.
3. **Instalar los paquetes en el entorno virtual:**
Una vez activado el entorno virtual, instala los paquetes necesarios:
\`\`\`bash
pip install transformers wikipedia-api
\`\`\`
# Ejecutar el Programa
Con el entorno virtual activado, puedes ejecutar el programa principal:
\`\`\`bash
python3 main.py
\`\`\`
# Estructura del Proyecto
Asegúrate de que tu proyecto tenga la siguiente estructura:
\`\`\`
proyecto/
├── main.py
├── wikipedia_utils.py
├── docs.txt
└── venv/
\`\`\`
- \`main.py\`: Contiene el código principal que descarga, limpia, tokeniza y compara los artículos de Wikipedia.
- \`wikipedia_utils.py\`: Contiene las funciones auxiliares para buscar y obtener contenido de Wikipedia.
- \`docs.txt\`: Este documento de información.
- \`venv/\`: El entorno virtual.
" > docs.txt
# Crear el entorno virtual y activar
python3 -m venv venv
source venv/bin/activate
# Instalar los paquetes necesarios
pip install transformers wikipedia-api
# Mostrar mensaje de finalización
echo "El entorno virtual se ha creado y los paquetes necesarios se han instalado. El contenido de docs.txt se ha generado."