Includes: FLUJOS app (Node/Flask/Python), FLUJOS_DATOS scripts (scrapers, Keras, Django) Excludes: MongoDB, scraped data, Wikipedia/WikiLeaks dumps, Python venv, node_modules
92 lines
2.8 KiB
Text
Executable file
92 lines
2.8 KiB
Text
Executable file
# Crear un archivo llamado docs.txt y agregar el contenido necesario
|
|
echo "
|
|
# Descripción del Programa
|
|
|
|
Este programa descarga artículos de Wikipedia relacionados con diversas temáticas, limpia y tokeniza el contenido, y guarda los resultados en archivos de texto. También compara la similitud de las palabras entre los primeros dos artículos descargados y calcula un porcentaje de similitud. El programa detiene la descarga cuando el tamaño total de los archivos supera los 10 GB y entonces ejecuta la tokenización de los artículos.
|
|
|
|
# Paquetes Necesarios
|
|
|
|
- \`transformers\`: Para tokenización usando BERT.
|
|
- \`wikipedia-api\`: Para buscar y obtener el contenido de artículos de Wikipedia.
|
|
|
|
# Comandos para Instalar los Paquetes en Linux
|
|
|
|
Primero, asegúrate de tener \`pip\` instalado. Si no lo tienes, puedes instalarlo con:
|
|
|
|
\`\`\`bash
|
|
sudo apt update
|
|
sudo apt install python3-pip
|
|
\`\`\`
|
|
|
|
Luego, instala los paquetes necesarios:
|
|
|
|
\`\`\`bash
|
|
pip install transformers wikipedia-api
|
|
\`\`\`
|
|
|
|
# Crear y Activar el Entorno Virtual
|
|
|
|
Para evitar conflictos con otros proyectos y mantener el entorno limpio, se recomienda usar un entorno virtual. A continuación se muestran los pasos para crear y activar un entorno virtual:
|
|
|
|
1. **Crear el entorno virtual:**
|
|
|
|
Navega al directorio de tu proyecto y crea un entorno virtual llamado \`venv\`:
|
|
|
|
\`\`\`bash
|
|
python3 -m venv venv
|
|
\`\`\`
|
|
|
|
2. **Activar el entorno virtual:**
|
|
|
|
Para activar el entorno virtual, usa el siguiente comando:
|
|
|
|
\`\`\`bash
|
|
source venv/bin/activate
|
|
\`\`\`
|
|
|
|
Verás que el nombre del entorno virtual aparece antes del prompt de la terminal, indicando que el entorno virtual está activado.
|
|
|
|
3. **Instalar los paquetes en el entorno virtual:**
|
|
|
|
Una vez activado el entorno virtual, instala los paquetes necesarios:
|
|
|
|
\`\`\`bash
|
|
pip install transformers wikipedia-api
|
|
\`\`\`
|
|
|
|
# Ejecutar el Programa
|
|
|
|
Con el entorno virtual activado, puedes ejecutar el programa principal:
|
|
|
|
\`\`\`bash
|
|
python3 main.py
|
|
\`\`\`
|
|
|
|
# Estructura del Proyecto
|
|
|
|
Asegúrate de que tu proyecto tenga la siguiente estructura:
|
|
|
|
\`\`\`
|
|
proyecto/
|
|
│
|
|
├── main.py
|
|
├── wikipedia_utils.py
|
|
├── docs.txt
|
|
└── venv/
|
|
\`\`\`
|
|
|
|
- \`main.py\`: Contiene el código principal que descarga, limpia, tokeniza y compara los artículos de Wikipedia.
|
|
- \`wikipedia_utils.py\`: Contiene las funciones auxiliares para buscar y obtener contenido de Wikipedia.
|
|
- \`docs.txt\`: Este documento de información.
|
|
- \`venv/\`: El entorno virtual.
|
|
" > docs.txt
|
|
|
|
# Crear el entorno virtual y activar
|
|
python3 -m venv venv
|
|
source venv/bin/activate
|
|
|
|
# Instalar los paquetes necesarios
|
|
pip install transformers wikipedia-api
|
|
|
|
# Mostrar mensaje de finalización
|
|
echo "El entorno virtual se ha creado y los paquetes necesarios se han instalado. El contenido de docs.txt se ha generado."
|