quito comentarios
This commit is contained in:
parent
68a5528f2f
commit
937da3f90b
8 changed files with 48 additions and 496 deletions
|
|
@ -2,7 +2,6 @@ import nltk
|
|||
import logging
|
||||
import ssl
|
||||
|
||||
# Soluciona problemas de certificado SSL en algunas configuraciones de sistema al descargar
|
||||
try:
|
||||
_create_unverified_https_context = ssl._create_unverified_context
|
||||
except AttributeError:
|
||||
|
|
@ -12,31 +11,22 @@ else:
|
|||
|
||||
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(message)s')
|
||||
|
||||
# Lista de paquetes de NLTK que newspaper3k puede necesitar.
|
||||
# 'punkt' y 'punkt_tab' son para tokenización, 'stopwords' para el resumen.
|
||||
PACKAGES = ['punkt', 'punkt_tab', 'stopwords']
|
||||
|
||||
|
||||
def download_nltk_data():
|
||||
"""
|
||||
Descarga los paquetes de NLTK necesarios para newspaper3k.
|
||||
"""
|
||||
for package in PACKAGES:
|
||||
try:
|
||||
logging.info(f"Verificando si el paquete '{package}' de NLTK está disponible...")
|
||||
# Determina la ruta correcta para la verificación
|
||||
if package.startswith('punkt'):
|
||||
path = f'tokenizers/{package}'
|
||||
else:
|
||||
path = f'corpora/{package}'
|
||||
|
||||
nltk.data.find(path)
|
||||
logging.info(f"El paquete '{package}' ya está descargado.")
|
||||
|
||||
except LookupError:
|
||||
logging.info(f"El paquete '{package}' no se encontró. Iniciando descarga...")
|
||||
try:
|
||||
# El parámetro quiet=True evita el diálogo interactivo
|
||||
nltk.download(package, quiet=True)
|
||||
logging.info(f"Paquete '{package}' descargado con éxito.")
|
||||
except Exception as e:
|
||||
|
|
@ -44,6 +34,7 @@ def download_nltk_data():
|
|||
import sys
|
||||
sys.exit(1)
|
||||
|
||||
|
||||
if __name__ == '__main__':
|
||||
download_nltk_data()
|
||||
|
||||
|
|
|
|||
Loading…
Add table
Add a link
Reference in a new issue