Initial commit - FLUJOS codebase (production branch)
Includes: FLUJOS app (Node/Flask/Python), FLUJOS_DATOS scripts (scrapers, Keras, Django) Excludes: MongoDB, scraped data, Wikipedia/WikiLeaks dumps, Python venv, node_modules
This commit is contained in:
commit
a40b946163
158 changed files with 196645 additions and 0 deletions
23
FLUJOS_DATOS/SCRIPTS/double_check_coincidencias.py
Normal file
23
FLUJOS_DATOS/SCRIPTS/double_check_coincidencias.py
Normal file
|
|
@ -0,0 +1,23 @@
|
|||
# check_mismatches.py
|
||||
from pymongo import MongoClient
|
||||
|
||||
client = MongoClient('mongodb://localhost:27017')
|
||||
db = client['FLUJOS_DATOS']
|
||||
|
||||
# 1) Todos los nombres únicos que aparecen en comparaciones
|
||||
comp = db.comparaciones.distinct('noticia1') + db.comparaciones.distinct('noticia2')
|
||||
comp = set(comp)
|
||||
|
||||
# 2) Todos los nombres únicos en las colecciones de nodos
|
||||
fuentes = ['noticias','wikipedia','torrents','leaks']
|
||||
todos = set()
|
||||
for col in fuentes:
|
||||
if col in db.list_collection_names():
|
||||
todos |= set(db[col].distinct('archivo'))
|
||||
|
||||
sólo_en_comparaciones = comp - todos
|
||||
sólo_en_fuentes = todos - comp
|
||||
|
||||
print(f"Mismatches comparaciones→fuentes: {len(sólo_en_comparaciones)}")
|
||||
print(f"Mismatches fuentes→comparaciones: {len(sólo_en_fuentes)}")
|
||||
print("Ejemplos (up to 10):", list(sólo_en_comparaciones)[:10])
|
||||
Loading…
Add table
Add a link
Reference in a new issue