1. Resumen ejecutivo
HAL9000 se ha diseñado para operar en un entorno privado del cliente, con procesamiento local de documentos jurídicos y control estricto de los datos. El flujo de adjuntos contempla cifrado en reposo, eliminación física tras el embedding y mecanismos de purga por identificador, evitando la retención innecesaria de información.
2. Alcance y limitaciones
- Alcance: privacidad y control de datos en los flujos de consulta, adjuntos y transcripción.
- Documento público: no incluye URLs internas, IPs, claves ni configuraciones sensibles.
- La revisión se basa en la documentación interna y en la lógica de frontend/backend.
3. Arquitectura de privacidad (alto nivel)
Frontend
- Interfaz web local que gestiona adjuntos y sesiones.
- Los secretos y endpoints internos se mantienen fuera del navegador.
- Historial visible controlado por el propio cliente en su entorno local.
Backend y servicios
- Proxy de acceso controlado hacia servicios internos.
- OCR, embeddings, búsqueda y transcripción dentro del entorno privado.
- Persistencia controlada en bases locales (vectoriales y de archivos).
4. Ciclo de vida de los datos
| Etapa | Tratamiento | Garantías de privacidad |
|---|---|---|
| Subida de adjuntos | Los archivos se cargan en el entorno privado para extracción y embeddings. | Sin exposición pública; control por autenticación interna. |
| Embedding / indexado | El contenido se transforma en embeddings y se asocia a un identificador interno. | Segmentación por sesión y trazabilidad para purga. |
| Eliminación física | Tras confirmar el embedding, el archivo original se borra físicamente del servidor. | Reduce la persistencia de datos a lo estrictamente necesario. |
| Retención controlada | Los embeddings quedan bajo TTL y purga por identificador. | Derecho al olvido mediante limpieza manual o automática. |
5. Cifrado y almacenamiento
- Cifrado en reposo El volumen de uploads está cifrado mediante LUKS.
- Minimización Eliminación física de archivos una vez indexados.
- Trazabilidad Identificadores internos permiten auditoría y purga.
6. Modelos e inferencia local
HAL9000 utiliza modelos open‑source servidos en infraestructura local. Al ejecutarse íntegramente en el entorno del cliente, no existe canal de envío a terceros ni uso de datos para entrenamiento externo.
- Modelo principal Qwen3.5 122B‑10B (marzo 2026).
- Motor de inferencia vLLM, configurado sin registro de prompts/respuestas.
- Reranking Qwen3.5 2B integrado en un sistema jurídico propio de reordenación.
7. Transcripción de vídeo (Whisper)
La transcripción se realiza con un contenedor local. El audio/vídeo se usa exclusivamente durante el proceso y no se conserva tras finalizar la tarea.
- Si el texto es corto, se usa contexto completo sin persistencia adicional.
- Si el texto es largo, se indexa como adjunto y sigue el mismo flujo de purga.
8. OCR local (PDF escaneados)
El servicio OCR procesa los PDFs en directorios temporales y elimina los archivos al terminar. No se mantiene una copia permanente de los documentos escaneados.
- Extracción directa cuando hay texto; OCR solo si es necesario.
- Archivos temporales descartados tras el procesamiento.
9. Política de logs y retención
- No se registran contenidos sensibles (prompts, documentos o transcripciones) en logs.
- Los logs operativos se limitan a eventos técnicos mínimos necesarios para mantenimiento.
- La retención de datos está gobernada por TTL y mecanismos de purga verificables.
10. Websearch y fuentes externas (opcional)
La búsqueda web es opcional. Cuando se activa, solo se envía la consulta textual al buscador, sin exponer documentos internos. Los resultados se descargan y procesan localmente.
11. Evaluación de riesgos y mitigaciones
- Exposición accidental: mitigada por autenticación interna y aislamiento de servicios.
- Retención excesiva: mitigada con TTL, purga por identificador y borrado físico.
- Acceso no autorizado: mitigado con segmentación de red y control de credenciales.
12. Conclusión
HAL9000 presenta un enfoque de privacidad integral: los datos se procesan dentro del entorno del cliente, el almacenamiento está cifrado, los archivos originales se eliminan tras el embedding y existen mecanismos claros de purga. Este informe acredita el compromiso con la confidencialidad jurídica y la minimización de retención de datos.