Memory by AxOS · live

Tu empresa
habla con su archivo.

Los documentos que tu empresa ya escribió entran a una bóveda viva: grafo, embeddings, recuperación con cita. Lo que vivía en cabezas individuales pasa a ser memoria compartida y consultable.

48.239
documentos indexados
328.505
conexiones del grafo
13
skills listas
< 200ms
latencia LATAM

Memory existe para empresas cuyo capital está en lo que ya escribieron: consultoras con años de propuestas e informes, estudios jurídicos con escritos, jurisprudencia y notas de cliente, equipos académicos con papers, datasets y revisiones, clínicas con protocolos, fichas y registros de caso. Empresas con historia escrita y equipos que rotan.

Tres minutos para entender la idea.

Todo lo que tu empresa escribió — en un solo lugar consultable.

La bóveda es el corazón del producto. Cada documento que entra — propuesta, informe, escrito, paper, ficha clínica, nota de reunión — se procesa con CLI Python (pdfplumber, python-docx, python-pptx, openpyxl), se trocea en chunks coherentes, y se cataloga con metadatos automáticos: cliente, año, programa, tipo de doc, autor.

No es un drive con buscador encima. Es una estructura compilada que sabe qué documento pertenece a qué cliente, en qué fase del trabajo se escribió, y qué otros documentos lo referencian. La instancia activa tiene 48.239 documentos indexados con 218.310 embeddings y 328.505 aristas en el grafo.

  • Formatos nativos: PDF, DOCX, PPTX, XLSX, TXT, MD.
  • Detección automática de duplicados y versiones.
  • Tipado por nodo: documento, fase, cliente, programa, tema.
  • Row-Level Security por tenant — el archivo de A nunca toca al de B.
Stats del vault: 48.239 documentos, 328.505 conexiones

La bóveda no es estática. Se retroalimenta sola.

Un worker en background, orquestado por Trigger.dev v3, mantiene la bóveda viva. Sincroniza con Google Drive cada cuatro horas, detecta archivos nuevos o modificados, procesa solo los deltas, y actualiza el grafo sin que nadie le pida nada.

Lo mismo aplica a integraciones tipo Granola: cada reunión transcrita entra como nodo, se cruza con clientes y temas existentes, y queda disponible para que el agente lo cite. Cuando alguien anota algo personal con /anotar, esa preferencia o ese hecho queda en la capa de memoria del usuario, lista para volver en futuras sesiones.

  • Sync continuo Drive · Granola · Gmail · Calendar.
  • Procesamiento incremental — solo deltas, no re-ingest masivos.
  • Detección de contradicciones vía Haiku judge antes de citar.
  • Sesión que se cierra promueve aprendizajes a memoria persistente.
Panel actividad del worker: Drive Connector connected, próximo sync, últimas corridas

Cohere embed-v4. Postgres + pgvector. Recuperación híbrida.

Cada chunk de cada documento se vectoriza con Cohere embed-v4 (dimensión 1024) y se guarda en Postgres con pgvector en sa-east-1. En cada turno de conversación, el sistema arma el contexto con una recuperación híbrida: búsqueda semántica por similitud + traversal por entidades del grafo + filtros estructurados por cliente, año o tipo de doc. El resultado son ~200 a 500 tokens de contexto compilado, no un dump de chunks crudos.

01
Ingesta
CLI Python procesa PDF, DOCX, PPTX, XLSX. Chunks coherentes con overlap mínimo.
02
Embedding
Cohere embed-v4 (1024d). Multilingüe. Optimizado retrieval, no clasificación.
03
Almacenamiento
Postgres + pgvector index HNSW. Row-Level Security por tenant. Sin warehouse externo.
04
Recuperación
Vector search + graph traversal + filtros. El agente elige la herramienta correcta por contexto.
05
Generación
Claude Sonnet 4.6 (chat) y Opus 4.7 (outputs críticos). Prompt cache en contextos reutilizables.
Vista del grafo completo de la bóveda

Drill-down visual, no solo recall textual.

El grafo de la bóveda es navegable en /memoria. Cada nodo es un hub — cliente, programa, año, tema, documento — y cada arista es una conexión documental real. Hacés click y entrás al sub-grafo. Encontrás material que ni sabías que existía sobre el tema que estás investigando.

Para una consultora es ver instantáneamente los 17 trabajos que se hicieron con un cliente y cuál fue la última conversación abierta. Para un estudio jurídico, los escritos previos sobre el mismo tipo de mandato. Para un equipo académico, la red de citaciones internas entre papers del lab.

Trece habilidades, slash commands.

El agente no es un único prompt monolítico. Es un catálogo de skills tipadas — cada una con su propio system prompt, sus tools y su modelo óptimo. Llamás a una skill con un slash command y el agente cambia de modo: investiga, traza, produce un entregable, retoma una sesión, anota algo personal.

Investigar

  • /research — vault + web cruzados
  • /trace — narrativa histórica sobre un tema
  • /clientes — portfolio por cliente

Producir

  • /propuesta — PPTX sobre tu template
  • /informe — entregable final de la empresa
  • /deck — presentación iterativa
  • /post · /email · /newsletter

Recordar

  • /sesion — retomar contexto
  • /anotar — guardar idea, hecho o preferencia
  • /skill-nueva — crear skill custom
Catálogo completo de skills disponibles

Donde ya vive tu información.

Los conectores son la puerta entre la bóveda y el stack que tu empresa ya usa. Cada integración entra como fuente de nodos al grafo y aporta sus propias tools al agente. Google Drive trae el archivo histórico, Granola las reuniones, LinkedIn las publicaciones, Gmail los hilos de cliente, Calendar las horas que cruzas con cada proyecto.

  • Google Drive — ingesta + sync continuo del shared drive corporativo.
  • Granola — transcripciones de reuniones automáticas.
  • Gmail — hilos importantes, drafts de follow-up.
  • Calendar — horas comprometidas en proyectos.
  • Notion · Resend · LinkedIn — opt-in según necesidad de la instancia.

Solo se ingieren las carpetas y servicios que tú autorizas. Las credenciales viven cifradas en el vault de la instancia — nunca en el código.

Panel de conectores: Drive conectado, Granola y LinkedIn disponibles, otros opt-in

El detalle, para los que preguntan.

Embeddings
Cohere embed-v4, dimensión 1024, multilingüe.
DB
Postgres managed Neon, región sa-east-1 (Santiago latency).
Vector index
pgvector con HNSW. Sin warehouse vectorial externo.
LLM chat
Claude Sonnet 4.6 default. Opus 4.7 para outputs críticos.
LLM background
Claude Haiku 4.5 para tagging, compilación, judges.
Orquestación
Trigger.dev v3 con waitpoints HITL y durable execution.
Auth
JWT + bcrypt + HttpOnly cookies, secret per-tenant.
Isolation
Row-Level Security en Postgres. Cero cross-tenant queries.
Hosting
Vercel Functions región gru1 (São Paulo).

La memoria deja de ser un activo personal.

Continuidad sin dependencias
Cuando un consultor senior, un socio o una doctora con veinte años de oficio deja el equipo, el conocimiento ya está afuera de su cabeza. La bóveda preserva el criterio, no solo los documentos.
Tiempo recuperado
Buscar precedentes deja de ser una hora hojeando carpetas y se convierte en una pregunta. El tiempo recuperado vuelve a estrategia y conversación con el cliente.
Outputs con tu voz
Propuestas, informes y escritos se generan sobre tu template real, citando tus precedentes reales. El agente habla como tu empresa habla — no como un LLM genérico.
Trazabilidad legible
Cada respuesta cita el documento original con hyperlink. Audit trail completo. Nadie tiene que confiar a ciegas en lo que dijo el modelo.

Ocho minutos: el porqué, conversado.

30 minutos para ver si tu archivo está listo.

Si tu empresa tiene historia escrita y un equipo que rota, conversemos. Te mostramos la instancia activa, vemos juntos qué carpetas tuyas se ingestan primero, y decidimos si el fit aplica antes de comprometer nada.

Conversemos 30 min →