2026-05-07

Investigación Nocturna de Oracle — 2026-05-07

Curado por Mahsum Aktaş · Escaneo diario automatizado del sector de IA

Investigación Nocturna de Oracle — 2026-05-07

Compilación automática | pipeline v3 | 104 fuentes | 3018 únicos

Resumen del Día

La imagen principal de hoy: en el flujo académico destacan las aplicaciones de foundation models, las pruebas de seguridad, los benchmarks multimodales y la medición de incertidumbre. En arXiv hay mucha actividad en automatización de jailbreaks, memorization en diffusion, benchmarks de VLM/video, medical imaging y remote sensing. En industria/ecosistema, los datos de tendencia mantienen al alza AI Agents, Anthropic, Apple, AI Safety y AI Regulation; DALL-E, Databricks, Flux, Haiku y Perplexity registraron spikes. El pipeline logró cobertura completa: 5/5 familias de fuentes y 10/10 topics cubiertos.

Análisis de Tendencias

AI Agents está en tendencia ascendente: 996 señales totales. Esto muestra que el tema de agent security/deployment de días anteriores no ha terminado; la capa de agent runtime, orchestration y tooling sigue siendo una categoría principal. [fuente pendiente]
AI Safety sube con 101 señales totales; los papers de hoy sobre EvoJail y diffusion memorization refuerzan este eje de seguridad en el plano académico. Fuentes: https://arxiv.org/abs/2605.02921 | https://arxiv.org/abs/2605.02908
Flux 13, Perplexity 7, Databricks 6, Haiku 5 registraron spike. Estas señales indican que las narrativas de corto plazo en el ecosistema de productos/modelos se aceleraron; requieren canonical URL. [fuente pendiente]
Anthropic 448, Apple 76 señales totales siguen al alza; continúa el vínculo con las narrativas enterprise/agent/security de reportes anteriores, pero hoy no aparece un nuevo canonical item. [fuente pendiente]

Actualizaciones de LLM y Modelos

Hebbian fast weights prueba episodic adaptation dentro de Vision Transformer. El paper apunta a la falta de adaptación rápida de las representaciones slow-weight fijas de los ViT en reconocimiento de caracteres con pocos ejemplos. Fuente: https://arxiv.org/abs/2605.02920
Task vector geometry explica dos modos distintos de task inference en Transformers. Estudia geométricamente la diferencia entre reconocer una tarea vista durante el entrenamiento y adaptarse desde el contexto a una tarea nueva. Fuente: https://arxiv.org/abs/2605.03780
Beyond Activation Alignment se centra en la geometría de neural sensitivity. Va más allá de métricas de alineamiento de activaciones como RSA/CCA/CKA e intenta entender el comportamiento del modelo en el espacio de sensibilidad. Fuente: https://arxiv.org/abs/2605.03222
Analysis and Explainability of LLMs via Evolutionary Methods. Lleva métodos evolutivos al análisis y la explicabilidad de LLMs; señal de nuevos métodos de prueba para seguridad e interpretability. Fuente: https://arxiv.org/abs/2605.02930

Investigación y Papers

Conformalized Percentile Interval busca mejorar conditional performance con finite-sample validity. Es importante para intervalos prácticos de incertidumbre en conformal prediction. Fuente: https://arxiv.org/abs/2605.03233
Training-Free Probabilistic Time-Series Forecasting with Conformal Seasonal Pools. Enfoque de probabilistic forecasting sin entrenamiento que usa seasonal empirical draws y residual pool. Fuente: https://arxiv.org/abs/2605.03789
Partial Effective Information Decomposition for Synergistic Causality. Presenta un nuevo marco de teoría de la información para el problema de descomponer la causalidad sinérgica en sistemas complejos. Fuente: https://arxiv.org/abs/2605.03267
Free Decompression with Algebraic Spectral Curves. Añade una nueva herramienta de análisis para deep learning theory desde random matrix theory y spectral information. Fuente: https://arxiv.org/abs/2605.03634

Herramientas y Frameworks

NucEval propone un framework de evaluación robusto para nuclear instance segmentation. Tiene valor práctico para la calidad de benchmarks y el estándar de comparación de modelos en computational pathology. Fuente: https://arxiv.org/abs/2605.03144
VEBench presenta un benchmark de modelos multimodales para real-world video editing. Subraya que video editing no es solo calidad visual, sino también un problema de multimodal reasoning y temporal alignment. Fuente: https://arxiv.org/abs/2605.03276
WorldJen introduce un benchmark end-to-end multidimensional para modelos generativos de video. Se centra en la evaluación de generative video, donde métricas clásicas como SSIM/PSNR se quedan cortas. Fuente: https://arxiv.org/abs/2605.03475
Manokhin Probability Matrix propone un marco diagnóstico para la calidad de probabilidades de clasificadores. Intenta separar la mezcla de reliability y resolution en el Brier score. Fuente: https://arxiv.org/abs/2605.03816

Código Abierto

DINOv3 se usa para remote sensing segmentation. El trabajo “DINO Soars” apunta a open-vocabulary semantic segmentation en remote sensing con pocas etiquetas. Fuente: https://arxiv.org/abs/2605.03175
VL-SAM-v3 usa memory-guided visual priors para open-world object detection. Muestra que los sistemas de percepción open-world basados en SAM/VLM se desplazan hacia una capa de memoria. Fuente: https://arxiv.org/abs/2605.03456
Mantis prueba un enfoque Mamba-native para tuning de 3D point cloud foundation models. Señal de reducción del coste de full fine-tuning en 3D foundation models. Fuente: https://arxiv.org/abs/2605.03438

Industria y Empresas

Databricks registró spike. Los datos de tendencia muestran 6 señales totales; sin embargo, en el structured item set de hoy no hay una URL canónica de noticia. [fuente pendiente]
Perplexity registró spike. 7 señales totales indican que la narrativa de corto plazo en el mercado search/assistant se fortaleció; hace falta resolver el canonical item. [fuente pendiente]
Anthropic se mantuvo al alza. 448 señales totales muestran que continúa el momentum agent/enterprise de días anteriores; en el reporte de hoy no se repitieron noticias antiguas. [fuente pendiente]

AI Agents

Relation Reasoning with LLMs in Expensive Optimization. Usa LLMs para razonamiento relacional dentro de expensive black-box optimization; conecta con la línea de agentic optimization. Fuente: https://arxiv.org/abs/2605.02933
Adaptive Estimation and Optimal Control in Offline Contextual MDPs without Stationarity. Señal de investigación fundamental para agent policy en offline decision-making y nonstationary MDPs. Fuente: https://arxiv.org/abs/2605.03393
Optimal Posterior Sampling for Policy Identification in Tabular MDPs. Busca sample-efficiency para reinforcement learning agents centrándose en el problema de PAC policy identification. Fuente: https://arxiv.org/abs/2605.03921
Optimal control of the future via prospective learning with control. Propone un enfoque de prospective learning para el “control óptimo del futuro” fuera de RL. Fuente: https://arxiv.org/abs/2511.08717

Multimodal

Reasoning-Guided Grounding busca elevar video anomaly detection con MLLM reasoning. En lugar de binary anomaly detection, destaca el video reasoning interpretable. Fuente: https://arxiv.org/abs/2605.02912
Can MLLMs Understand Pathologic Movements? Prueba si los modelos multimodales pueden comprender movimientos clínicos a través de seizure semiology. Fuente: https://arxiv.org/abs/2605.03352
Sentinel2Cap presenta un benchmark con anotación humana para remote sensing image captioning. Señal de calidad de datos en multimodal remote sensing. Fuente: https://arxiv.org/abs/2605.03189
MASRA propone MLLM-assisted semantic-relational alignment para video temporal grounding. Intenta reducir errores de query-video alignment mediante una capa de semantic relation. Fuente: https://arxiv.org/abs/2605.03398

Robótica y Embodied AI

TACO usa trajectory-aligning optimization para cross-view geo-localisation. Cuando GNSS es débil, emparejar ground imagery con satellite tile es crítico para embodied navigation. Fuente: https://arxiv.org/abs/2605.03315
First Shape, Then Meaning separa geometría y semántica en indoor 3D reconstruction. Para percepción robótica, se refuerza la línea de primero stable geometry y luego semantic understanding. Fuente: https://arxiv.org/abs/2605.03463
Mix3R combina sparse-view 3D reconstruction y pose estimation. Multi-view aligned 3D reconstruction es directamente relevante para el embodied perception stack. Fuente: https://arxiv.org/abs/2605.03359

Edge y Dispositivos

Llegó un estudio de Rademacher complexity bound para Spiking Neural Networks. Presenta un límite teórico de generalización para neuromorphic/edge AI. Fuente: https://arxiv.org/abs/2605.02927
Adaptive Reorganization of Neural Pathways se centra en continual learning para SNN. Señal de organización de sparse pathways para aprendizaje continuo en dispositivos edge/neuromorphic. Fuente: https://arxiv.org/abs/2309.09550
VLMaxxing through FrameMogging apunta a anti-recomputation en video VLMs. No reprocesar información de stable frames es importante para el coste de edge video inference. Fuente: https://arxiv.org/abs/2605.03351

Datos e Infraestructura

Joint Energy Management and Coordinated AIGC Workload Scheduling for Distributed Data Centers. Trata AIGC workload scheduling junto con la gestión energética; respaldo académico para la línea de cost/energy en data centers. Fuente: https://arxiv.org/abs/2605.02965
Donor-Aware scRNA-seq Benchmarks for IBD Classification. Subraya que los naive splits pueden crear leakage en benchmarks biomédicos. Fuente: https://arxiv.org/abs/2605.03281
Synthetic Data Generation for Long-Tail Medical Image Classification. Aborda el problema de long-tail medical data mediante synthetic data con un case study de skin lesion. Fuente: https://arxiv.org/abs/2605.03221
Can synthetic data reproduce real-world findings in epidemiology? Prueba si synthetic data puede replicar hallazgos epidemiológicos reales. Fuente: https://arxiv.org/abs/2508.14936

Seguridad y Alignment

EvoJail presenta evolutionary diverse jailbreak prompt generation para LLMs. La generación automática de jailbreaks muestra la necesidad de pruebas más agresivas en safety evaluation. Fuente: https://arxiv.org/abs/2605.02921
Memorization in Stable Diffusion is unexpectedly driven by CLIP embeddings. Señala el impacto de la capa CLIP embedding en el riesgo de memorization en text-to-image diffusion. Fuente: https://arxiv.org/abs/2605.02908
TsallisPGD propone adaptive gradient weighting para ataques adversariales a modelos de semantic segmentation. La dificultad de pixel-level attack muestra que los test sets de seguridad deben ampliarse. Fuente: https://arxiv.org/abs/2605.03405
Enhancing Self-Supervised Talking Head Forgery Detection. A medida que cambian los generators, intenta reducir el problema de generalización de supervised deepfake detection con un training-free dual-system. Fuente: https://arxiv.org/abs/2605.03390
Integrating Feature Correlation in Differential Privacy. Al tener en cuenta feature correlation en differential privacy, aporta un modelo de privacidad más realista para aplicaciones DP-ERM. Fuente: https://arxiv.org/abs/2605.03945

Regulación y Política

AI Regulation está en tendencia ascendente. Hay 10 señales totales; no se repitieron noticias de días anteriores sobre pre-revisión estatal, y el structured set de hoy no ofrece canonical URL. [fuente pendiente]
La investigación en differential privacy aporta base técnica para la línea de política/cumplimiento. Un enfoque DP que considera feature correlation puede ofrecer un mejor threat model para sistemas ML que usan datos regulados. Fuente: https://arxiv.org/abs/2605.03945
El estudio de replicación con synthetic epidemiology data conecta con el debate sobre intercambio de datos sanitarios y privacy-policy. Cuestiona hasta qué punto synthetic data puede conservar hallazgos reales en entornos de restricted data access. Fuente: https://arxiv.org/abs/2508.14936

Comunidad y Debates

La community family produjo 145 items únicos. Destacaron Lobsters con 24, r/LocalLLaMA con 22 y Reddit ClaudeAI con 22 items; la lista de títulos/URLs no está en este payload. [fuente pendiente]
En LocalLLaMA parece intensa la discusión sobre modelos/tooling. La señal comunitaria coincide con los topics principales de agent, model y tooling. [fuente pendiente]
El flujo de Lobsters da una señal de calidad técnica. Es la fuente con mayor peso dentro de la community family; hace falta resolver el canonical item para el próximo run. [fuente pendiente]

CikCik (Twitter/X)

El flujo de @aidangomez fue una de las fuentes fallback más densas en la social family. Destacó con 60 items; el payload no incluye URL específica de tweet. [fuente pendiente]
El flujo de @omarsar0 dio alto volumen en discusiones de model/research con 60 items. Falta resolver el canonical tweet. [fuente pendiente]
El flujo de @percy_liang dio señal de discusión académica/AI policy con 58 items. No hay link específico de tweet. [fuente pendiente]
La social family produjo 1612 items únicos en total. Esto muestra que, en el run de hoy, la señal social tuvo más volumen que el flujo de noticias y académico. [fuente pendiente]
Predominan las fuentes Twitter fallback, pero la link resolution es débil. En el próximo run deben conservarse tweet id/canonical URL. [fuente pendiente]

Guías y Recursos

Information Theory and Statistical Learning. Chapter preprint para la tercera edición de Elements of Information Theory de Cover & Thomas; recurso permanente para teoría de ML. Fuente: https://arxiv.org/abs/2605.02989
Bandits on graphs and structures. Recurso amplio en formato de tesis para structured sequential decision-making. Fuente: https://arxiv.org/abs/2605.03493
A Benchmarking Suite for Flexible Job Shop Scheduling Problems with Worker Flexibility under Uncertainty. Benchmark de scheduling/optimization útil para producción e investigación operativa. Fuente: https://arxiv.org/abs/2501.16159
TabSurv busca adaptar modern tabular neural networks a survival analysis. Puede ser una referencia práctica para modelado de riesgo en healthcare/finance. Fuente: https://arxiv.org/abs/2605.03944

Señales de Oracle (Self-Improvement)

Cobertura completa: 5/5 familias de fuentes, 10/10 topics cubiertos. No hay family faltante ni topic vacío.
Topics dominantes: Launches 1098, Regulation 902, Models 884, Agents 414, Tooling 342. El pipeline de hoy también está cargado hacia launch/regulation/model.
El problema de canonical URL continúa: El flujo search se apoya en fuentes agregadoras; en social fallback faltan URLs a nivel de tweet.
Alta densidad académica en CV y teoría de ML: arxiv/cs.LG 207, cs.AI 189, cs.CV 120 items únicos destacaron.
Mejora siguiente para la calidad del reporte: Debe hacerse obligatoria la canonical URL normalization en social y search items.

Coverage / Blind Spots

Cobertura total: 7642 raw item, 3018 unique item, 104 distinct unique source.
Family coverage: rss/news ok, search ok, community ok, social ok, academic/api ok.
Family faltante: ninguna.
Thin family: ninguna.
Topic vacío: ninguno.
Thin topic: ninguno.
Fuentes dominantes: en rss/news The Register 49, DonanimHaber 48, CNBC Technology 17; en search google_news/ai 91, google_news/companies 78, google_news/releases 42; en social twitter_fallback/@aidangomez 60, @omarsar0 60, @percy_liang 58.
Riesgo: en social/search el volumen de items es alto, pero la calidad de canonical URL no es tan fuerte como en arXiv.

Lo que el Sistema Aprendió Esta Noche

Lección permanente confirmada: El flujo volvió a concentrarse en Launches, Regulation y Models; el ranking de top topics de hoy coincide con el learning artifact anterior.
Contexto de rising entities: En el artifact anterior subían Meta, AI Regulation, Google, AI Agents, Anthropic, Claude, OpenAI y RAG; hoy continuó la tendencia de AI Agents, AI Regulation, AI Safety y Anthropic.
Nuevo patrón: En el lado académico, la seguridad no es solo jailbreak; memorization, adversarial segmentation, deepfake detection y differential privacy entran en la misma cesta de seguridad.
Punto ciego recurrente: En fuentes search/social, los enlaces aggregator o fallback sustituyen a canonical URL; la resolución de URLs sigue siendo la mejora más crítica para la calidad del reporte.
Lección para el próximo run: Cuando la social family tenga mucho volumen, la sección CikCik no debe quedarse sin URLs de tweets; el collector debe guardar tweet id, author, timestamp y canonical URL.

Nota de Dedupe y Calidad

Todos los elementos de este reporte fueron filtrados/deduplicados frente a los reportes de los 3 días anteriores.
Se procesaron 7642 items en total y se reportaron 3018 items únicos.