🔬 Gece Araştırma — 2026-05-15 (Cuma 01:01 İST)
Curate eden: Mahsum Aktaş · Günlük otomatik AI sektör taraması
🔬 Gece Araştırma — 2026-05-15 (Cuma 01:01 İST)
Yenilik Önceliği · 9/9 kategori · 31 kaynak aktif · Dedupe: 8 madde elendi
⚠️ Reddit/GitHub/Product Hunt bazı metrikleri dinamik HTML yüzünden eksik verdi. Puanı doğrulanamayan maddeler Top 7’ye alınmadı.
🔥 Top 7 — Sadece GERÇEKTEN YENİ (Son 72 Saat Delta)
Bu bölüme yalnızca 72 saat içinde ilk kez raporlanan veya materyal olarak değişen maddeler girer. Daha önce raporlanan konunun devamı → "→ Güncelleme:" etiketiyle altta göster.
| # | Madde | Kategori | Kaynak | Önem |
|---|---|---|---|---|
| 1 | VS Code 1.120 Agents window tartışması başladı — Yeni Agents penceresi, local model entegrasyonu ve Copilot bağımlılığı üzerinden geliştirici tarafında güçlü reaksiyon aldı. 🔗 | KAT-7/KAT-9 | VS Code/Reddit | 🔴 |
| 2 | AgentLens: SWE-agent “lucky pass” problemini ölçüyor — Test geçen ama kaotik/şans eseri geçen agent trajectory’lerini ayırıyor; agent eval için pass/fail ötesi kalite skoru. 🔗 | KAT-2/KAT-3 | HF/Microsoft | 🔴 |
| 3 | HAGE: agent memory için RL-driven weighted graph retrieval — Flat vector recall yerine query-conditioned graph traversal öneriyor; Oracle memory hattı için doğrudan uygulanabilir. 🔗 | KAT-2/KAT-3 | arXiv | 🔴 |
| 4 | EVA-Bench: voice agent’lar için end-to-end benchmark — Bot-to-bot audio simulation + voice-specific failure scoring getiriyor. 🔗 | KAT-2/KAT-3 | HF/arXiv | 🔴 |
| 5 | Honeycomb Agent Observability duyurdu — Production agent workflow’larında SDK lock-in olmadan gerçek zamanlı trace/visibility hedefliyor. 🔗 | KAT-2/KAT-9 | PRNewswire | 🟡 |
| 6 | Apple “AI App Store / agent ecosystem” fikrini tartışıyor — Uygulama açma yerine agent’ın app’ler arası görev yürüttüğü iPhone modeli gündemde. 🔗 | KAT-7/KAT-1 | Tom’s Guide | 🟡 |
| 7 | Unitree tabanlı Gabi robotu Güney Kore’de “android monk” oldu — Fiziksel AI’ın tüketici/kültürel vitrini; teknikten çok adoption sinyali. 🔗 | KAT-8 | TechRadar | 🟢 |
Dedupe notu: OpenAI Deployment Company, OpenAI governance genel hattı, Daybreak, ToolCUA, MemPrivacy, AI Pointer, Chrome Gemini Nano, Familiar robot companion tekrar öne alınmadı. OpenAI/Musk davası sadece “güncelleme” olarak KAT-1’de geçti.
🤖 KAT-1 · AI Laboratuvarları & Model Haberleri
- → Güncelleme: OpenAI/Musk davasında final argümanlar verildi. Musk tarafı OpenAI’ın kuruluş misyonunu ihlal ettiğini savundu; bu önceki governance başlığının devamı, Top 7’ye alınmadı. 🔗 Axios 🔗 AP
- Google I/O 2026 öncesi AI/Gemini/agentic coding beklentisi güçlendi. Oturum listeleri Gemini, Android, Chrome ve agentic coding başlıklarını öne çıkarıyor. 🔗
- OpenAI resmi haber akışında yeni “Campus Network” duyurusu var. Model değil, adoption/community hamlesi. 🔗
🕸️ KAT-2 · Agent & Framework
- Honeycomb Agent Observability: production agent davranışını framework bağımsız izleme iddiası. 🔗
- Glean ADLC: enterprise agent development lifecycle + governance/measurement çerçevesi. 🔗
- open-multi-agent: TypeScript-native MCP + live tracing odaklı yeni orchestration sinyali. 🔗
- AgentLens / HAGE: framework değil ama agent eval + memory mimarisi açısından doğrudan etkili. 🔗 🔗
📄 KAT-3 · Makaleler & Araştırma
| arXiv ID | Başlık | Neden Önemli | Kaynak |
|---|---|---|---|
| 2605.12925 | AgentLens: Revealing The Lucky Pass Problem in SWE-Agent Evaluation | Agent başarısını sadece test pass ile ölçmenin yanlışlığını gösteriyor. | 🔗 |
| 2605.09942 | HAGE: Harnessing Agentic Memory via RL-Driven Weighted Graph Evolution | Memory recall’u statik vector search’ten adaptive graph traversal’a taşıyor. | 🔗 |
| 2605.13841 | EVA-Bench: A New End-to-end Framework for Evaluating Voice Agents | Voice agent eval’de gerçekçi konuşma simülasyonu + failure scoring getiriyor. | 🔗 |
| 2605.05704 | SafeHarbor: Hierarchical Memory-Augmented Guardrail for LLM Agent Safety | Agent safety’de over-refusal/utility tradeoff’unu memory-guardrail ile hedefliyor. | 🔗 |
| 2605.12920 | Embodied Multi-Agent Coordination by Aligning World Models Through Dialogue | Embodied agent’larda partial observability + dialogue coordination hattı. | 🔗 |
| 2605.10653 | Embodied AI in Action: SAE World Congress 2026 insights | Robotics deployment için safety/trust/real-world panel sentezi. | 🔗 |
Oracle için çıkarım: Agent eval’de “başardı/başaramadı” yetmez; trajectory kalite skoru, memory retrieval path’i ve observability trace’i birlikte izlenmeli.
🧠 KAT-4 · Düşünce Liderleri
| Kişi | Görüş Özeti | Tarih | Kaynak |
|---|---|---|---|
| Simon Willison | Codex GPT-5.5 xhigh ile Datasette rate-limit plugin’i yazdırdı; pratik agentic coding kullanım notu. | 2026-05-14 | 🔗 |
| Simon Willison / Boris Mann | “11 AI agents” ifadesinin anlamsız olduğunu, agent sayısından çok iş akışı tanımının önemli olduğunu vurguladı. | 2026-05-13 | 🔗 |
| Sam Altman | OpenAI/Musk davasında Musk’ın kontrol istediği savunmasını yineledi. | 2026-05-14 | 🔗 |
| Andrew Ng | AI jobpocalypse anlatısına karşı; asıl bottleneck’in “ne yapılacağına karar verme” olduğunu savunan görüş yeniden dolaşıma girdi. | 2026-05-13 | 🔗 |
🔴 KAT-5 · Reddit Viral
| Subreddit | Başlık | Upvote | Kaynak |
|---|---|---|---|
| r/firefox | Mozilla opposes Chrome Prompt API standardization | 801 | 🔗 |
| r/LocalLLaMA | VS Code’s new “Agents window” lets you use local AI models | 130 | 🔗 |
| r/MachineLearning | I scaled a pure SNN to 1.088B parameters from scratch | ⚠️ puan gizli | 🔗 |
⚠️ Hedef subredditlerde 500+ upvote eşiğini açık metrikle doğrulayan tek AI/platform maddesi r/firefox Prompt API tartışması oldu.
🐦 KAT-6 · Twitter/X Viral
| Hesap | Tweet Özeti | Etki | Tarih |
|---|---|---|---|
| @elonmusk | “Grok now has skills” | 3.8k repost / 38.2k like | 2026-05-14 🔗 |
| @elonmusk | “Worth reading” | 12.7k repost / 94.4k like | 2026-05-11 🔗 |
⚠️ AI-specific 1000+ RT / 10k+ like eşiğini açık metrikle geçen doğrulanmış yeni sinyal: Grok skills. Diğer trendler AI dışıydı.
🌐 KAT-7 · Platform & Ekosistem
- VS Code 1.120 Agents window: local model + Copilot plan bağımlılığı geliştirici tepkisi üretti. 🔗
- Chrome Prompt API standardizasyon kavgası büyüyor: Mozilla/WebKit tarafı browser içine gömülü model API’sinin web tarafsızlığını bozacağını savunuyor. 🔗
- Firefox 149–152 WebExtensions değişiklikleri: string-based code execution ve extension popup davranışlarında geliştirici etkisi var. 🔗
- Apple agent-store fikri: AI servislerinin app’ler arası görev yürütmesi App Store modelini değiştirebilir. 🔗
🦾 KAT-8 · Robotik & Edge AI
- Gabi / Unitree G1 tabanlı robot monk: Güney Kore’de kültürel kullanım vitrini; embodied AI adoption sinyali. 🔗
- Embodied AI in Action whitepaper: safety, trust, real-world robotics deployment başlıklarını SAE 2026 panelinden sentezliyor. 🔗
- Genesis AI GENE-26.5: robot manipulation “brain” duyurusu; şirket iddiası agresif, bağımsız benchmark yok. 🔗
- Samsung Galaxy S24/S25 üzerinde multi-LoRA edge LLM çalışması: mobil edge inference fizibilitesi için pratik sistem ölçümü. 🔗
⭐ KAT-9 · OSS & Ürün Sinyalleri
HN Öne Çıkanlar
| Puan | Başlık | Kaynak |
|---|---|---|
| ⚠️ puan dinamik | Show HN: WhatCable, tiny menu bar app for inspecting USB-C cables | 🔗 |
| ⚠️ puan dinamik | How OpenAI delivers low-latency voice AI at scale | 🔗 |
GitHub Trending
| Repo | Stars/Gün | Alan |
|---|---|---|
| NousResearch/hermes-agent | +61 | AI agents |
| mattpocock/skills | +54 | dev skills / CLI |
| anthropics/claude-for-legal | +48 | legal AI workflow |
| CloakHQ/CloakBrowser | ⚠️ sayı dinamik | stealth browser / automation |
Kaynak: 🔗 GitTrend
Product Hunt AI
⚠️ Product Hunt AI topic sayfası fetch edildi fakat ürün satırları dinamik geldi; güvenilir ürün adı/puan çıkarılamadı. Kaynak: 🔗
🇹🇷 Türk Tech Sahnesi
- Erdoğan, Kazakistan’daki Alem.AI Yapay Zeka Merkezi’ni ziyaret etti. Türkiye-Kazakistan hattında AI diplomasi/merkez ziyareti sinyali. 🔗
- AI kullanan dolandırıcılık çetesi operasyonu: 14 ilde sahte fatura/irsaliye ve ürün görseli üretimiyle dolandırıcılık iddiası. 🔗
🧠 Oracle Self-Improvement Sinyalleri
| # | Bulgu | Kaynak | Uygulama Alanı | Efor |
|---|---|---|---|---|
| 1 | AgentLens-style trajectory quality score şart | 🔗 | sessions / verification-gate | Orta |
| 2 | HAGE memory graph routing, Oracle memory_recall için güçlü aday | 🔗 | memory-core / retrieval | Büyük |
| 3 | Honeycomb benzeri agent observability trace standardı lazım | 🔗 | oracle metrics / trace viewer | Orta |
🐦 CikCik Paketi (@muxamos sesi)
Tweetler (3–5 adet)
Tweet 1 (Konu: AgentLens):
Agent benchmark’larında “test geçti” artık yetmiyor. AgentLens’in gösterdiği şey net: bazen model doğru cevaba kötü süreçle, şansla, gereksiz retry’la varıyor. Pass rate değil trajectory quality izlemek lazım.
Tweet 2 (Konu: HAGE):
Agent memory tarafında asıl mesele “hatırlamak” değil, doğru bağlamı doğru yoldan geri çağırmak. HAGE’nin graph traversal yaklaşımı düz vector search’ün tavanına işaret ediyor.
Tweet 3 (Konu: VS Code Agents):
VS Code’un Agents penceresi tartışması şunu gösterdi: local model istiyoruz ama gerçek local kontrol istiyoruz. “Local görünümlü, cloud lisanslı” yapı geliştiriciyi ikna etmiyor.
Tweet 4 (Konu: Prompt API):
Chrome Prompt API kavgası küçük bir API meselesi değil. Browser içine model gömülürse web’in tarafsız runtime fikri değişir. Mozilla/WebKit’in itirazı o yüzden önemli.
Reply Fırsatları (2–3)
@simonw altına (agent sayısı):
“11 agents” ifadesi gerçekten metrik değil. Asıl soru: görev sınırı, state modeli, rollback ve gözlemlenebilirlik var mı?
@code altına (VS Code Agents):
Agents window iyi fikir, ama local model desteği internet/Copilot plan bağımlılığına takılıyorsa geliştirici bunu “local” kabul etmeyecek.
Günün Hook'u
Agent’ların 2026 sorunu zeka değil: memory, trace, rollback.
📊 Kaynak & Durum Özeti
| Kategori | Kaynak | Durum | Madde |
|---|---|---|---|
| KAT-1 | Axios, AP, OpenAI, Tom’s Guide | ✅ | 3 |
| KAT-2 | Honeycomb, Glean, ReputAgent, HF | ✅ | 4 |
| KAT-3 | HF, arXiv, Papers.cool | ✅ | 6 |
| KAT-4 | SimonWillison, AP, AILinkLab | ✅ | 4 |
| KAT-5 | ⚠️ puanlar kısmen dinamik | 3 | |
| KAT-6 | XTrending | ⚠️ tek güçlü AI metrik | 2 |
| KAT-7 | VS Code, Mozilla, Reddit, Tom’s Guide | ✅ | 4 |
| KAT-8 | TechRadar, arXiv, PRNewswire | ✅ | 4 |
| KAT-9 | HN/Woid, GitTrend, Product Hunt | ⚠️ PH dinamik | 6 |
Toplam dedupe elenen: 8 madde | Yeni madde: 36 | Sonraki temizlik: 2026-05-18 01:01 İST
Rapor: Gece Araştırma v2 · 2026-05-15 01:01 İST · Oracle 🦉