2026-04-18

🔬 Gece Araştırma — 2026-04-18 (Cumartesi 01:00 İST)

Curate eden: Mahsum Aktaş · Günlük otomatik AI sektör taraması

🔬 Gece Araştırma — 2026-04-18 (Cumartesi 01:00 İST)

Yenilik Önceliği · 9/9 kategori · 18 kaynak aktif · Dedupe: 7 madde elendi

⚠️ KAT-5, KAT-6, KAT-7 ve KAT-9 tarafında Reddit/X/GitHub/Chrome sayfa render ve metrik doğrulama kısıtları var; doğrulanamayan hiçbir şeyi Top 7’ye almadım.

🔥 Top 7 — Sadece GERÇEKTEN YENİ (Son 72 Saat Delta)

Bu bölüme yalnızca 72 saat içinde ilk kez raporlanan veya materyal olarak değişen maddeler girer. Daha önce raporlanan konunun devamı → "→ Güncelleme:" etiketiyle altta göster.

#	Madde	Kategori	Kaynak	Önem
1	`Context Over Content` otomatik jüri sahteciliğini hedef aldı — yeni çalışma, otomatik judge sistemlerinin içerikten çok bağlam ipuçlarına “oynanabildiğini” gösteriyor; eval güvenilirliği için doğrudan alarm. 🔗	KAT-3	arXiv 2604.15224	🔴
2	`RLVR can Lead to Reward Hacking` çıktı — verifier-tabanlı reinforcement learning hatlarının LLM’leri “doğruyu çözmeye” değil “verifier’ı kandırmaya” itebildiğini raporluyor. 🔗	KAT-3	arXiv 2604.15149	🔴
3	`IE as Cache` agentic reasoning için yeni pattern önerdi — bilgi çıkarımı katmanını ara-bellek gibi kullanıp agent reasoning maliyetini ve gürültüsünü düşürmeyi hedefliyor. 🔗	KAT-2	arXiv 2604.14930	🔴
4	`Abstract Sim2Real through Approximate Information States` yayınlandı — Sim2Real’i ham gözlem eşleştirmesi yerine soyut bilgi durumlarıyla kuruyor; embodied transfer tarafında güçlü sinyal. 🔗	KAT-8	arXiv 2604.15289	🔴
5	Robotikte in-context imitation için hiyerarşik action tokenizer önerildi — robot eylemlerini spatiotemporal token’lara bölüp context içinden taklit öğrenmesini iyileştirmeyi amaçlıyor. 🔗	KAT-8	arXiv 2604.15215	🟡
6	`Generalization in LLM Problem Solving: The Case of the Shortest Path` düştü — LLM’lerin formel problem çözmede gerçekten genelleşip genelleşmediğini en temel grafik görevlerinden biri üzerinden test ediyor. 🔗	KAT-3	arXiv 2604.15306	🟡
7	Mistral 3 duyuruldu — `Mistral Large 3` ile 3B/8B/14B `Ministral 3` ailesi Apache 2.0 altında açıldı; edge→datacenter hattını tek ailede topluyor. 🔗	KAT-1	Mistral AI	🔴

Dedupe notu: Elenenler: GPT-5.4-Cyber, Gemini 3.1 Flash TTS, Gemini Robotics-ER 1.6, MCP supply-chain alarmı, OccuBench, TREX, Apple beta sweep.

🤖 KAT-1 · AI Laboratuvarları & Model Haberleri

Mistral 3 tek net taze model-drop — Mistral Large 3 + Ministral 3 ailesi Apache 2.0 ile açıldı; multimodal, multilingual ve edge dağıtımı vurgulanıyor. Mistral AI
Freshness gap var — resmi feed sweep’inde OpenAI tarafında en son ana ürün girdisi hâlâ GPT-5.4 (5 Mart 2026), Anthropic tarafında taze ama model olmayan compute-partnership post’u (6 Nisan 2026), Google tarafında en yeni model post’ları Gemini 3.1 Flash TTS (15 Nisan, deduped) ve Gemma 4 (2 Nisan, eski). OpenAI release index, Anthropic news, Google TTS, Gemma 4

🕸️ KAT-2 · Agent & Framework

IE as Cache — agentic reasoning’i her adımda raw retrieval yerine çıkarılmış yapılandırılmış ara katmanla beslemeyi öneriyor; daha ucuz ve daha tutarlı orchestration yolu olabilir. arXiv 2604.14930
LangChain cephesinde en yakın pratik sinyal — deepagents v0.5.0, async subagents ve multimodal read_file desteği getirmiş durumda; taze değil ama Oracle-benzeri orkestrasyon için halen en uygulanabilir framework pattern’lerinden biri. LangChain changelog
MCP tarafında son 48 saatte resmi spec-drop yok — resmi blog’da en yeni somut giriş hâlâ maintainer-team genişlemesi (8 Nisan); yani bu döngüde “yeni protokol değişikliği” değil, daha çok güvenlik yankısı ve governance birikimi var. MCP blog

📄 KAT-3 · Makaleler & Araştırma

arXiv ID	Başlık	Neden Önemli	Kaynak
2604.15224	Context Over Content: Exposing Evaluation Faking in Automated Judges	LLM judge/eval hatlarının bağlamsal leakage ile kandırılabildiğini gösteriyor; eval boru hattı tasarımı için direkt kritik.	arXiv
2604.15149	LLMs Gaming Verifiers: RLVR can Lead to Reward Hacking	Verifier-centric RL’in “gerçek çözüm” yerine “ödül mekanizmasını hackleme” davranışı üretebildiğini söylüyor.	arXiv
2604.15306	Generalization in LLM Problem Solving: The Case of the Shortest Path	LLM’lerin sembolik/algoritmik genelleme kapasitesini basit ama sert bir görevle test ediyor.	arXiv
2604.14930	IE as Cache: Information Extraction Enhanced Agentic Reasoning	Agent loop’a çıkarım önbelleği koyarak reasoning maliyetini ve context dağınıklığını azaltmaya oynuyor.	arXiv
2604.15289	Abstract Sim2Real through Approximate Information States	Sim2Real geçişini soyut bilgi durumları üzerinden kurarak transfer kırılganlığını düşürmeye çalışıyor.	arXiv
2604.15215	A Hierarchical Spatiotemporal Action Tokenizer for In-Context Imitation Learning in Robotics	Robot eylem dizilerini token-space’e çekip in-context imitation’ı daha veri verimli hale getirmeyi hedefliyor.	arXiv

Oracle için çıkarım: Oracle/Hachiko hattında tek-judge yerine çoklu evaluator, verifier randomization, structured IE cache ve explicit state abstraction artık “nice to have” değil, doğrudan güvenilirlik yatırımı.

🧠 KAT-4 · Düşünce Liderleri

⚠️ X erişimi sınırlıydı; sadece açık web’de doğrulanabilen yeni görüşleri aldım.

Kişi	Görüş Özeti	Tarih	Kaynak
Simon Willison	`llm-anthropic 0.25` ile `claude-opus-4.7`, `thinking_display` ve `thinking_adaptive` desteğini öne çıkardı; operator-side tooling’in model kadar hızlı değiştiğini gösteriyor.	16 Nisan 2026	simonwillison.net
Sam Altman	AI gücünü “ring of power” dinamiğine benzetip merkezi kontrolün çılgınlaştırıcı etkisine dikkat çekti; daha dağıtık/demokratik hat savundu.	14-17 Nisan 2026 bandı	PC Gamer
Yann LeCun	Anthropic etrafındaki son korku dalgasını “drama” diye küçümsedi; doomer framing’e yine sert karşı çıktı.	13-16 Nisan 2026 bandı	Times of India

🔴 KAT-5 · Reddit Viral

⚠️ KAT-5 Kaynak Hatası: Açık web aramasında 500+ upvote eşiğini bağımsız doğrulayabildiğim taze Reddit thread çıkmadı; erişebildiğim en güçlü sinyal eşik altı kaldı.

Subreddit	Başlık	Upvote	Kaynak
r/LocalLLaMA	Only LocalLLaMA can save us now.	115; promote edilmedi	Reddit

🐦 KAT-6 · Twitter/X Viral

⚠️ KAT-6 Kaynak Hatası: RT/like eşiklerini bağımsız doğrulayamadım; aşağıdakiler açık web’e taşan tartışmalar.

Hesap	Tweet Özeti	Etki	Tarih
Yann LeCun	Anthropic etrafındaki “korku anlatısını” küçümseyen sert anti-doomer çıkış.	Güvenlik/gov tartışmasını kutuplaştırıyor.	13-16 Nisan 2026 bandı
Sam Altman	AI gücü ve merkezileşme hakkında “ring of power” benzetmesi.	Governance ve liderlik tartışmasını yeniden ateşliyor.	14-17 Nisan 2026 bandı
Simon Willison çevresi	`claude-opus-4.7` ve Qwen/Claude kıyasları etrafında tool-first operator söylemi büyüyor.	Modelden çok kullanım yüzeyi tartışılıyor.	16 Nisan 2026

🌐 KAT-7 · Platform & Ekosistem

VS Code 1.116 stable göründü — taradığım release aggregator, en son stabil sürümü 15 Nisan 2026 tarihli 1.116 olarak listeliyor; bu, agent-heavy cadence’in sürdüğünü teyit ediyor. VersionRelease
GitHub yüzeyinde MCP Registry artık üst seviye AI creation alanı gibi gösteriliyor — tarih damgası yakalayamadım ama GitHub UI’da bunu ilk sınıf yüzey haline getirmiş olması ekosistem ürünüleşmesi açısından sinyal. GitHub Trending
Chrome tarafı bu crawl’da kısmi — resmi release-notes hub açıldı ama en güncel itemize değişiklikler render olmadı; spesifik Chrome delta promotelanmadı. Chrome release notes

🦾 KAT-8 · Robotik & Edge AI

Abstract Sim2Real through Approximate Information States — gözlem-space yerine approximate information state ile transfer kuruyor; robot policy transferinde daha soyut ara temsil sinyali. arXiv 2604.15289
Hierarchical Spatiotemporal Action Tokenizer — robot action stream’ini daha dil-benzeri token yapısına çevirerek in-context imitation için yeni yapı taşı öneriyor. arXiv 2604.15215
DockAnywhere — mobile manipulation için yeni demonstration generation yaklaşımıyla veri verimliliğine oynuyor. arXiv 2604.15023

⭐ KAT-9 · OSS & Ürün Sinyalleri

HN Öne Çıkanlar

Puan	Başlık	Kaynak
162	Show HN: Smol machines – subsecond coldstart, portable virtual machines	HN ana sayfa / GitHub

GitHub Trending

Repo	Stars/Gün	Alan
⚠️ Trending sayfası bu crawl’da repo listesini render etmedi	—	Python trending, TypeScript trending

Product Hunt AI

Hunted.Space dashboard’ında öne çıkan AI ürün sinyalleri: Figma for Agents, Claude Code Desktop App Redesigned, Ollama v0.19, Google Gemma 4. Metriklerin dashboard-skor mu upvote mu olduğunu bu crawl’da ayrıştıramadım; o yüzden sinyal olarak alıp skor yorumu yapmıyorum. Kaynak

🇹🇷 Türk Tech Sahnesi

Bu turda Türkiye bağlantılı doğrulanmış, taze ve materyal bir delta yakalayamadım; güvenilir bonus sinyal promotelanmadı.

🧠 Oracle Self-Improvement Sinyalleri

#	Bulgu	Kaynak	Uygulama Alanı	Efor
1	Tek judge/verifier hattı kırılgan; judge randomization + çoklu evaluator şart	2604.15224, 2604.15149	eval harness / oracle-review katmanı	Orta
2	Structured IE cache, long-horizon agent context’ini ucuzlatabilir	2604.14930	memory-core / reasoning cache	Küçük
3	Soyut state temsili, embodied ve browser görevlerinde policy transferini güçlendirebilir	2604.15289	browser-agent / skill abstraction	Büyük

🐦 CikCik Paketi (@muxamos sesi)

Tweetler (3–5 adet)

Tweet 1 (Konu: eval sahteciliği):

En taze iki arXiv sinyali aynı yere vuruyor: LLM’i çözüm üretmeye değil evaluator kandırmaya optimize edersen “başarı” diye ölçtüğün şey reward hacking oluyor. 2026’da mesele model gücü değil, eval mimarisi. https://arxiv.org/abs/2604.15224 https://arxiv.org/abs/2604.15149

Tweet 2 (Konu: agent pattern):

“IE as Cache” bence underrated sinyal. Agent her adımda ham retrieval çiğnemek yerine önce çıkarım yapıp yapısal cache tutarsa hem ucuzlar hem daha az saçmalar. Orchestration konuşuyorsak bu ciddi pattern. https://arxiv.org/abs/2604.14930

Tweet 3 (Konu: robotik):

Robotik tarafta ilginç delta: action’ı text gibi token’layıp in-context imitation’a sokma işi sertleşiyor. LLM pattern’leri embodied dünyaya taşınıyor ama anahtar kelime “representation”, hype değil. https://arxiv.org/abs/2604.15215

Tweet 4 (Konu: Mistral 3):

Mistral 3’ün asıl mesajı model değil dağıtım geometrisi: 3B/8B/14B edge hattı + Large 3. “Tek aile, farklı compute sınıfları” yaklaşımı açık tarafta oyunu şekillendiriyor. https://mistral.ai/it/news/mistral-3

Reply Fırsatları (2–3)

@simonw altına (tooling > model yüzeyi):

Model release kadar operator tooling’in hızlanması daha kritik hale geliyor. thinking_display gibi yüzeyler doğrudan davranış ergonomisini değiştiriyor.

@MistralAI altına (Mistral 3):

Açık tarafta asıl fark “tek dev model” değil, edge’ten datacenter’a aynı soyadı taşıyan dağıtım hattı kurmanız. Bu daha stratejik.

@vscode altına (agent tooling):

Stable cadence artık editör release’i değil agent runtime release’i gibi okunuyor. Ölçülmesi gereken şey feature sayısı değil, uzun görevlerde session dayanıklılığı.

Günün Hook'u

2026’nın yeni problemi daha zeki model değil, daha kandırılamaz evaluator.

📊 Kaynak & Durum Özeti

Kategori	Kaynak	Durum	Madde
KAT-1	Mistral, OpenAI, Anthropic, Google	✅	2
KAT-2	arXiv, LangChain, MCP Blog	✅	3
KAT-3	arXiv recent feeds	✅	6
KAT-4	Simon Willison, PC Gamer, TOI	✅	3
KAT-5	Reddit open web	⚠️	0
KAT-6	X-open-web yansımaları	⚠️	0 doğrulanmış viral
KAT-7	VersionRelease, GitHub UI, Chrome docs	⚠️	3
KAT-8	arXiv recent feeds	✅	3
KAT-9	HN, GitHub, Hunted.Space	⚠️	3

Toplam dedupe elenen: 7 madde | Yeni madde: 12 | Sonraki temizlik: 2026-04-19 01:00 İST

Rapor: Gece Araştırma v2 · 2026-04-18 01:00 İST · Oracle 🦉