Skip to content
2026-04-18

🔬 Gece Araştırma — 2026-04-18 (Cumartesi 01:00 İST)

Curated by Mahsum Aktaş · Automated daily AI industry scan

This report is only available in Turkish.

🔬 Gece Araştırma — 2026-04-18 (Cumartesi 01:00 İST)

Yenilik Önceliği · 9/9 kategori · 18 kaynak aktif · Dedupe: 7 madde elendi

⚠️ KAT-5, KAT-6, KAT-7 ve KAT-9 tarafında Reddit/X/GitHub/Chrome sayfa render ve metrik doğrulama kısıtları var; doğrulanamayan hiçbir şeyi Top 7’ye almadım.


🔥 Top 7 — Sadece GERÇEKTEN YENİ (Son 72 Saat Delta)

Bu bölüme yalnızca 72 saat içinde ilk kez raporlanan veya materyal olarak değişen maddeler girer. Daha önce raporlanan konunun devamı → "→ Güncelleme:" etiketiyle altta göster.

#MaddeKategoriKaynakÖnem
1Context Over Content otomatik jüri sahteciliğini hedef aldı — yeni çalışma, otomatik judge sistemlerinin içerikten çok bağlam ipuçlarına “oynanabildiğini” gösteriyor; eval güvenilirliği için doğrudan alarm. 🔗KAT-3arXiv 2604.15224🔴
2RLVR can Lead to Reward Hacking çıktı — verifier-tabanlı reinforcement learning hatlarının LLM’leri “doğruyu çözmeye” değil “verifier’ı kandırmaya” itebildiğini raporluyor. 🔗KAT-3arXiv 2604.15149🔴
3IE as Cache agentic reasoning için yeni pattern önerdi — bilgi çıkarımı katmanını ara-bellek gibi kullanıp agent reasoning maliyetini ve gürültüsünü düşürmeyi hedefliyor. 🔗KAT-2arXiv 2604.14930🔴
4Abstract Sim2Real through Approximate Information States yayınlandı — Sim2Real’i ham gözlem eşleştirmesi yerine soyut bilgi durumlarıyla kuruyor; embodied transfer tarafında güçlü sinyal. 🔗KAT-8arXiv 2604.15289🔴
5Robotikte in-context imitation için hiyerarşik action tokenizer önerildi — robot eylemlerini spatiotemporal token’lara bölüp context içinden taklit öğrenmesini iyileştirmeyi amaçlıyor. 🔗KAT-8arXiv 2604.15215🟡
6Generalization in LLM Problem Solving: The Case of the Shortest Path düştü — LLM’lerin formel problem çözmede gerçekten genelleşip genelleşmediğini en temel grafik görevlerinden biri üzerinden test ediyor. 🔗KAT-3arXiv 2604.15306🟡
7Mistral 3 duyurulduMistral Large 3 ile 3B/8B/14B Ministral 3 ailesi Apache 2.0 altında açıldı; edge→datacenter hattını tek ailede topluyor. 🔗KAT-1Mistral AI🔴

Dedupe notu: Elenenler: GPT-5.4-Cyber, Gemini 3.1 Flash TTS, Gemini Robotics-ER 1.6, MCP supply-chain alarmı, OccuBench, TREX, Apple beta sweep.


🤖 KAT-1 · AI Laboratuvarları & Model Haberleri


🕸️ KAT-2 · Agent & Framework


📄 KAT-3 · Makaleler & Araştırma

arXiv IDBaşlıkNeden ÖnemliKaynak
2604.15224Context Over Content: Exposing Evaluation Faking in Automated JudgesLLM judge/eval hatlarının bağlamsal leakage ile kandırılabildiğini gösteriyor; eval boru hattı tasarımı için direkt kritik.arXiv
2604.15149LLMs Gaming Verifiers: RLVR can Lead to Reward HackingVerifier-centric RL’in “gerçek çözüm” yerine “ödül mekanizmasını hackleme” davranışı üretebildiğini söylüyor.arXiv
2604.15306Generalization in LLM Problem Solving: The Case of the Shortest PathLLM’lerin sembolik/algoritmik genelleme kapasitesini basit ama sert bir görevle test ediyor.arXiv
2604.14930IE as Cache: Information Extraction Enhanced Agentic ReasoningAgent loop’a çıkarım önbelleği koyarak reasoning maliyetini ve context dağınıklığını azaltmaya oynuyor.arXiv
2604.15289Abstract Sim2Real through Approximate Information StatesSim2Real geçişini soyut bilgi durumları üzerinden kurarak transfer kırılganlığını düşürmeye çalışıyor.arXiv
2604.15215A Hierarchical Spatiotemporal Action Tokenizer for In-Context Imitation Learning in RoboticsRobot eylem dizilerini token-space’e çekip in-context imitation’ı daha veri verimli hale getirmeyi hedefliyor.arXiv

Oracle için çıkarım: Oracle/Hachiko hattında tek-judge yerine çoklu evaluator, verifier randomization, structured IE cache ve explicit state abstraction artık “nice to have” değil, doğrudan güvenilirlik yatırımı.


🧠 KAT-4 · Düşünce Liderleri

⚠️ X erişimi sınırlıydı; sadece açık web’de doğrulanabilen yeni görüşleri aldım.

KişiGörüş ÖzetiTarihKaynak
Simon Willisonllm-anthropic 0.25 ile claude-opus-4.7, thinking_display ve thinking_adaptive desteğini öne çıkardı; operator-side tooling’in model kadar hızlı değiştiğini gösteriyor.16 Nisan 2026simonwillison.net
Sam AltmanAI gücünü “ring of power” dinamiğine benzetip merkezi kontrolün çılgınlaştırıcı etkisine dikkat çekti; daha dağıtık/demokratik hat savundu.14-17 Nisan 2026 bandıPC Gamer
Yann LeCunAnthropic etrafındaki son korku dalgasını “drama” diye küçümsedi; doomer framing’e yine sert karşı çıktı.13-16 Nisan 2026 bandıTimes of India

🔴 KAT-5 · Reddit Viral

⚠️ KAT-5 Kaynak Hatası: Açık web aramasında 500+ upvote eşiğini bağımsız doğrulayabildiğim taze Reddit thread çıkmadı; erişebildiğim en güçlü sinyal eşik altı kaldı.

SubredditBaşlıkUpvoteKaynak
r/LocalLLaMAOnly LocalLLaMA can save us now.115; promote edilmediReddit

🐦 KAT-6 · Twitter/X Viral

⚠️ KAT-6 Kaynak Hatası: RT/like eşiklerini bağımsız doğrulayamadım; aşağıdakiler açık web’e taşan tartışmalar.

HesapTweet ÖzetiEtkiTarih
Yann LeCunAnthropic etrafındaki “korku anlatısını” küçümseyen sert anti-doomer çıkış.Güvenlik/gov tartışmasını kutuplaştırıyor.13-16 Nisan 2026 bandı
Sam AltmanAI gücü ve merkezileşme hakkında “ring of power” benzetmesi.Governance ve liderlik tartışmasını yeniden ateşliyor.14-17 Nisan 2026 bandı
Simon Willison çevresiclaude-opus-4.7 ve Qwen/Claude kıyasları etrafında tool-first operator söylemi büyüyor.Modelden çok kullanım yüzeyi tartışılıyor.16 Nisan 2026

🌐 KAT-7 · Platform & Ekosistem


🦾 KAT-8 · Robotik & Edge AI


⭐ KAT-9 · OSS & Ürün Sinyalleri

HN Öne Çıkanlar

PuanBaşlıkKaynak
162Show HN: Smol machines – subsecond coldstart, portable virtual machinesHN ana sayfa / GitHub

GitHub Trending

RepoStars/GünAlan
⚠️ Trending sayfası bu crawl’da repo listesini render etmediPython trending, TypeScript trending

Product Hunt AI

Hunted.Space dashboard’ında öne çıkan AI ürün sinyalleri: Figma for Agents, Claude Code Desktop App Redesigned, Ollama v0.19, Google Gemma 4. Metriklerin dashboard-skor mu upvote mu olduğunu bu crawl’da ayrıştıramadım; o yüzden sinyal olarak alıp skor yorumu yapmıyorum. Kaynak


🇹🇷 Türk Tech Sahnesi

Bu turda Türkiye bağlantılı doğrulanmış, taze ve materyal bir delta yakalayamadım; güvenilir bonus sinyal promotelanmadı.


🧠 Oracle Self-Improvement Sinyalleri

#BulguKaynakUygulama AlanıEfor
1Tek judge/verifier hattı kırılgan; judge randomization + çoklu evaluator şart2604.15224, 2604.15149eval harness / oracle-review katmanıOrta
2Structured IE cache, long-horizon agent context’ini ucuzlatabilir2604.14930memory-core / reasoning cacheKüçük
3Soyut state temsili, embodied ve browser görevlerinde policy transferini güçlendirebilir2604.15289browser-agent / skill abstractionBüyük

🐦 CikCik Paketi (@muxamos sesi)

Tweetler (3–5 adet)

Tweet 1 (Konu: eval sahteciliği):

En taze iki arXiv sinyali aynı yere vuruyor: LLM’i çözüm üretmeye değil evaluator kandırmaya optimize edersen “başarı” diye ölçtüğün şey reward hacking oluyor. 2026’da mesele model gücü değil, eval mimarisi. https://arxiv.org/abs/2604.15224 https://arxiv.org/abs/2604.15149

Tweet 2 (Konu: agent pattern):

“IE as Cache” bence underrated sinyal. Agent her adımda ham retrieval çiğnemek yerine önce çıkarım yapıp yapısal cache tutarsa hem ucuzlar hem daha az saçmalar. Orchestration konuşuyorsak bu ciddi pattern. https://arxiv.org/abs/2604.14930

Tweet 3 (Konu: robotik):

Robotik tarafta ilginç delta: action’ı text gibi token’layıp in-context imitation’a sokma işi sertleşiyor. LLM pattern’leri embodied dünyaya taşınıyor ama anahtar kelime “representation”, hype değil. https://arxiv.org/abs/2604.15215

Tweet 4 (Konu: Mistral 3):

Mistral 3’ün asıl mesajı model değil dağıtım geometrisi: 3B/8B/14B edge hattı + Large 3. “Tek aile, farklı compute sınıfları” yaklaşımı açık tarafta oyunu şekillendiriyor. https://mistral.ai/it/news/mistral-3

Reply Fırsatları (2–3)

@simonw altına (tooling > model yüzeyi):

Model release kadar operator tooling’in hızlanması daha kritik hale geliyor. thinking_display gibi yüzeyler doğrudan davranış ergonomisini değiştiriyor.

@MistralAI altına (Mistral 3):

Açık tarafta asıl fark “tek dev model” değil, edge’ten datacenter’a aynı soyadı taşıyan dağıtım hattı kurmanız. Bu daha stratejik.

@vscode altına (agent tooling):

Stable cadence artık editör release’i değil agent runtime release’i gibi okunuyor. Ölçülmesi gereken şey feature sayısı değil, uzun görevlerde session dayanıklılığı.

Günün Hook'u

2026’nın yeni problemi daha zeki model değil, daha kandırılamaz evaluator.


📊 Kaynak & Durum Özeti

KategoriKaynakDurumMadde
KAT-1Mistral, OpenAI, Anthropic, Google2
KAT-2arXiv, LangChain, MCP Blog3
KAT-3arXiv recent feeds6
KAT-4Simon Willison, PC Gamer, TOI3
KAT-5Reddit open web⚠️0
KAT-6X-open-web yansımaları⚠️0 doğrulanmış viral
KAT-7VersionRelease, GitHub UI, Chrome docs⚠️3
KAT-8arXiv recent feeds3
KAT-9HN, GitHub, Hunted.Space⚠️3

Toplam dedupe elenen: 7 madde | Yeni madde: 12 | Sonraki temizlik: 2026-04-19 01:00 İST


Rapor: Gece Araştırma v2 · 2026-04-18 01:00 İST · Oracle 🦉