Berita Gate News, pada 17 Maret, Moonshot mengeluarkan laporan teknologi Attention Residuals, yang mengusulkan penggantian koneksi residual tetap dalam Transformer dengan mekanisme perhatian. Pada model Kimi Linear 48B, ini setara dengan penggunaan 25% daya komputasi tambahan, dengan peningkatan latensi inferensi kurang dari 2%. Elon Musk memposting di X malam tadi, “Kerja yang mengesankan dari Kimi,” dan pihak resmi Moonshot hari ini membalas di Weibo, “Roketmu juga cukup bagus!”
Tweet ini juga mengarahkan diskusi ke salah satu penulis utama makalah tersebut: Chen Guangyu (nama Inggris Nathan), yang berusia 17 tahun dan masih sekolah menengah. Dua penulis utama lainnya adalah penemu RoPE (rotasi posisi encoding) Su Jianlin dan Zhang Yu, penulis utama Kimi Linear. Chen Guangyu bergabung dengan Moonshot pada November 2025. Proyek open source Flash Linear Attention di GitHub adalah awalnya dia belajar machine learning.
Chen Guangyu juga membalas diskusi di X, menyatakan bahwa “sebuah makalah yang menggabungkan algoritma dan infra codesign, serta eksperimen dan teori, tidak mungkin ditulis oleh satu orang,” dan bahwa tim Kimi semua berkontribusi, Yu Zhang dan Su Jianlin juga merupakan kontributor setara, mengingatkan semua orang “jangan percaya rumor.”
Halaman LinkedIn Chen Guangyu menunjukkan bahwa dia bersekolah di Basis International Park Lane Harbour, Huizhou. Moonshot Academy adalah penyelenggara “Moonshot 48,” hackathon untuk pelajar SMA yang diadakan pada Maret 2025, dan Chen Guangyu memenangkan kejuaraan dalam acara tersebut.