Perjalanan Sergey Brin: dari Algoritma Pencarian ke AI Generatif

Q: Mengapa Sergey Brin “masih penting” saat membahas AI dan pencarian hari ini?

Dia berguna sebagai lensa untuk menghubungkan masalah penemuan informasi klasik (relevansi, ketahanan terhadap spam, skala) dengan masalah AI generatif saat ini (grounding, latensi, keselamatan, biaya). Intinya bukan biografi—melainkan bahwa pencarian dan AI modern berbagi kendala inti yang sama: beroperasi pada skala besar sambil menjaga kepercayaan.

Q: Sebenarnya apa arti “AI generatif skala besar” dalam praktik?

Pencarian disebut “skala besar” ketika harus menangani juta-an kueri dengan latensi rendah, ketersediaan tinggi, dan data yang terus diperbarui. AI generatif disebut “skala besar” ketika harus melakukan hal yang sama sambil menghasilkan keluaran , yang menambah kendala ekstra terkait: - biaya inferensi yang dapat diprediksi - kualitas jawaban yang konsisten - kontrol grounding dan keselamatan di bawah beban lalu lintas tinggi

Q: Apa yang salah dengan mesin pencari pada akhir 1990-an?

Pencarian akhir 1990-an sangat bergantung pada penyesuaian kata kunci dan sinyal peringkat sederhana, yang runtuh saat web berkembang pesat. Mode kegagalan umum meliputi: - hasil yang tidak relevan meski kata-kata “cocok” - halaman berkualitas rendah mengalahkan sumber yang lebih baik - taktik spam seperti keyword stuffing - ketidakmampuan mengikuti kebutuhan perayapan dan pengindeksan

Q: Apa yang diubah PageRank dibandingkan perankingan berbasis kata kunci?

PageRank memperlakukan tautan sebagai semacam suara kepercayaan , dengan bobot ditentukan oleh pentingnya halaman yang memberi tautan. Secara praktis, hal itu: - meningkatkan relevansi dengan memanfaatkan struktur web, bukan hanya teks di halaman - membuat peringkat lebih sulit (meski bukan tidak mungkin) untuk dimanipulasi dibandingkan metode berbasis kata kunci murni - mendorong pencarian menuju perankingan multi-sinyal daripada pencocokan faktor tunggal

Q: Apa yang secara fundamental berbeda antara AI generatif dan AI pencarian klasik?

Pencarian klasik sebagian besar memilih dan memberi peringkat dokumen yang ada. AI generatif menghasilkan teks, yang mengubah mode kegagalan. Risiko baru meliputi: - kesalahan faktual yang terdengar percaya diri (hallucination) - inkonsistensi antar prompt serupa - masalah keselamatan (konten berbahaya, bias) Ini menggeser pertanyaan pusat dari “Apakah kita memberi peringkat sumber terbaik?” menjadi “Apakah respons yang dihasilkan akurat, berlandaskan sumber, dan aman?”

Masuk Mulai

Perjalanan Sergey Brin: dari Algoritma Pencarian ke AI Generatif | Koder.ai

Mengapa Sergey Brin Tetap Penting untuk AI dan Pencarian

Kisah Sergey Brin penting bukan karena selebritas atau trivia perusahaan, tapi karena menghubungkan secara langsung dari masalah pencarian klasik (bagaimana menemukan jawaban terbaik di web terbuka?) ke pertanyaan yang dihadapi tim saat ini dengan AI modern (bagaimana menghasilkan keluaran yang berguna tanpa kehilangan akurasi, kecepatan, atau kepercayaan?). Karyanya berada di persimpangan algoritma, data, dan sistem—persis di mana pencarian dan AI generatif bertemu.

Apa artikel ini dan apa yang bukan

Ini adalah tur berfokus pada konsep tentang tonggak penting: bagaimana ide seperti PageRank mengubah relevansi, bagaimana machine learning diam-diam menggantikan aturan buatan tangan, dan mengapa deep learning memperbaiki pemahaman bahasa. Ini bukan gosip, drama internal, atau kronologi tajuk berita. Tujuannya adalah menjelaskan mengapa pergeseran ini penting dan bagaimana mereka membentuk produk yang digunakan orang.

“AI generatif skala besar,” dengan istilah sederhana

AI generatif menjadi “skala besar” ketika harus beroperasi seperti pencarian: jutaan pengguna, latensi rendah, biaya dapat diprediksi, dan kualitas konsisten. Itu berarti lebih dari sekadar demo model yang canggih. Ini mencakup:

pelatihan pada dataset besar dengan kendala komputasi serius
menyajikan jawaban dengan cepat di bawah lalu lintas tinggi
membumikan keluaran pada sumber yang dapat dipercaya ketika kebenaran penting
menambahkan kontrol keselamatan dan kebijakan tanpa merusak kegunaan

Apa yang akan Anda dapatkan

Di akhir, Anda seharusnya bisa menghubungkan era pencarian ke produk bergaya chat saat ini, memahami mengapa retrieval dan generation mulai menyatu, dan meminjam prinsip praktis untuk tim produk—pengukuran, relevansi, desain sistem, dan penerapan yang bertanggung jawab—yang berlaku di kedua dunia.

Akar Awal: Pembelajaran, Riset, dan Masalah Pencarian

Jalan Sergey Brin ke pencarian dimulai di dunia akademis, di mana pertanyaan inti bukan tentang “membangun situs web,” melainkan mengelola kelebihan informasi. Sebelum Google menjadi perusahaan, Brin tenggelam dalam riset ilmu komputer yang melintasi sistem basis data, data mining, dan penemuan informasi—disiplin yang menanyakan bagaimana menyimpan jumlah data masif dan mengembalikan jawaban berguna dengan cepat.

Akar akademis dan pertanyaan informasi

Brin mempelajari matematika dan ilmu komputer sebagai sarjana dan kemudian melanjutkan studi pascasarjana di Stanford, sebuah pusat riset tentang skala web yang sedang muncul. Para peneliti sudah bergelut dengan masalah yang terdengar familier hari ini: data berantakan, kualitas yang tidak pasti, dan jurang antara apa yang diketik orang dan apa yang sebenarnya mereka maksud.

Apa arti “pencarian” pada akhir 1990-an

Pencarian pada akhir 1990-an sebagian besar digerakkan oleh pencocokan kata kunci dan sinyal peringkat dasar. Itu bekerja ketika web lebih kecil, tetapi menurun seiring bertambahnya halaman—dan ketika pembuat konten belajar cara mengeksploitasi sistem. Tantangan umum termasuk:

Relevansi: halaman yang tepat tidak selalu mengandung kata kunci yang “benar.”
Kualitas: tidak semua halaman sama dapat dipercaya atau berguna.
Spam: taktik seperti keyword stuffing mendorong halaman bernilai rendah ke atas.
Skala: merayapi, mengindeks, dan menyajikan hasil harus mengejar pertumbuhan eksplosif.

Motivasi awal: relevansi, kepercayaan, dan organisasi

Gagasan motivasinya sederhana: jika web adalah perpustakaan raksasa, Anda butuh lebih dari pencocokan teks untuk memberi peringkat hasil—Anda butuh sinyal yang mencerminkan kredibilitas dan kepentingan. Mengorganisir informasi web memerlukan metode yang dapat menyimpulkan kegunaan dari struktur web itu sendiri, bukan hanya dari kata-kata di halaman.

Prioritas riset awal—mengukur kualitas, menahan manipulasi, dan beroperasi pada skala ekstrem—menetapkan fondasi untuk pergeseran selanjutnya dalam pencarian dan AI, termasuk perankingan berbasis machine learning dan, akhirnya, pendekatan generatif.

Dari Tautan ke Relevansi: Apa yang Diubah PageRank

Pencarian punya tujuan sederhana: ketika Anda mengetik pertanyaan, halaman yang paling berguna harus muncul di puncak. Pada akhir 1990-an, itu lebih sulit daripada kelihatannya. Web sedang meledak, dan banyak mesin pencari awal sangat bergantung pada apa yang dikatakan halaman tentang dirinya sendiri—teksnya, kata kunci, dan meta tag. Itu membuat hasil mudah dimanipulasi dan sering mengecewakan.

Ide PageRank dengan istilah sederhana

Wawasan kunci Sergey Brin dan Larry Page adalah memperlakukan struktur tautan web sebagai sinyal. Jika satu halaman menautkan ke halaman lain, itu seperti memberikan “suara.” Tidak semua suara sama: tautan dari halaman yang dipandang baik harus lebih berarti daripada tautan dari halaman yang tidak dikenal.

Secara konseptual, PageRank mengukur kepentingan dengan menanyakan: halaman mana yang direferensikan oleh halaman lain yang penting? Pertanyaan melingkar ini berubah menjadi perankingan matematis yang dihitung pada skala web. Hasilnya bukanlah “jawaban” terhadap relevansi—tetapi itu menjadi bahan baru yang kuat.

Lebih dari satu sinyal—dan pertarungan yang konstan

Mudah untuk memberi kredit berlebih pada PageRank sebagai rahasia sukses awal Google. Dalam praktiknya, perankingan adalah resep: algoritma menggabungkan banyak sinyal (pencocokan teks, kebaruan, lokasi, kecepatan, dan lainnya) untuk memprediksi apa yang sebenarnya diinginkan pengguna.

Dan insentifnya rumit. Begitu peringkat menjadi penting, spam mengikuti—kebun tautan, keyword stuffing, dan trik lainnya yang dirancang terlihat relevan tanpa benar-benar berguna. Algoritma pencarian menjadi permainan advesarial berkelanjutan: tingkatkan relevansi, deteksi manipulasi, dan sesuaikan sistem.

Mengapa perankingan tak pernah “terpecahkan”

Web berubah, bahasa berubah, dan ekspektasi pengguna berubah. Setiap perbaikan menciptakan kasus tepi baru. PageRank tidak menyelesaikan pencarian—itu menggeser bidang dari pencocokan kata kunci sederhana ke penemuan informasi modern, di mana relevansi terus diukur, diuji, dan disempurnakan.

Membangun Pencarian pada Skala Internet: Tantangan Sistem

Ide perankingan yang cerdas tidak cukup ketika “basis data” Anda adalah seluruh web. Yang membuat pengalaman awal Google terasa berbeda bukan hanya relevansi—tetapi kemampuan untuk menyampaikan relevansi itu dengan cepat dan konsisten untuk jutaan orang sekaligus.

Bagaimana skala mengubah segalanya

Pencarian pada skala internet dimulai dengan crawling: menemukan halaman, mengunjunginya kembali, dan menangani web yang tak pernah berhenti berubah. Lalu datang pengindeksan: mengubah konten yang berantakan dan beragam menjadi struktur yang dapat di-query dalam milidetik.

Pada skala kecil, Anda bisa memperlakukan penyimpanan dan komputasi seperti masalah mesin tunggal. Pada skala besar, setiap pilihan menjadi tradeoff sistem:

Penyimpanan: menyimpan beberapa salinan, mengompresi, dan mendistribusikan data ke banyak mesin.
Latensi: mengembalikan hasil cukup cepat sehingga pengalaman terasa instan.
Kebaruan: memperbarui indeks dengan cepat sehingga halaman baru (atau perubahan) muncul tanpa penundaan lama.

Keandalan dan kecepatan adalah bagian dari “kualitas”

Pengguna tidak mengalami kualitas pencarian sebagai skor peringkat—mereka mengalaminya sebagai halaman hasil yang dimuat sekarang, setiap kali. Jika sistem sering gagal, hasil time out, atau kebaruan tertinggal, model relevansi yang hebat pun terlihat buruk dalam praktik.

Itulah mengapa rekayasa untuk waktu aktif, degradasi anggun, dan kinerja konsisten tak terpisahkan dari perankingan. Hasil yang sedikit kurang "sempurna" namun disajikan andal dalam 200ms dapat mengalahkan yang lebih baik tetapi terlambat atau tidak konsisten.

Pipeline data dan perubahan yang aman

Pada skala besar, Anda tidak dapat "sekadar mengirim" pembaruan. Pencarian bergantung pada pipeline yang mengumpulkan sinyal (klik, tautan, pola bahasa), menjalankan evaluasi, dan meluncurkan perubahan secara bertahap. Tujuannya adalah mendeteksi regresi lebih awal—sebelum memengaruhi semua orang.

Analogi sederhana: katalog vs. web yang hidup

Katalog perpustakaan mengasumsikan buku stabil, dikurasi, dan lambat berubah. Web adalah perpustakaan di mana buku menulis ulang diri mereka, rak bergeser, dan ruang baru terus muncul. Pencarian skala internet adalah mesin yang menjaga katalog yang bisa digunakan untuk target yang bergerak itu—cepat, andal, dan terus diperbarui.

Dari Aturan ke Machine Learning: Titik Balik yang Tenang

Peringkat pencarian awal sangat bergantung pada aturan: jika halaman memiliki kata yang tepat di judul, jika sering ditautkan, jika dimuat cepat, dan sebagainya. Sinyal-sinyal itu penting—tetapi memutuskan seberapa banyak masing-masing harus dihitung sering kali adalah keterampilan manual. Insinyur bisa menyetel bobot, menjalankan eksperimen, dan iterasi. Itu bekerja, tapi juga mencapai batas saat web (dan ekspektasi pengguna) meledak.

Apa arti “learning to rank” (tanpa matematika)

"Learning to rank" adalah membiarkan sistem belajar apa yang terlihat seperti hasil bagus dengan mempelajari banyak contoh.

Alih-alih menulis ceklis panjang aturan peringkat, Anda memberi model banyak pencarian masa lalu dan hasilnya—misalnya hasil yang sering dipilih pengguna, yang cepat mereka tinggalkan, dan halaman yang dinilai membantu oleh penilai manusia. Seiring waktu, model menjadi lebih baik dalam memprediksi hasil mana yang harus muncul lebih tinggi.

Analogi sederhana: daripada guru menulis rencana tempat duduk rinci untuk setiap kelas, guru mengamati susunan tempat duduk mana yang mendorong diskusi lebih baik dan menyesuaikan secara otomatis.

Dari kenop yang disetel tangan ke model terlatih data

Peralihan ini tidak menghapus sinyal klasik seperti tautan atau kualitas halaman—itu mengubah cara mereka digabungkan. Bagian yang "tenang" adalah bahwa, dari sudut pandang pengguna, kotak pencarian tampak sama. Di internal, pusat gravitasi bergerak dari rumus perhitungan yang dibuat tangan ke model yang dilatih dari data.

Evaluasi menjadi kemudi

Saat model belajar dari data, pengukuran menjadi panduan.

Tim mengandalkan metrik relevansi (apakah hasil memenuhi kueri?), uji A/B online (apakah perubahan meningkatkan perilaku pengguna nyata?), dan umpan balik manusia (apakah hasil akurat, aman, dan berguna?). Kuncinya adalah memperlakukan evaluasi sebagai proses berkelanjutan—karena apa yang orang cari, dan apa yang dianggap “baik”, terus berubah.

Catatan: desain model spesifik dan sinyal internal bervariasi dari waktu ke waktu dan tidak dipublikasikan; intinya adalah perubahan pola pikir menuju sistem pembelajar yang didukung pengujian ketat.

Deep Learning Masuk Gambar: Pemahaman Bahasa yang Lebih Baik

Rancang sebelum menulis kode

Petakan alur, data, dan prompt terlebih dahulu, lalu hasilkan aplikasi dari rencana Anda.

Gunakan Perencanaan

Deep learning adalah keluarga metode machine learning yang dibangun dari jaringan saraf berlapis-lapis. Alih-alih menulis aturan secara eksplisit ("jika kueri berisi X, tingkatkan Y"), model-model ini belajar pola langsung dari jumlah data besar. Pergeseran itu penting untuk pencarian karena bahasa itu berantakan: orang salah eja, menyiratkan konteks, dan menggunakan kata yang sama untuk arti berbeda.

Mengapa itu meningkatkan pemahaman bahasa (dan persepsi)

Sinyal peranking tradisional—tautan, anchor, kebaruan—itu kuat, tetapi mereka tidak memahami apa yang coba dicapai oleh kueri. Model deep learning pandai membuat representasi: mengubah kata, kalimat, dan bahkan gambar menjadi vektor padat yang menangkap makna dan kemiripan.

Dalam praktiknya, itu memungkinkan:

Interpretasi kueri yang lebih baik ketika kata-kata literal tidak cukup ("tempat makan terbaik dekat saya" bergantung pada lokasi dan intent).
Penanganan sinonim dan parafrase yang lebih baik ("penerbangan murah" vs. "tiket hemat").
Pencocokan kueri ke halaman yang menjawab kebutuhan, bukan sekadar mengulang kata kunci.

Trade-off: biaya, data, dan keterjelasan

Deep learning tidak gratis. Melatih dan menyajikan model neural bisa mahal, memerlukan perangkat keras khusus dan rekayasa hati-hati. Mereka juga butuh data—label bersih, sinyal klik, dan set evaluasi—agar tidak belajar jalan pintas yang salah.

Interpretabilitas jadi tantangan. Ketika model mengubah peringkat, lebih sulit menjelaskan dengan satu kalimat sederhana mengapa ia memilih hasil A daripada B, yang mempersulit debugging dan membangun kepercayaan.

Dari “riset bagus” ke kualitas produk inti

Perubahan terbesar adalah organisasi, bukan hanya teknis: model neural berhenti menjadi eksperimen sampingan dan menjadi bagian dari apa yang pengguna alami sebagai "kualitas pencarian." Relevansi semakin tergantung pada model yang dipelajari—diukur, diiterasi, dan dikirim—daripada sekadar penyetelan manual sinyal.

AI Generatif: Apa yang Baru Dibanding AI Pencarian Klasik

AI pencarian klasik sebagian besar tentang perankingan dan prediksi. Diberi kueri dan set halaman, sistem memprediksi hasil mana yang paling relevan. Bahkan ketika machine learning menggantikan aturan manual, tujuannya tetap serupa: memberi skor seperti "cocok bagus," "spam," atau "berkualitas tinggi," lalu menyortir.

AI generatif mengubah keluarannya. Alih-alih memilih dari dokumen yang ada, model dapat menghasilkan teks, kode, ringkasan, dan bahkan gambar. Itu berarti produk bisa menjawab dalam satu respons, menyusun email, atau menulis potongan kode—berguna, tetapi berbeda secara fundamental dari mengembalikan tautan.

Mengapa transformer dan model besar terasa lompatan

Transformer membuat pelatihan model yang memperhatikan hubungan di seluruh kalimat dan dokumen menjadi praktis, bukan hanya kata-kata terdekat. Dengan cukup data pelatihan, model-model ini mempelajari pola luas bahasa dan perilaku mirip-penalaran: parafrase, terjemahan, mengikuti instruksi, dan menggabungkan ide di berbagai topik.

Mengapa “skala” penting—dan kapan berhenti membantu

Untuk model besar, lebih banyak data dan komputasi seringkali meningkatkan performa: lebih sedikit kesalahan jelas, tulisan lebih kuat, dan kemampuan mengikuti instruksi meningkat. Tetapi imbal hasil tidak tak berujung. Biaya naik cepat, kualitas data pelatihan menjadi hambatan, dan beberapa kegagalan tidak hilang hanya karena model dibuat lebih besar.

Risiko baru: kesalahan yang terdengar yakin dan celah keandalan

Sistem generatif bisa “menghallusinasi” fakta, mencerminkan bias dalam data latih, atau diarahkan menghasilkan konten berbahaya. Mereka juga kesulitan konsistensi: dua prompt serupa bisa memberi jawaban berbeda. Dibandingkan pencarian klasik, tantangan bergeser dari "Apakah kita memberi peringkat sumber terbaik?" menjadi "Bisakah kita memastikan respons yang dihasilkan akurat, berlandaskan, dan aman?"

Menskalakan AI Generatif: Pelatihan, Penyajian, dan Realitas Biaya

Turunkan biaya pembangunan

Dapatkan kredit dengan membagikan apa yang Anda bangun, atau mengundang orang lain untuk mencoba Koder.ai.

Dapatkan Kredit

AI generatif terasa ajaib dalam demo, tetapi menjalankannya untuk jutaan (atau miliaran) permintaan adalah masalah matematika dan operasi sebanyak masalah riset. Di sinilah pelajaran dari era pencarian—efisiensi, keandalan, dan pengukuran tanpa ampun—masih berlaku.

Apa arti “skala” dalam pelatihan

Melatih model besar pada dasarnya adalah jalur fabrikasi untuk perkalian matriks. "Skala" biasanya berarti rombongan GPU atau TPU, dikaitkan dalam pelatihan terdistribusi sehingga ribuan chip bertindak seperti satu sistem.

Itu memperkenalkan kendala praktis:

Paralelisme dan jaringan: jika chip tidak dapat berbagi pembaruan cukup cepat, Anda membayar perangkat keras yang menganggur.
Kegagalan adalah normal: jalur pelatihan panjang harus menangani mesin yang jatuh tanpa memulai ulang semuanya.
Biaya bersifat kontinu: pelatihan bukan tagihan sekali; iterasi pada data, arsitektur, dan keselamatan sering berarti beberapa kali pelatihan mahal.

Penyajian: latensi, throughput, dan keselamatan

Penyajian berbeda dari pelatihan: pengguna peduli pada waktu respons dan konsistensi, bukan akurasi puncak pada tolok ukur. Tim menyeimbangkan:

Latensi vs. kualitas: generasi lebih panjang dapat meningkatkan jawaban tetapi merusak pengalaman pengguna.
Throughput: model yang sama harus menangani lonjakan tanpa runtuh.
Caching: prompt yang sering diulang (atau snippet yang sering diambil) dapat di-cache untuk mengurangi biaya.
Filter keselamatan prompt: input dan output disaring untuk mengurangi konten berbahaya atau melanggar kebijakan, yang menambah langkah dan kompleksitas.

Observabilitas: menangkap regresi lebih awal

Karena perilaku model bersifat probabilistik, pemantauan bukan sekadar "apakah server hidup?" Ini melacak penurunan kualitas, mode kegagalan baru, dan regresi halus setelah pembaruan model atau prompt. Ini sering melibatkan loop peninjauan manusia ditambah pengujian otomatis.

Teknik efisiensi yang benar-benar penting

Agar biaya tetap masuk akal, tim mengandalkan kompresi, distilasi (mengajari model kecil meniru model besar), dan routing (mengirim kueri mudah ke model murah dan mengeskalasi hanya bila perlu). Ini adalah alat tidak glamor yang membuat AI generatif layak dalam produk nyata.

Pencarian vs. Chat: Bagaimana Produk Menggabungkan Retrieval dan Generation

Pencarian dan chat sering terlihat seperti pesaing, tetapi lebih baik dipahami sebagai antarmuka berbeda yang dioptimalkan untuk tujuan pengguna berbeda.

Dua tujuan, dua mode

Pencarian klasik dioptimalkan untuk navigasi cepat dan dapat diverifikasi: "Temukan sumber terbaik untuk X" atau "Bawa saya ke halaman yang tepat." Pengguna mengharapkan beberapa opsi, dapat memindai judul dengan cepat, dan menilai kredibilitas menggunakan petunjuk yang dikenal (penerbit, tanggal, cuplikan).

Chat dioptimalkan untuk sintesis dan eksplorasi: "Bantu saya memahami," "Bandingkan," "Susun draf," atau "Apa yang harus saya lakukan selanjutnya?" Nilai bukan hanya menemukan halaman—melainkan mengubah informasi tersebar menjadi jawaban yang koheren, mengajukan pertanyaan klarifikasi, dan mempertahankan konteks antar giliran.

Pola hibrida: retrieval + generation (RAG)

Sebagian besar produk praktis sekarang menggabungkan keduanya. Pendekatan umum adalah retrieval-augmented generation (RAG): sistem pertama mencari indeks yang dapat dipercaya (halaman web, dokumen, basis pengetahuan), lalu menghasilkan jawaban yang berlandaskan apa yang ditemukan.

Grounding itu penting karena menjembatani kekuatan pencarian (kebaruan, cakupan, keterlacakan) dan kekuatan chat (ringkasan, penalaran, alur percakapan).

Apa yang dibutuhkan desain produk yang baik

Ketika generation terlibat, UI tidak bisa berhenti pada "ini jawabannya." Desain yang kuat menambahkan:

Sitasi dan kutipan sehingga pengguna dapat memverifikasi klaim dan melompat ke sumber.
Sinyal ketidakpastian ("Saya tidak yakin," rentang kepercayaan, atau "Saya tidak menemukan sumber untuk ini") alih-alih tebakan yang terdengar yakin.
Kontrol pengeditan untuk menyempurnakan nada, ruang lingkup, dan asumsi ("lebih singkat," "gunakan hanya sumber yang disediakan," "fokus pada 2024–2025").

Kepercayaan dibangun lewat konsistensi dan transparansi

Pengguna cepat menyadari ketika asisten bertentangan dengan dirinya sendiri, mengubah aturan di tengah percakapan, atau tidak bisa menjelaskan dari mana informasi berasal. Perilaku yang konsisten, sumber yang jelas, dan kontrol yang dapat diprediksi membuat pengalaman gabungan pencarian+chat terasa dapat diandalkan—terutama ketika jawaban memengaruhi keputusan nyata.

AI yang Bertanggung Jawab dan Keselamatan: Bagian Sulit dari Menghasilkan Konten

AI yang bertanggung jawab paling mudah dipahami saat dibingkai sebagai tujuan operasional, bukan slogan. Untuk sistem generatif, itu biasanya berarti: keselamatan (jangan menghasilkan instruksi berbahaya atau pelecehan), privasi (jangan mengungkap data sensitif atau menghafal informasi pribadi), dan keadilan (jangan memperlakukan kelompok secara sistematis berbeda dengan cara yang merugikan).

Mengapa evaluasi generatif lebih sulit daripada perankingan

Pencarian klasik punya bentuk evaluasi yang relatif bersih: diberi kueri, beri peringkat dokumen, lalu ukur seberapa sering pengguna menemukan yang mereka butuhkan. Walau relevansi subjektif, keluarannya dibatasi—tautan ke sumber yang ada.

AI generatif dapat menghasilkan jumlah jawaban yang tak terbatas, dengan mode kegagalan yang halus:\n\n- Jawaban bisa terdengar yakin namun tetap salah.\n- Dua jawaban bisa sama-sama “masuk akal,” tetapi satu mungkin mengabaikan caveat penting.\n- Bahaya bukan hanya soal akurasi: nada, bias, dan saran yang tidak aman juga penting.

Itu membuat evaluasi lebih dari sekadar skor tunggal dan lebih ke soal suite uji: cek faktualitas, probe toksisitas dan bias, perilaku penolakan, dan ekspektasi domain-spesifik (kesehatan, keuangan, hukum).

Human-in-the-loop: di mana manusia masih penting

Karena kasus tepi tak ada habisnya, tim sering menggunakan masukan manusia dalam beberapa tahap:\n\n- Penilai untuk memberi label contoh (berguna vs. berbahaya, aman vs. tidak aman) dan menilai kualitas yang bernuansa.\n- Desain kebijakan untuk menentukan apa yang harus ditolak sistem, bagaimana menyatakan ketidakpastian, dan sumber apa yang harus dikutip bila memungkinkan.\n- Red-teaming untuk sengaja mencoba merusak model—menguji jailbreak, prompt injection, dan taktik manipulasi—supaya kelemahan muncul sebelum pengguna nyata menemukannya.

Perubahan kunci dari pencarian klasik adalah bahwa keselamatan bukan hanya "menyaring halaman buruk." Ini adalah merancang perilaku model saat diminta mengarang, meringkas, atau memberi saran—dan membuktikan, dengan bukti, bahwa perilaku itu tahan pada skala.

Pelajaran untuk Pembuat: Prinsip yang Dapat Dialihkan dari Pencarian

Uji pengambilan dan generasi

Buat prototipe pengalaman pencarian + chat dan iterasi secara real-time dengan Koder.ai.

Mulai Membangun

Kisah awal Sergey Brin di Google mengingatkan bahwa produk AI terobosan jarang dimulai dari demo mencolok—mereka mulai dari pekerjaan yang jelas harus diselesaikan dan kebiasaan mengukur realitas. Banyak kebiasaan itu masih berlaku ketika Anda membangun dengan AI generatif.

Pelajaran dari pencarian: pengukuran, iterasi, fokus pengguna

Pencarian berhasil karena tim memperlakukan kualitas sebagai sesuatu yang bisa diamati, bukan hanya diperdebatkan. Mereka menjalankan eksperimen tanpa henti, menerima bahwa perbaikan kecil saling bertumpuk, dan menempatkan intent pengguna di pusat.

Model mental yang berguna: jika Anda tidak bisa menjelaskan apa arti “lebih baik” bagi pengguna, Anda tidak bisa meningkatkannya secara andal. Itu sama benar untuk meranking halaman web maupun meranking kandidat respons dari model.

Apa yang berubah dengan AI generatif: kualitas multi-dimensi

Kualitas pencarian klasik seringkali direduksi menjadi relevansi dan kebaruan. AI generatif menambahkan sumbu baru: faktualitas, nada, kelengkapan, keselamatan, perilaku sitasi, dan bahkan "kegunaan" untuk konteks spesifik. Dua jawaban mungkin sama relevan namun berbeda jauh dalam hal dapat dipercaya.

Itu berarti Anda butuh banyak evaluasi—cek otomatis, tinjauan manusia, dan umpan balik dunia nyata—karena tidak ada skor tunggal yang menangkap keseluruhan pengalaman pengguna.

Daftar periksa praktis: kirim seperti tim pencarian

Definisikan tugas: Masalah pengguna apa yang Anda selesaikan—meringkas, menyusun draf, menjelaskan, memutuskan, atau mengambil kembali?\n- Tetapkan metrik: Pilih indikator awal (keberhasilan tugas, waktu yang dihemat) dan pembatas (tingkat halusinasi, pelanggaran kebijakan, latensi, biaya).\n- Buat set uji: Sertakan kasus tepi, prompt adversarial, dan kueri sehari-hari yang "membosankan."\n- Jalankan peluncuran terkontrol: Uji A/B, tingkatkan secara bertahap, dan catat konteks yang cukup untuk men-debug kegagalan.\n- Tutup loop: Gunakan analisis kesalahan untuk mendorong perubahan prompt, retrieval, model, dan UX.

Keahlian tim: bukan hanya ML

Pelajaran yang paling dapat dialihkan dari pencarian adalah organisasi: kualitas pada skala butuh kolaborasi ketat. Produk mendefinisikan apa arti "baik", ML memperbaiki model, infrastruktur menjaga biaya dan latensi tetap wajar, legal dan kebijakan menetapkan batas, dan dukungan mengungkapkan rasa sakit pengguna nyata.

Jika Anda ingin mengubah prinsip ini menjadi produk nyata, satu pendekatan praktis adalah membuat prototipe loop penuh—UI, retrieval, generation, hook evaluasi, dan deployment—lebih awal. Platform seperti Koder.ai dirancang untuk alur kerja “build fast, measure fast”: Anda bisa membuat aplikasi web, backend, atau mobile melalui antarmuka chat, iterasi dalam mode perencanaan, dan menggunakan snapshot/rollback saat eksperimen berantakan—berguna ketika Anda mengirimkan sistem probabilistik yang butuh peluncuran hati-hati.

Melihat Ke Depan: Pertanyaan Terbuka untuk AI pada Skala Besar

Kisah Sergey Brin menelusuri busur yang jelas: mulai dari algoritma elegan (PageRank dan analisis tautan), lalu bergeser ke perankingan yang dipelajari mesin, dan kini ke sistem generatif yang dapat menyusun jawaban alih-alih hanya menunjuk ke sumber. Setiap langkah meningkatkan kapabilitas—dan memperluas permukaan kegagalan.

Keandalan: Apa arti “benar” sekarang?

Pencarian klasik sebagian besar membantu Anda menemukan sumber. AI generatif sering meringkas dan memutuskan apa yang penting, yang menimbulkan pertanyaan lebih sulit: Bagaimana mengukur kebenaran? Bagaimana kita mengutip sumber dengan cara yang membuat pengguna benar-benar mempercayainya? Dan bagaimana menangani ambiguitas—nasihat medis, konteks hukum, atau berita mendesak—tanpa mengubah ketidakpastian menjadi teks yang terdengar yakin?

Kendala komputasi: Siapa yang mampu “state of the art”?

Menskalakan bukan sekadar pameran rekayasa; ini pembatas ekonomi. Pelatihan memerlukan komputasi masif, dan biaya penyajian tumbuh dengan setiap kueri pengguna. Itu menciptakan tekanan untuk mengurangi langkah (konteks lebih pendek, model lebih kecil, pemeriksaan keselamatan lebih sedikit) atau untuk memusatkan kapabilitas pada beberapa perusahaan dengan anggaran terbesar.

Tata kelola dan kompetisi: Siapa yang menetapkan aturan?

Saat sistem menghasilkan konten, tata kelola menjadi lebih dari moderasi konten. Ini mencakup transparansi (data apa yang membentuk model), akuntabilitas (siapa yang bertanggung jawab atas kerugian), dan dinamika kompetitif (model terbuka vs tertutup, penguncian platform, dan regulasi yang tak sengaja menguntungkan pihak yang sudah besar).

Cara berpikir kritis tentang demo AI

Ketika Anda melihat demo memukau, tanyakan: Apa yang terjadi pada kasus tepi yang sulit? Dapatkah ia menunjukkan sumber? Bagaimana perilakunya ketika tidak tahu? Berapa latensi dan biaya pada tingkat trafik nyata—bukan di lab?

Jika Anda ingin lebih mendalami, pertimbangkan topik terkait seperti penskalaan sistem dan keselamatan di /blog.

Pertanyaan umum

Mengapa Sergey Brin “masih penting” saat membahas AI dan pencarian hari ini?

Dia berguna sebagai lensa untuk menghubungkan masalah penemuan informasi klasik (relevansi, ketahanan terhadap spam, skala) dengan masalah AI generatif saat ini (grounding, latensi, keselamatan, biaya). Intinya bukan biografi—melainkan bahwa pencarian dan AI modern berbagi kendala inti yang sama: beroperasi pada skala besar sambil menjaga kepercayaan.

Sebenarnya apa arti “AI generatif skala besar” dalam praktik?

Pencarian disebut “skala besar” ketika harus menangani juta-an kueri dengan latensi rendah, ketersediaan tinggi, dan data yang terus diperbarui.

AI generatif disebut “skala besar” ketika harus melakukan hal yang sama sambil menghasilkan keluaran, yang menambah kendala ekstra terkait:

biaya inferensi yang dapat diprediksi
kualitas jawaban yang konsisten
kontrol grounding dan keselamatan di bawah beban lalu lintas tinggi

Apa yang salah dengan mesin pencari pada akhir 1990-an?

Pencarian akhir 1990-an sangat bergantung pada penyesuaian kata kunci dan sinyal peringkat sederhana, yang runtuh saat web berkembang pesat.

Mode kegagalan umum meliputi:

hasil yang tidak relevan meski kata-kata “cocok”
halaman berkualitas rendah mengalahkan sumber yang lebih baik
taktik spam seperti keyword stuffing
ketidakmampuan mengikuti kebutuhan perayapan dan pengindeksan

Apa yang diubah PageRank dibandingkan perankingan berbasis kata kunci?

PageRank memperlakukan tautan sebagai semacam suara kepercayaan, dengan bobot ditentukan oleh pentingnya halaman yang memberi tautan.

Secara praktis, hal itu:

meningkatkan relevansi dengan memanfaatkan struktur web, bukan hanya teks di halaman
membuat peringkat lebih sulit (meski bukan tidak mungkin) untuk dimanipulasi dibandingkan metode berbasis kata kunci murni
mendorong pencarian menuju perankingan multi-sinyal daripada pencocokan faktor tunggal

Mengapa perankingan tidak pernah “selesai” dalam pencarian?

Karena perankingan memengaruhi uang dan perhatian, sistem menjadi adversarial. Begitu sinyal peringkat berhasil, orang mencoba mengeksploitasinya.

Itu memaksa iterasi berkelanjutan:

mendeteksi manipulasi (tautan spam, cloaking, halaman berisikan kata kunci berlebih)
menyesuaikan sinyal dan model
mengevaluasi ulang dengan set uji baru dan eksperimen online

Bagaimana infrastruktur dan latensi memengaruhi kualitas pencarian?

Pada skala web, “kualitas” mencakup kinerja sistem. Pengguna mengalami kualitas sebagai:

hasil yang dimuat cepat (latensi)
hasil yang tersedia sepanjang waktu (keandalan)
hasil yang mencerminkan perubahan terbaru (kebaruan)

Hasil yang sedikit kurang “sempurna” tapi dikirim konsisten dalam 200ms bisa mengungguli hasil lebih baik yang sering time out atau datang terlambat.

Apa arti “learning to rank” tanpa matematika?

Learning to rank menggantikan aturan yang disetel manual dengan model yang dilatih dari data (perilaku klik, penilaian manusia, dan sinyal lain).

Alih-alih menentukan secara manual seberapa besar bobot tiap sinyal, model belajar kombinasi yang lebih baik untuk memprediksi “hasil yang membantu”. Tampilan UI mungkin tidak berubah, tetapi internalnya menjadi:

lebih berbasis data
lebih bergantung pada evaluasi
lebih mudah diperbaiki lewat pelatihan dan pengujian iteratif

Mengapa deep learning meningkatkan pemahaman bahasa dalam pencarian?

Deep learning memperbaiki bagaimana sistem merepresentasikan makna, membantu dalam:

pemahaman intent di luar kata-kata literal
sinonim dan parafrase
kueri sensitif konteks (mis. “dekat saya”)

Tukarannya nyata: biaya komputasi lebih tinggi, kebutuhan data lebih besar, dan debugging/penjelasan saat peringkat berubah menjadi lebih sulit.

Apa yang secara fundamental berbeda antara AI generatif dan AI pencarian klasik?

Pencarian klasik sebagian besar memilih dan memberi peringkat dokumen yang ada. AI generatif menghasilkan teks, yang mengubah mode kegagalan.

Risiko baru meliputi:

kesalahan faktual yang terdengar percaya diri (hallucination)
inkonsistensi antar prompt serupa
masalah keselamatan (konten berbahaya, bias)

Ini menggeser pertanyaan pusat dari “Apakah kita memberi peringkat sumber terbaik?” menjadi “Apakah respons yang dihasilkan akurat, berlandaskan sumber, dan aman?”

Bagaimana pencarian dan chat menyatu dengan retrieval-augmented generation (RAG)?

Retrieval-augmented generation (RAG) pertama mengambil sumber relevan, kemudian menghasilkan jawaban yang berlandaskan sumber tersebut.

Agar bekerja baik dalam produk, tim biasanya menambahkan:

sitasi/kutipan agar pengguna bisa memverifikasi
guardrail terhadap prompt injection dan permintaan tidak aman
pemantauan terhadap penurunan kualitas dan regresi
kontrol biaya (caching, routing ke model lebih kecil bila memungkinkan)