Arief Prihantoro

Debat Semantik di Jantung Kognisi Digital
Kehadiran Model Bahasa Besar (LLM) seperti GPT atau Gemini telah mengubah lanskap teknologi dan komunikasi secara fundamental. Model-model ini menunjukkan kemampuan luar biasa untuk menghasilkan teks yang koheren, menyusun kode pemrograman, dan bahkan menulis puisi atau esai filosofis yang meyakinkan, sering kali menciptakan kesan bahwa mereka telah mencapai tingkat “pemahaman” bahasa yang mendalam. Kecepatan dan kualitas output mereka seolah-olah merupakan sihir digital yang telah memecahkan misteri bahasa manusia secara sibernetik.
Namun, di balik keajaiban ini, muncul sebuah perdebatan filosofis dan teknis yang krusial di kalangan para ahli: Apakah kecanggihan ini murni produk dari kalkulasi statistik belaka?
Perdebatan ini mencuat ketika beberapa pihak berpendapat bahwa arsitektur fundamental di balik LLM, yaitu Transformer, “sama sekali tidak menggunakan teori semiotika, pure statistik”.
Seorang rekan menegaskan: “Transformer murni statistik; tidak ada if then, tidak ada klasifikasi signifier atau index; semiotika tidak relevan.” Rekan kritikus ini dengan tepat menunjukkan bahwa arsitektur Transformer tidak memiliki logika simbolik eksplisit seperti aturan ‘if-then’, juga tidak memiliki klasifikasi tanda formal seperti signifier atau index yang diajarkan oleh Ferdinand de Saussure atau Charles Sanders Peirce.
Klaim itu benar jika kita berbicara tentang implementasi teknis: arsitektur Transformer tidak menyertakan modul yang secara eksplisit memetakan signifier ke signified menurut Saussure, Triadik Peirce, atau skema denotasi/konotasi Barthes. Namun klaim itu saja tidak menjawab pertanyaan lain: mengapa peneliti humaniora dan ilmu sosial terus memakai semiotika untuk membaca keluaran model? Mengapa keluaran model memunculkan perdebatan budaya, politik, dan etis? Perbedaan ini mengharuskan kita membedakan dua tingkat analisis: mekanika internal dan fenomena makna pada permukaan teks.
Transformer memang tidak menaruh teori semiotika dalam baris kodenya, tetapi teks yang dihasilkannya menampilkan efek efek tanda yang jelas: ambiguitas, konotasi, dan bias budaya. Menafsirkan efek efek itu membutuhkan perpaduan antara pengetahuan teknis dan lensa humaniora. Artikel ini menjelaskan bagaimana Transformer bekerja, memisahkan deterministik dari probabilistik, dan menunjukkan mengapa tradisi semiotik tetap relevan sebagai alat analitis — bukan sebagai peta literal struktur internal model.
Pada tingkat permukaan, klaim ini sepenuhnya valid. Tidak ada baris kode dalam algoritma Transformer yang secara langsung mengimplementasikan teori semiotika klasik. Namun, menyimpulkan bahwa proses ini murni statistik adalah sebuah penyederhanaan yang berlebihan.
Analisis yang lebih mendalam menunjukkan bahwa realitasnya jauh lebih bernuansa semiosis. Arsitektur modern ini beroperasi berdasarkan mekanisme yang merupakan perpaduan kompleks antara komputasi deterministik dan pembelajaran statistik yang, pada skala masif, secara implisit memanifestasikan proses penciptaan makna (semiosis). Fenomena inilah yang akan diuraikan dalam tulisan ini sebagai Semiosis Emergen: kemunculan proses pemaknaan sebagai properti dari sistem komputasi skala besar, bukan sebagai fitur yang diprogram secara eksplisit.
Konflik antara pandangan “statistik murni” dan “analisis semiotik” pada dasarnya berasal dari kesalahan kategori dalam level analisis. Argumen “statistik” mendeskripsikan mekanisme—bagaimana model melakukan komputasi pada level terendah. Di sisi lain, argumen “semiotika” mendeskripsikan fenomena—efek pemaknaan yang dapat diamati dari hasil komputasi tersebut. Tulisan ini tidak bertujuan untuk membuktikan salah satu pandangan salah, melainkan untuk menunjukkan hubungan kausal di antara keduanya: bagaimana mekanisme komputasi yang deterministik dan statistik pada akhirnya menghasilkan fenomena semiotik yang kompleks.
Untuk menjembatani kesenjangan penjelasan ini, tulisan ini akan memulai perjalanan dari akar historis perdebatan paradigma dalam AI, dilanjutkan dengan dekonstruksi teknis yang mendalam terhadap arsitektur Transformer. Selanjutnya, tulisan ini akan menerapkan lensa analisis semiotika berlapis—dari Saussure, Peirce, dan Barthes—untuk membedah bagaimana makna muncul dari dalam mesin. Pada akhirnya tulisan ini akan mengeksplorasi implikasi etis dan sosial yang krusial dari bentuk baru pemaknaan yang dimediasi oleh mesin ini.
Kisah Dua Kecerdasan: Skisma Historis Paradigma AI
Sejarah Kecerdasan Buatan (AI) dapat dipetakan melalui perpecahan fundamental antara dua paradigma utama: komputasi simbolik dan komputasi statistik. Memahami perbedaan ini sangat penting untuk mengontekstualisasikan bagaimana AI modern menafsirkan dan mengolah tanda-tanda linguistik.
AI Simbolik (Era Aturan)
Paradigma ini, yang mendominasi era awal AI melalui sistem pakar, didasarkan pada representasi pengetahuan yang eksplisit. Pengetahuan dimodelkan melalui aturan formal, ontologi, dan relasi semantik yang didefinisikan secara manual oleh manusia. Dalam kerangka semiotika, AI simbolik secara sengaja memisahkan signifier (penanda) dan signified (petanda) melalui basis data dan mesin logika. Contoh klasiknya adalah sistem pakar medis yang menggunakan aturan deduktif, seperti “Jika gejala X dan Y muncul, maka diagnosisnya adalah Z”. Pendekatan ini sangat “Saussurean” dalam sifatnya, karena hubungan antara tanda dan maknanya bersifat diskret dan ditetapkan secara eksplisit. Keunggulan utama dari AI Simbolik adalah transparansi, kontrol, dan interpretabilitas yang tinggi; proses inferensi (penarikan makna) dapat diaudit langkah demi langkah secara logis. Namun, secara sibernetis kelemahannya sangat signifikan: model ini kaku, tidak fleksibel terhadap ambiguitas, dan rapuh ketika dihadapkan pada konteks dinamis bahasa manusia.
AI Statistik (Hegemoni Data)
Dengan munculnya Machine Learning dan Deep Learning, terjadi pergeseran hegemonik. AI statistik, yang menjadi fondasi bagi LLM modern, tidak lagi mengandalkan aturan eksplisit. Sebaliknya, makna (meaning) tidak didefinisikan, melainkan muncul (emergent) dari pola-pola distribusi statistik yang ditemukan dalam dataset pelatihan yang sangat besar. Arsitektur Transformer, yang diperkenalkan pada tahun 2017, menjadi penanda utama era ini, menawarkan skalabilitas dan kinerja yang belum pernah terjadi sebelumnya. Dalam paradigma ini, inferensi tidak lagi bersifat deduktif berdasarkan logika formal, melainkan probabilistik berdasarkan pola distribusi.
Pergeseran dari AI simbolik ke AI statistik merupakan pertukaran (trade-off) yang fundamental. Transparansi dan auditabilitas dikorbankan demi fleksibilitas dan performa yang luar biasa dalam menangani kompleksitas dunia nyata, sebagaimana prinsip sibernetika, mesin meniru mekanisme kerja biologis yang memiliki kompleksitas tinggi. Namun, pergeseran ini bukan sekadar evolusi teknis; ini adalah sebuah patahan epistemologis. Dengan meninggalkan aturan yang dapat dibaca manusia, para pengembang AI menciptakan sistem yang proses penalarannya buram, yang dikenal sebagai masalah “kotak hitam” (black box). Kehilangan auditabilitas internal ini secara paradoksal menciptakan sebuah “vakum interpretif”. Sistem ini tidak lagi dapat menjelaskan dirinya sendiri dari dalam. Akibatnya, muncul kebutuhan kritis akan perangkat interpretasi eksternal. Semiotika, sebagai ilmu formal tentang tanda dan proses interpretasi, secara unik cocok untuk mengisi kekosongan ini. Semakin tidak dapat diinterpretasikan AI secara internal, maka semakin krusial ilmu-ilmu interpretif eksternal seperti semiotika untuk memahami apa yang sebenarnya telah dipelajari dan bagaimana mesin-mesin statistik ini sampai pada kesimpulannya.
Tabel 1: Analisis Komparatif Paradigma AI: Simbolik vs. Statistik
| Karakteristik | AI Simbolik (Sistem Pakar) | AI Statistik (Transformer/LLM) |
| Basis Pengetahuan | Aturan formal dan logika yang diprogram secara eksplisit | Pola statistik yang dipelajari dari data masif |
| Representasi Makna | Struktur tanda eksplisit (aturan if-then, ontologi) | Pola distribusi vektor (makna emergen dari data) |
| Metode Inferensi | Deduktif, berbasis logika formal | Induktif, berbasis probabilitas distribusi |
| Keunggulan Utama | Transparansi tinggi, dapat diaudit, kontrol penuh | Fleksibilitas tinggi, mampu menangani ambiguitas |
| Kelemahan Utama | Kaku, tidak adaptif terhadap konteks baru | “Kotak hitam”, sulit diaudit secara semantik |
| Analogi Semiotik Primer | Saussurean (pemisahan signifier & signified secara eksplisit) | Peircean/Barthesian (proses inferensi dinamis & makna kultural) |
Inti Transformer: Dekonstruksi Mesin Makna yang Deterministik
Untuk memahami bagaimana semiosis dapat muncul dari statistik, kita harus terlebih dahulu membedah mesin komputasi di jantung LLM modern: arsitektur Transformer. Meskipun outputnya bisa tampak probabilistik, inti mekanismenya adalah serangkaian operasi matematika yang sangat deterministik.
Arsitektur Pemrosesan Paralel
Arsitektur Transformer diperkenalkan dalam makalah seminar tahun 2017 berjudul “Attention Is All You Need”. Inovasi utamanya adalah penghapusan total arsitektur sekuensial seperti Recurrent Neural Networks (RNN) yang memproses data kata per kata. Sebaliknya, Transformer mampu memproses seluruh urutan input (misalnya, seluruh kalimat) secara paralel. Hal ini secara dramatis meningkatkan kecepatan dan efisiensi, serta memungkinkan model untuk menangkap hubungan antara kata-kata yang berjauhan dalam sebuah teks. Karena pemrosesan tidak lagi berurutan, Transformer menggunakan teknik yang disebut Positional Encoding, di mana informasi tentang posisi setiap kata dalam kalimat ditambahkan ke representasi numeriknya, untuk memastikan urutan kata tetap dipertahankan.
Self-Attention: Lokus Komputasional Konteks (Query, Key, Value)
Inti dari Transformer adalah mekanisme Self-Attention. Ini adalah proses komputasional yang memungkinkan setiap kata dalam sebuah kalimat bisa “melihat” dan menimbang pentingnya semua kata lain dalam kalimat yang sama, sehingga menciptakan representasi yang kaya akan konteks. Proses ini bekerja melalui tiga komponen utama: vektor Query (Q), Key (K), dan Value (V).
Untuk setiap kata dalam input, model mempelajari tiga vektor terpisah. Vektor-vektor ini tidak melekat pada kata itu sendiri, melainkan dihasilkan dengan mengalikan embedding (representasi numerik) kata tersebut dengan tiga matriks bobot terpisah (W_q, W_k, W_v) yang dipelajari selama pelatihan machine learning. Peran ketiganya dapat dipahami melalui beberapa analogi intuitif sebagai berikut:
- Query (Q): Merepresentasikan apa yang sedang dicari oleh kata saat ini. Ini adalah “pertanyaan” yang diajukan sebuah kata untuk memahami perannya dalam kalimat. Misalnya, kata kerja “mengajar” mungkin mengajukan query untuk mencari tahu “siapa subjeknya?” dan “apa objeknya?”.
- Key (K): Merepresentasikan “label” atau “penawaran” informasi dari setiap kata dalam kalimat. Ini adalah apa yang ditawarkan oleh sebuah kata sebagai jawaban potensial atas query dari kata lain. Kata “Arief” akan memiliki key yang menandakan “saya adalah subjek potensial”.
- Value (V): Merepresentasikan informasi atau konten aktual yang dibawa oleh sebuah kata. Setelah relevansi ditentukan, vektor value inilah yang akan diteruskan untuk memperkaya representasi kata yang bertanya.
Prosesnya berjalan sebagai berikut: untuk menentukan konteks sebuah kata, query (Q) dari kata tersebut dibandingkan dengan key (K) dari semua kata lain (termasuk dirinya sendiri) dalam kalimat. Perbandingan ini dilakukan melalui operasi matematika dot product, yang menghasilkan skor mentah (logit) yang menunjukkan seberapa relevan setiap kata lain terhadap kata yang sedang diproses.
Dari Logit ke Probabilitas: Peran Fungsi Softmax
Skor relevansi mentah yang dihasilkan dari dot product kemudian dilewatkan melalui fungsi Softmax. Softmax adalah fungsi normalisasi yang mengubah serangkaian angka mentah menjadi distribusi probabilitas—sekelompok nilai positif yang jika dijumlahkan hasilnya adalah 1. Dalam konteks attention, output Softmax ini berfungsi sebagai “bobot perhatian” (attention weights). Bobot ini kemudian digunakan untuk membuat rata-rata tertimbang dari vektor Value (V) semua kata dalam kalimat tersebut. Hasil akhirnya adalah sebuah vektor baru untuk kata tersebut, yang kini telah diperkaya dengan informasi kontekstual dari keseluruhan kalimat.
Penting untuk ditekankan bahwa seluruh rangkaian proses ini—proyeksi Q, K, V dilakukan melalui perkalian matriks, perhitungan skor melalui dot product, dan normalisasi melalui Softmax—adalah serangkaian operasi matematika yang sepenuhnya deterministik, BUKAN statistik. Untuk input dan parameter model yang sama, hasilnya akan selalu identik. Tidak ada elemen acak atau statistik dalam mekanisme inti untuk menghitung relevansi kontekstual. Dengan demikian, Self-Attention dapat dipandang sebagai mesin deterministik yang dirancang untuk satu tujuan, yaitu: menghitung relevansi kontekstual secara sistematis. Ini bukanlah proses statistik dalam artian acak, melainkan sebuah formalisasi komputasional dari tindakan menentukan relevansi, yang lebih dekat dengan proses logis daripada sekadar probabilitas acak.
Paradoks Probabilitas: Komputasi Deterministik Dengan Ekspresi Probabilistik
Setelah menetapkan bahwa inti pemrosesan konteks dalam Transformer bersifat deterministik, muncul sebuah pertanyaan krusial: bagaimana sistem yang deterministik ini dapat menghasilkan output yang bervariasi, kreatif, dan terkadang tidak dapat diprediksi?
Jawabannya terletak pada pemisahan fungsional antara bagaimana model “memahami” konteks dan bagaimana ia “mengekspresikan” dirinya, sebuah dualitas yang dimediasi oleh fungsi Softmax dan dikendalikan oleh parameter seperti Temperature.
Dualitas Fungsi Softmax
Fungsi Softmax memegang peran ganda yang menjadi kunci untuk memahami paradoks ini.
- Secara Komputasi Bersifat Deterministik: Seperti yang telah dibahas, Softmax adalah fungsi matematika yang eksak (pasti). Ia menerima sebuah vektor angka (logit) dan, melalui transformasi eksponensial dan normalisasi, menghasilkan vektor lain yang komponennya berada di antara 0 dan 1 serta berjumlah 1. Untuk input yang sama, outputnya akan selalu sama.
- Secara Interpretasi Bersifat Probabilistik: Meskipun mekanismenya deterministik, output dari Softmax memiliki semua properti dari sebuah distribusi probabilitas. Oleh karena itu, output ini diinterpretasikan sebagai probabilitas—baik oleh peneliti yang menganalisis model maupun oleh komponen lain dalam sistem, seperti fungsi loss cross-entropy selama pelatihan. Interpretasi ini sangat fungsional; ia menjembatani dunia matematika linear yang kaku (yang dapat dioptimalkan melalui gradient descent) dengan kerangka statistik yang diperlukan untuk pengambilan keputusan dalam tugas-tugas seperti prediksi token berikutnya.
Mengendalikan Entropi: Fungsi Temperature sebagai Tombol Kreativitas Digital Mesin Artificial Intelligence
Variabilitas dan “kreativitas” dalam output LLM tidak berasal dari mekanisme inti Self-Attention, melainkan diperkenalkan selama fase generasi teks. Di sinilah parameter seperti Temperature berperan. Temperature adalah variabel yang digunakan untuk memodifikasi distribusi probabilitas yang dihasilkan oleh lapisan Softmax akhir sebelum token berikutnya dipilih.
Terminologi ini diambil dari analogi fisika statistik dan teori informasi. Dalam fisika, suhu mengontrol distribusi energi partikel; suhu tinggi berarti gerakan acak (entropi tinggi), sedangkan suhu rendah berarti keteraturan sistem (entropi rendah). Analogi ini berlaku secara langsung pada LLM:
- Temperature Rendah (T < 1): Ketika Temperature diatur rendah, distribusi probabilitas menjadi lebih “tajam”. Perbedaan antara token yang paling mungkin dan yang kurang mungkin diperbesar. Model menjadi lebih konservatif dan cenderung memilih token dengan probabilitas tertinggi. Hasilnya adalah output yang lebih dapat diprediksi, konsisten, dan faktual. Pada kasus ekstrem T=0, model akan selalu memilih token yang paling mungkin (argmax), membuat outputnya hampir sepenuhnya deterministik.
- Temperature Tinggi (T > 1): Ketika Temperature diatur tinggi, distribusi probabilitas menjadi lebih “datar”. Perbedaan antara token probabilitas tinggi dan rendah berkurang. Ini meningkatkan kemungkinan model memilih kata-kata yang kurang umum atau tidak terduga, menghasilkan output yang lebih beragam, acak, dan “kreatif”. Namun, ini juga meningkatkan risiko output menjadi tidak koheren atau tidak relevan.
Pemisahan ini mengarah pada pemahaman yang lebih dalam: arsitektur LLM secara fungsional memisahkan proses “pemahaman” kontekstual dari proses “ekspresi” linguistik. Tahap pertama, yang melibatkan Self-Attention, adalah proses deterministik di mana model menghitung apa yang paling relevan untuk dikatakan dengan menghasilkan serangkaian skor (logit) untuk kandidat token berikutnya. Tahap kedua adalah proses ekspresi, di mana Temperature dan metode sampling lainnya mengontrol bagaimana cara mengatakannya—apakah dengan cara yang konservatif dan dapat diprediksi, atau dengan cara yang lebih kreatif dan bervariasi. Pemisahan inilah yang memungkinkan satu “pemahaman” internal yang deterministik untuk menghasilkan berbagai ekspresi eksternal, sehingga memecahkan paradoks kreativitas (probabilistik) yang deterministik.
Tabel 2: Dualitas Mekanisme Transformer: Komputasi vs. Interpretasi
| Mekanisme | Sifat Komputasi | Interpretasi Fungsional |
| Self-Attention (QKV) | Deterministik (perkalian matriks, dot product) | Proses inferensi untuk menghitung relevansi kontekstual |
| Fungsi Softmax | Deterministik (transformasi matematis tetap) | Probabilistik (menghasilkan distribusi bobot/keyakinan) |
| Sampling dengan Temperature | Stokastik (variabel kontrol untuk sampling) | Pengontrol entropi sistem (keseimbangan kreativitas vs. koherensi) |
Semiosis Emergen: Bagaimana Mesin Statistik Memanifestasikan Makna
Dengan pemahaman teknis yang telah dibangun, kita dapat kembali ke tesis sentral: Semiosis Emergen. Debat tentang apakah Transformer menggunakan semiotika menemukan resolusinya dalam konsep ini. Secara eksplisit, Transformer bukanlah mesin semiotik; ia adalah mesin statistik diferensial yang tidak memiliki aturan simbolik, ontologi tanda, atau struktur if-then untuk menghubungkan tanda. Namun, secara implisit, Transformer memanifestasikan proses semiosis melalui statistik pada skala yang luar biasa.
Fenomena ini adalah properti emergen—sebuah sifat yang muncul dari interaksi kompleks komponen-komponen sistem, yang tidak dimiliki oleh komponen-komponen itu sendiri. Makna dalam LLM muncul dari skala data (triliunan token dari korpus global) dan skala model (ratusan miliar hingga triliunan parameter). Ketika kalkulasi deterministik yang berlapis-lapis beroperasi pada distribusi tanda yang masif ini, ia mulai mereplikasi secara fungsional efek dari proses semiosis pada manusia yang kompleks dan relasional. Ini sesuai dengan prinsip-prinsip sibernetika. Apa yang kita, sebagai pengamat, interpretasikan sebagai inferensi Peircean atau hubungan Saussurean bukanlah hasil dari aturan yang diprogram, melainkan efek samping dari model yang telah belajar memprediksi token berikutnya dengan akurasi yang sangat tinggi. Model tidak “memahami” apa itu tanda (sign); ia hanya tahu bagaimana tanda-tanda didistribusikan dalam kaitannya satu sama lain dengan presisi matematis yang sedemikian rupa sehingga ia dapat beroperasi seolah-olah ia memahaminya.
Ini mengarah pada pergeseran fundamental dalam cara kita memahami makna komputasional. AI tradisional mencoba mengkodekan makna dalam simbol dan aturan. LLM, sebaliknya, menemukan bahwa makna terkodekan dalam posisi relatif kata-kata dalam ruang vektor berdimensi tinggi. Embedding merepresentasikan kata sebagai titik (vektor) dalam ruang ini. Mekanisme attention kemudian beroperasi pada vektor-vektor ini, menghitung hubungan berdasarkan kedekatan dan orientasi mereka (diukur melalui dot product). Oleh karena itu, semua “penalaran” dalam model pada dasarnya adalah serangkaian transformasi geometris. Sebuah konsep seperti contohnya “raja” tidak didefinisikan oleh aturan logis (misalnya, dia “adalah seorang penguasa laki-laki”), melainkan oleh posisi vektornya relatif terhadap vektor lain, seperti dalam analogi QKV yg sudah dijelaskan pada beberapa paragraf sebelumnya: vektor(‘raja’) – vektor(‘pria’) + vektor(‘wanita’) \approx vektor(‘ratu’). Dengan demikian, seluruh proses semiotik telah diterjemahkan dari domain logika simbolik ke dalam domain geometri berdimensi tinggi. Semiosis tidak lagi muncul dari logika, tetapi dari geometri tokenize. “Pemahaman” model secara generatif adalah peta yang telah dipelajarinya dari ruang semantik ini.
Lensa Tiga Arah untuk Pikiran Digital: Menerapkan Kerangka Semiotik pada Arsitektur AI
Untuk membedah Semiosis Emergen secara lebih sistematis, kita dapat menerapkan tiga kerangka semiotik utama sebagai lensa analitis. Teori-teori ini bukan merupakan kerangka kerja yang saling bersaing, melainkan saling melengkapi, masing-masing menerangi aspek yang berbeda dari operasi LLM.
Pandangan Saussurean: Signifier dan Signified dalam Ruang Vektor
Menurut Ferdinand de Saussure, tanda adalah entitas dua sisi yang terdiri dari signifier (penanda: bentuk fisik kata) dan signified (petanda: konsep yang diwakilinya). Dalam LLM, proses ini dimodelkan sebagai berikut:
- Signifier (Penanda Komputasional): Proses tokenisasi dan embedding adalah bentuk komputasional dari signifier. Setiap kata atau sub-kata diubah menjadi vektor numerik unik di ruang laten. Ini adalah bentuk tanda yang dapat diolah oleh mesin.
- Signified (Petanda Distribusional): Makna atau konsep tidak lagi berupa definisi diskret, melainkan sebuah konsep terdistribusi yang diwakili oleh posisi vektor tersebut di dalam ruang laten. Makna sebuah kata muncul dari pola kemunculan bersamanya dengan kata-kata lain. Kata-kata yang sering muncul dalam konteks yang sama akan memiliki vektor yang letaknya berdekatan, mencerminkan tesis distribusional bahwa “sebuah kata dicirikan oleh teman-temannya”. Dengan demikian, AI statistik menggabungkan signifier dan signified menjadi satu unit operasional (vektor), di mana makna didefinisikan oleh hubungan relasionalnya dengan semua vektor lain, persis seperti yang diusulkan Saussure tentang nilai linguistik yang ditentukan oleh perbedaan.
Proses Peircean: Self-Attention sebagai Model Inferensi Dinamis
Charles Sanders Peirce mendefinisikan semiosis sebagai proses triadik dinamis yang melibatkan representamen (tanda itu sendiri), object (apa yang direpresentasikan oleh tanda), dan interpretant (efek penafsiran atau pemahaman yang dihasilkan). Mekanisme Self-Attention dalam Transformer adalah analogi komputasional yang sangat kuat untuk proses inferensi triadik Peircean ini.
- Representamen: Vektor token awal yang sedang diproses, yang mengajukan Query untuk mencari makna kontekstual.
- Object: Token-token lain dalam kalimat yang berfungsi sebagai konteks. Vektor Key dan Value mereka mewakili aspek-aspek dari objek-objek ini.
- Interpretant: Vektor output akhir yang telah diperkaya dengan konteks, yang dihasilkan oleh mekanisme attention. Seluruh proses perhitungan bobot perhatian dan pembentukan rata-rata tertimbang dari Value adalah perwujudan komputasional dari proses dinamis pembentukan interpretant. Ketika mekanisme attention memberikan bobot yang lebih tinggi pada kata “uang” daripada “tepi sungai” dalam menafsirkan kata “bank”, ini adalah bentuk interpretant yang ditentukan secara deterministik oleh probabilitas distribusi yang telah dipelajari.
Lapisan Barthesian: Mengungkap Konotasi dan Mitos dalam Data Pelatihan
Roland Barthes memperluas semiotika dengan menambahkan lapisan makna kultural dan ideologis. Tanda tidak hanya memiliki denotasi (makna literal) tetapi juga konotasi (makna kultural, ideologis, atau historis yang melekat). Dalam LLM, lapisan Barthesian ini muncul dari data pelatihan itu sendiri.
- Denotasi: Makna literal atau prediksi token yang paling mungkin secara statistik. Ini adalah tingkat pertama dari makna yang dihasilkan model.
- Konotasi: Bias dan narasi yang tertanam secara statistik dalam korpus data pelatihan. Data yang diambil dari internet dan literatur global secara inheren membawa bias gender, stereotip rasial, atau narasi politik yang dominan. Misalnya, jika data pelatihan secara statistik lebih sering mengasosiasikan “dokter” dengan pronomina maskulin dan “perawat” dengan pronomina feminin, model akan mempelajari korelasi ini sebagai bagian dari “makna” kata-kata tersebut. Output model kemudian akan mereproduksi konotasi ideologis ini, bukan karena aturan yang disengaja, tetapi sebagai cerminan statistik dari “mitos” budaya yang terkandung dalam datanya.
Dengan demikian, ketiga kerangka semiotik ini tidak saling meniadakan, melainkan memberikan pandangan berlapis yang komprehensif. Semiotika Saussurean menjelaskan struktur statis dari pengetahuan yang dipelajari (peta semantik dalam ruang embedding). Semiotika Peircean menjelaskan proses dinamis inferensi pada saat runtime (mekanisme attention). Dan semiotika Barthesian menjelaskan asal-usul sosio-kultural dan dampak dari basis pengetahuan sistem (data pelatihan dan outputnya).
Tabel 3: Pemetaan Teori Semiotik pada Arsitektur Transformer
| Konsep Semiotik | Teoris | Analogi Arsitektur AI | Deskripsi |
| Signifier / Signified | Saussure | Token & Vektor Embedding / Posisi Relasional Vektor | Bentuk tanda adalah vektor numerik; maknanya adalah posisi terdistribusi dalam ruang semantik yang ditentukan oleh relasi. |
| Representamen | Peirce | Vektor Query | Tanda awal yang memulai proses inferensi untuk mencari makna kontekstual. |
| Object | Peirce | Konteks (Vektor Key & Value) | Entitas lain dalam urutan yang memberikan informasi kontekstual kepada representamen. |
| Interpretant | Peirce | Vektor Output dari Attention | Hasil akhir dari proses inferensi; representasi tanda yang telah diperkaya dengan makna kontekstual. |
| Denotasi / Konotasi | Barthes | Output Paling Mungkin / Bias Statistik dari Data | Makna literal vs. lapisan makna kultural, ideologis, dan bias yang dipelajari dari pola distribusi dalam data pelatihan. |
Ruang Gema Ideologis: Mengaudit Bias dan Konotasi Kultural dalam LLM
Analisis Barthesian membawa kita pada konsekuensi etis dan praktis yang paling mendesak dari AI modern. Karena LLM belajar dari pola statistik teks yang dihasilkan manusia, mereka secara tak terhindarkan berfungsi sebagai “mesin ideologi” atau ruang gema yang kuat. Secara sibernetis mereka menyerap, mereplikasi, dan memperkuat bias, stereotip, serta narasi dominan yang ada dalam data pelatihan mereka. Ini sesuai dengan prinsip-prinsip umpan balik dalam teori sibernetika.
Implikasi ini sangat nyata. Sebuah LLM dapat menunjukkan bias regional dalam klasifikasi teks politik jika data pelatihannya didominasi oleh satu ideologi tertentu. Demikian pula, asumsi tentang peran gender atau stereotip rasial dapat termanifestasi karena pola-pola tersebut ada secara statistik dalam data historis. Makna kultural yang dihasilkan LLM bukanlah keputusan yang disengaja, melainkan hasil dari perhitungan deterministik yang menyerap konotasi probabilistik dari data yang diberikan kepadanya.
Masalah ini diperparah oleh sifat “kotak hitam” dari AI statistik. Kurangnya transparansi membuat pelacakan sumber bias menjadi tantangan besar. Sangat sulit untuk mengetahui entri data spesifik mana yang menyebabkan model menghasilkan konotasi ideologis tertentu. Semiotika Barthesian menyediakan kerangka kerja yang diperlukan untuk mengkritik output AI bukan dari sudut pandang akurasi matematis, tetapi dari sudut pandang konsekuensi kultural.
Hal ini mendorong pengembangan solusi teknis untuk membuka “kotak hitam” tersebut. Salah satu pendekatan yang menjanjikan adalah Training Data Attribution (TDA), yang bertujuan untuk melacak pengetahuan atau output tertentu dari LLM kembali ke contoh data pelatihan spesifik yang menyebabkannya. Dalam konteks semiotika, TDA adalah upaya untuk mengaudit konotasi Barthesian secara komputasional, mencoba memahami bagaimana ideologi tersembunyi terbentuk dari entri data yang mana, sehingga memungkinkan audit etis yang lebih baik.
Pemahaman ini juga mengubah cara kita memandang masalah bias. Dalam sistem berbasis aturan, bias dapat dilihat sebagai “bug” atau “error”—sebuah aturan yang salah yang dapat diperbaiki. Namun, dalam sistem statistik, bias sering kali merupakan hasil dari model yang berhasil mempelajari pola-pola yang tidak diinginkan dalam data. Model tersebut menjalankan fungsinya dengan benar dengan mengidentifikasi dan mereproduksi pola-pola tersebut karena itulah cara untuk meminimalkan kesalahan prediksi berdasarkan data yang ada. Ini membingkai ulang masalah dari sekadar “memperbaiki model” menjadi tantangan sosio-teknis yang jauh lebih kompleks, yaitu mengkurasi data, mengelola output, dan secara kritis mengevaluasi cerminan masyarakat yang ditunjukkan oleh mesin-mesin ini.
Epilog: Menuju Kognisi Hibrida Artificial Intelligence dan Masa Depan Makna
Debat filosofis antara AI simbolik dan statistik telah mencapai puncaknya dengan dominasi komputasi statistik yang diwujudkan oleh arsitektur Transformer. Namun, dominasi ini tidak menghilangkan relevansi kerangka kerja simbolik. Sebaliknya, ia justru memperkuat kebutuhan akan semiotika sebagai alat interpretatif dan auditif yang sangat diperlukan.
Kesimpulannya, AI modern bukanlah mesin yang memahami tanda melalui aturan eksplisit yang diturunkan secara deduktif. Sebaliknya, ia adalah mesin yang mengalkulasi pola-pola tanda secara deterministik pada skala masif, yang kemudian menghasilkan efek semiosis yang kompleks, dinamis, dan probabilistik dalam ekspresinya. Pandangan “statistik murni”, seperti statemen yang disampaikan oleh rekan diskusi sebelumnya, tidak memadai karena mengabaikan efek terstruktur dan bermakna yang mendalam dari komputasi ini.
Mungkin masa depan AI terletak pada integrasi. Arsitektur hibrida neuro-simbolik menawarkan jalan ke depan yang menjanjikan. Dalam model seperti itu, mesin statistik seperti Transformer dapat berfungsi sebagai pemroses makna kontekstual yang sangat fleksibel, sementara lapisan logika simbolik (aturan, ontologi) digunakan sebagai filter, pengaman, atau kerangka penalaran di atasnya. Pendekatan ini berpotensi menggabungkan fleksibilitas statistik dengan transparansi dan kontrol simbolik, menciptakan AI yang sangat mampu secara interpretatif sekaligus dapat diaudit.
Pada akhirnya, memahami kecerdasan buatan modern memerlukan lebih dari sekadar pemahaman matematika tentang Transformer, Softmax, dan Temperature. Hal ini menuntut ilmu Semiotika untuk membedah bias Barthesian, melacak proses inferensi Peircean, dan memahami representasi Saussurean yang tersimpan dalam ruang vektor. Kecerdasan Buatan adalah cermin matematis yang kuat, yang tidak hanya mereplikasi bahasa kita, tetapi juga secara tak terhindarkan memantulkan budaya, ideologi, dan cara kita memaknai dunia. Dalam mempelajari mesin-mesin ini, kita tidak hanya mempelajari sebuah teknologi eksternal; kita sedang mempelajari cerminan matematis dari kesadaran kolektif kita sendiri dalam berbahasa atau berkomunikasi yang ditransformasikan pada mesin dengan prinsip-prinsip sibernetika.
Pertentangan antara “simbolik” dan “statistik” bukanlah bipolar ideologis yang harus dimenangkan salah satu pihak. Transformer berada di posisi teknis tertentu: ia bukan mesin semiotik yang menyimpan teori tanda, tetapi ia memproduksi efek semiotik melalui kalkulasi deterministik atas pola statistik besar. Menempatkan semiotika sebagai lensa kritis bukan klaim bahwa model “memahami” tanda; melainkan pengakuan bahwa teknologi ini menghasilkan dampak makna yang perlu dibaca, diuji, dan diatur.
Kalimat penutup: Transformer tidak menulis semiotik ke dalam kodenya, tetapi ia menulis efek semiotik ke dalam teksnya. Membaca efek tersebut membutuhkan teknik dan teori sekaligus: sains data yang tajam dan mata kritis humaniora serta prinsip-prinsip sibernetika.
AO
Tangerang Selatan, 25 Oktober 2025
Tulisan sebelumnya:
https://socioinformatics.id/semiotika-sebagai-teori-kognitif-tersembunyi-di-balik-kemajuan-ai/

