Beranda Topics Pembelajaran Mendalam Apa itu pembelajaran mendalam?
Jelajahi solusi pembelajaran mendalam IBM Berlangganan pembaruan AI
Kolase piktogram dengan cloud, diagram lingkaran, dan grafik

Diperbarui: 17 Juni 2024
Kontributor: Jim Holdsworth, Mark Scapicchio

Apa itu pembelajaran mendalam?

Pembelajaran mendalam adalah bagian dari machine learning yang menggunakan neural networks berlapis, yang disebut neural networks dalam, untuk menyimulasikan kekuatan pengambilan keputusan yang kompleks dari otak manusia. Beberapa bentuk pembelajaran mendalam mendukung sebagian besar aplikasi kecerdasan buatan (AI) dalam kehidupan kita saat ini.

Perbedaan utama antara pembelajaran mendalam dan machine learning adalah struktur arsitektur neural networks yang mendasarinya. “Nondeep”, model machine learning tradisional menggunakan neural networks sederhana dengan komputasi satu atau dua lapis. Model pembelajaran mendalam menggunakan tiga lapisan atau lebih—tetapi biasanya ratusan atau ribuan lapisan—untuk melatih model.

Sementara model pembelajaran yang diawasi membutuhkan data input yang terstruktur dan berlabel untuk menghasilkan output yang akurat, model pembelajaran mendalam dapat menggunakan pembelajaran yang tidak diawasi. Dengan pembelajaran tanpa pengawasan, model pembelajaran mendalam dapat mengekstrak karakteristik, fitur, dan hubungan yang mereka butuhkan untuk menghasilkan output yang akurat dari data mentah dan tidak terstruktur. Selain itu, model ini bahkan dapat mengevaluasi dan menyempurnakan output mereka untuk meningkatkan ketepatan.

Pembelajaran mendalam adalah aspek ilmu data yang mendorong banyak aplikasi dan layanan yang meningkatkan otomatisasi, yang melakukan tugas-tugas analitis dan fisik tanpa campur tangan manusia. Hal ini memungkinkan banyak produk dan layanan sehari-hari—seperti asisten digital, remote TV yang mendukung suara, deteksi penipuan kartu kredit, mobil tanpa pengemudi, dan AI generatif. 

Bangun alur kerja AI yang bertanggung jawab dengan tata kelola AI

Pelajari blok bangunan dan praktik terbaik untuk membantu tim Anda mempercepat AI yang bertanggung jawab.

Konten terkait

Daftar untuk buku elektronik tentang AI generatif

Cara kerja pembelajaran mendalam

Neural Networks, atau jaringan saraf tiruan, berusaha meniru otak manusia melalui kombinasi input data, bobot, dan bias—semuanya bertindak sebagai neuron silikon. Elemen-elemen ini bekerja sama untuk secara akurat mengenali, mengklasifikasikan, dan menggambarkan objek dalam data.

Neural networks dalam terdiri dari beberapa lapisan node yang saling berhubungan, masing-masing dibangun di atas lapisan sebelumnya untuk menyempurnakan dan mengoptimalkan prediksi atau kategorisasi. Perkembangan komputasi melalui jaringan ini disebut propagasi maju. Lapisan input dan output dari neural networks yang dalam disebut lapisan yang terlihat  . Lapisan input adalah tempat model pembelajaran mendalam menyerap data untuk diproses, dan lapisan output adalah tempat prediksi atau klasifikasi akhir dibuat.

Proses lain yang disebut propagasi balik menggunakan algoritma, seperti gradient descent, untuk menghitung kesalahan dalam prediksi, dan kemudian menyesuaikan bobot dan bias fungsi dengan bergerak mundur melalui lapisan untuk melatih model. Bersama-sama, propagasi maju dan propagasi balik memungkinkan neural networks membuat prediksi dan mengoreksi kesalahan apa pun. Seiring berjalannya waktu, algoritma ini secara bertahap menjadi lebih akurat.

Pembelajaran mendalam membutuhkan daya komputasi yang luar biasa. Unit pemrosesan grafis (GPU) berkinerja tinggi sangat ideal karena dapat menangani volume besar perhitungan dalam beberapa inti dengan memori berlimpah yang tersedia. Komputasi cloud terdistribusi juga dapat membantu. Tingkat daya komputasi ini diperlukan untuk melatih algoritma mendalam melalui pembelajaran mendalam. Namun, mengelola beberapa GPU di lokasi dapat menciptakan permintaan yang besar pada sumber daya internal dan menjadi sangat mahal untuk diskalakan. Untuk kebutuhan perangkat lunak, sebagian besar aplikasi pembelajaran mendalam dikodekan dengan salah satu dari tiga kerangka kerja pembelajaran berikut: JAX, PyTorch, atau TensorFlow.

 

Jenis model pembelajaran mendalam

Algoritma pembelajaran mendalam sangat kompleks, dan ada berbagai jenis neural networks untuk mengatasi masalah atau kumpulan data tertentu. Berikut adalah enam di antaranya. Masing-masing memiliki keunggulannya sendiri dan disajikan di sini secara kasar sesuai dengan urutan perkembangannya, dengan setiap model yang berurutan disesuaikan untuk mengatasi kelemahan pada model sebelumnya.

Salah satu potensi kelemahan di antara semuanya adalah bahwa model pembelajaran mendalam sering kali diibaratkan sebagai "kotak hitam", sehingga sulit untuk memahami cara kerjanya dan menimbulkan tantangan dalam hal interpretasi. Namun, hal ini dapat diimbangi dengan manfaat keseluruhan dari akurasi tinggi dan skalabilitas yang dimilikinya.

CNN

Neural networks konvolusional (Convolutional neural networks atau CNN atau ConvNets ) utamanya digunakan dalam visi komputer dan aplikasi klasifikasi gambar. Mereka dapat mendeteksi fitur dan pola dalam gambar dan video, yang memungkinkan tugas-tugas seperti deteksi objek, pengenalan gambar, pengenalan pola, dan pengenalan wajah. Jaringan ini memanfaatkan prinsip-prinsip dari aljabar linier, khususnya perkalian matriks, untuk mengidentifikasi pola dalam sebuah gambar.

CNN adalah jenis jaringan saraf tertentu, yang terdiri dari lapisan node, yang berisi lapisan input, satu atau lebih lapisan tersembunyi dan lapisan output. Node saling terhubung satu sama lain serta memiliki bobot dan ambang batas yang terkait. Jika output dari setiap node individu berada di atas nilai ambang batas yang ditentukan, node itu diaktifkan, data dikirim ke lapisan jaringan berikutnya. Jika tidak, tidak ada data yang diteruskan ke lapisan jaringan berikutnya.

Setidaknya ada tiga jenis lapisan utama yang membentuk CNN: lapisan konvolusi, lapisan penyatuan, dan lapisan yang terhubung penuh (FC). Untuk penggunaan yang kompleks, CNN mungkin berisi hingga ribuan lapisan, di mana setiap lapisan dibangun pada lapisan sebelumnya. Dengan “konvolusi” —mengerjakan dan mengerjakan ulang input asli—pola terperinci dapat ditemukan. Pada setiap lapisannya, kompleksitas CNN meningkat, untuk mengidentifikasi bagian gambar yang lebih besar. Lapisan awal fokus pada fitur sederhana, seperti warna dan tepi. Ketika data gambar maju melewati lapisan-lapisan CNN, lapisan mulai mengenali elemen atau bentuk objek yang lebih besar hingga akhirnya mengidentifikasi objek yang dimaksud.

CNN dibedakan dari neural networks lainnya oleh kinerja superior mereka dengan input gambar, ucapan, atau sinyal audio. Sebelum CNN, metode ekstraksi fitur manual yang memakan waktu digunakan untuk mengidentifikasi objek dalam gambar. Namun, kini CNN menyediakan pendekatan yang lebih terukur untuk tugas klasifikasi gambar dan pengenalan objek, sekaligus memproses data berdimensi tinggi. Selain itu, CNN dapat bertukar data antar lapisan, untuk menghadirkan pemrosesan data yang lebih efisien. Kendati informasi mungkin hilang di lapisan penyatuan, hal ini mungkin lebih besar daripada manfaat CNN, yang dapat membantu mengurangi kerumitan, meningkatkan efisiensi, dan membatasi risiko overfitting. 

Masih ada beberapa kelemahan lain dari CNN, yaitu menuntut waktu dan anggaran yang besar secara komputasi, sehingga membutuhkan banyak unit pemrosesan grafis (GPU). Mereka juga membutuhkan tenaga pakar yang sangat terlatih dengan pengetahuan lintas domain, dan pengujian konfigurasi, hiperparameter, dan konfigurasi yang cermat.

RNN

Neural networks berulang (RNN) biasanya digunakan dalam bahasa alami dan aplikasi pengenalan suara karena menggunakan data sekuensial atau deret waktu. RNN dapat diidentifikasi dengan loop umpan baliknya. Algoritma pembelajaran ini utamanya digunakan ketika menggunakan data deret waktu untuk membuat prediksi tentang hasil pada masa depan. Contoh penggunaan termasuk prediksi pasar saham atau perkiraan penjualan, atau masalah ordinal atau temporal, seperti terjemahan bahasa, pemrosesan bahasa alami (NLP), pengenalan ucapan dan teks gambar. Fungsi-fungsi ini kerap kali dimasukkan ke dalam aplikasi populer seperti Siri, pencarian suara, dan Google Translate.

RNN menggunakan "memori" mereka karena mengambil informasi dari input sebelumnya untuk memengaruhi input dan output saat ini. Sementara neural networks dalam tradisional mengasumsikan bahwa input dan output tidak bergantung satu sama lain; Output RNN tergantung pada elemen sebelumnya dalam urutan. Meskipun peristiwa masa depan juga akan membantu dalam menentukan output dari urutan yang diberikan, neural networks berulang searah tidak dapat menjelaskan peristiwa ini dalam prediksi mereka.

RNN berbagi parameter di setiap lapisan jaringan dan berbagi parameter bobot yang sama di setiap lapisan jaringan, dengan bobot yang disesuaikan melalui proses propagasi balik dan penurunan gradien untuk memfasilitasi pembelajaran penguatan.

RNN menggunakan algoritma propagasi balik melalui waktu (backpropagation through time atau BPTT) untuk menentukan gradien, yang sedikit berbeda dengan propagasi balik tradisional karena algoritma ini khusus untuk data berurutan. Prinsip-prinsip BPTT sama dengan propagasi balik tradisional, di mana model melatih dirinya sendiri dengan menghitung kesalahan dari lapisan output ke lapisan input. BPTT berbeda dengan pendekatan tradisional karena BPTT menjumlahkan kesalahan pada setiap langkah waktu, sedangkan jaringan feedforward tidak perlu menjumlahkan kesalahan karena tidak berbagi parameter di setiap lapisan.

Keuntungan dibandingkan jenis neural networks lainnya adalah bahwa RNN menggunakan pemrosesan data biner dan memori. RNN dapat merencanakan beberapa input dan produksi sehingga alih-alih hanya memberikan satu hasil untuk satu input, RMM dapat menghasilkan output satu-ke-banyak, banyak-ke-satu, atau banyak-ke-banyak.

Ada juga opsi dalam RNN. Sebagai contoh, jaringan memori jangka pendek yang panjang (LSTM) lebih unggul daripada RNN sederhana dengan belajar dan bertindak berdasarkan dependensi jangka panjang.

Namun, RNN cenderung mengalami dua masalah dasar, yang dikenal sebagai gradien yang meledak dan gradien yang menghilang. Masalah ini ditentukan oleh ukuran gradien, yang merupakan kemiringan fungsi kerugian di sepanjang kurva kesalahan.

  • Ketika gradien menghilang dan terlalu kecil, gradien akan terus menjadi lebih kecil, yang memperbarui parameter bobot hingga menjadi tidak signifikan—yaitu: nol (0). Ketika hal itu terjadi, algoritma tidak lagi belajar.
  • Gradien yang meledak terjadi jika gradien terlalu besar, sehingga menciptakan model yang tidak stabil. Dalam hal ini, bobot model tumbuh terlalu besar, dan pada akhirnya akan direpresentasikan sebagai NaN (bukan angka). Salah satu solusi untuk masalah ini adalah dengan mengurangi jumlah lapisan tersembunyi dalam neural networks, yang menghilangkan beberapa kerumitan dalam model RNN.

Beberapa kelemahan terakhir: RNN mungkin juga memerlukan waktu pelatihan yang lama dan sulit digunakan pada kumpulan data besar. Mengoptimalkan RNN menambah kerumitan ketika ada banyak lapisan dan parameter.

Autoencoder dan autoencoder variasional

Pembelajaran mendalam memungkinkan pergerakan melampaui analisis data numerik, dengan menambahkan analisis gambar, ucapan, dan tipe data kompleks lainnya. Di antara model kelas pertama yang mencapai hal ini adalah autoencoder variasional (VAE). Ini adalah model pembelajaran mendalam pertama yang digunakan secara luas untuk menghasilkan gambar dan ucapan realistis, yang memberdayakan pemodelan generatif mendalam dengan membuat model lebih mudah untuk diukur—yang menjadi landasan dari hal yang kami sebut AI generatif.

Autoencoder bekerja dengan mengodekan data yang tidak berlabel ke dalam representasi terkompresi, dan kemudian mendekode data kembali ke bentuk aslinya. Autoencoder biasa digunakan untuk berbagai tujuan, termasuk merekonstruksi gambar yang rusak atau buram. Autoencoder variasional menambahkan kemampuan penting tidak hanya untuk merekonstruksi data, tetapi juga menghasilkan variasi pada data asli.

Kemampuan untuk menghasilkan data baru ini memicu suksesi teknologi baru yang cepat, dari jaringan permusuhan generatif (GAN) hingga model difusi, yang mampu menghasilkan gambar yang lebih realistis—tetapi palsu. Dengan cara ini, VAE mengatur tahap untuk AI generatif saat ini.

Autoencoder dibuat dari blok encoder dan decoder, arsitektur yang juga menopang model bahasa yang besar saat ini. Encoder memampatkan kumpulan data menjadi representasi padat, yang mengatur titik data serupa lebih dekat bersama-sama dalam ruang abstrak. Decoder mengambil sampel dari ruang ini untuk membuat sesuatu yang baru selagi mempertahankan fitur terpenting kumpulan data.

Keuntungan terbesar untuk autoencoder adalah kemampuannya menangani sejumlah besar data dan menampilkan data input dalam bentuk terkompresi, sehingga aspek yang paling signifikan tampak menonjol—yang memungkinkan deteksi anomali dan tugas klasifikasi. Ini juga mempercepat transmisi dan mengurangi kebutuhan penyimpanan. Autoencoder dapat dilatih pada data yang tidak berlabel sehingga dapat digunakan di tempat data berlabel tidak tersedia. Ketika pelatihan tanpa pengawasan digunakan, terdapat keuntungan penghematan waktu: algoritma pembelajaran mendalam belajar secara otomatis dan mendapatkan akurasi tanpa perlu rekayasa fitur secara manual. Selain itu, VAE dapat menghasilkan data sampel baru untuk pembuatan teks atau gambar.

Terdapat kerugian untuk autoencoders. Pelatihan struktur yang dalam atau rumit dapat menguras sumber daya komputasi. Dan selama pelatihan tanpa pengawasan, model mungkin mengabaikan properti yang dibutuhkan dan hanya mereplikasi data yang masuk. Autoencoder mungkin juga mengabaikan hubungan data yang kompleks dalam data terstruktur sehingga tidak mengidentifikasi hubungan yang kompleks dengan benar.

GAN

Jaringan adversarial generatif (GAN) adalah neural networks yang digunakan baik di dalam maupun di luar kecerdasan buatan (AI) untuk membuat data baru yang menyerupai data pelatihan asli. Ini dapat mencakup gambar yang tampak seperti wajah manusia—tetapi dihasilkan, bukan diambil dari orang sungguhan. Bagian "berlawanan" dari nama tersebut berasal dari bolak-balik antara dua bagian GAN: generator dan diskriminator.

  • Generator menciptakan sesuatu: gambar, video atau audio dan kemudian menghasilkan output dengan sentuhan berbeda. Misalnya, seekor kuda dapat diubah menjadi zebra dengan tingkat akurasi tertentu. Hasilnya bergantung pada input dan seberapa terlatih lapisan tersebut dalam model generatif untuk contoh penggunaan ini.
  • Diskriminator adalah musuh, di mana hasil generatif (gambar palsu) dibandingkan dengan gambar asli pada kumpulan data. Diskriminator mencoba membedakan gambar, video, atau audio yang asli dan palsu.

GAN melatih diri mereka sendiri. Generator menciptakan contoh palsu sementara diskriminator belajar mengenali perbedaan antara contoh palsu dari generator dan contoh asli. Ketika diskriminator mampu menandai yang palsu, maka generator akan menerima hukuman. Loop masukan terus berlanjut hingga generator berhasil membuat output yang tidak dapat dibedakan oleh diskriminator.

Manfaat utama GAN adalah menciptakan output realistis yang sulit dibedakan dari aslinya, yang selanjutnya dapat digunakan untuk melatih model pembelajaran mesin lebih lanjut. Menyiapkan GAN untuk dipelajari sangatlah mudah, karena GAN dilatih dengan menggunakan data tanpa label atau dengan pelabelan kecil. Namun, kemungkinan kerugiannya adalah generator dan diskriminator mungkin bekerja bolak-balik dalam kompetisi untuk waktu yang lama, yang menimbulkan terkurasnya sistem dalam jumlah besar. Salah satu batasan pelatihan adalah bahwa sejumlah besar data input mungkin diperlukan untuk mendapatkan output yang memuaskan. Masalah potensial lainnya adalah "mode collapse" atau keruntuhan mode ketika generator menghasilkan satu set output yang terbatas dan bukan variasi yang lebih luas.

Model difusi

Model difusi adalah model generatif yang dilatih menggunakan proses difusi maju dan mundur dari penambahan noise progresif dan denoising. Model difusi menghasilkan data—sering kali berupa gambar—mirip dengan data yang dilatih, tetapi kemudian menimpa data yang digunakan untuk melatihnya. Mereka secara bertahap menambahkan noise Gaussian ke data pelatihan hingga tidak dapat dikenali, kemudian mempelajari proses "denoising" terbalik yang dapat menyintesis output (biasanya gambar) dari input noise acak.

Model difusi belajar meminimalkan perbedaan sampel yang dihasilkan versus target yang diinginkan. Setiap perbedaan dihitung dan parameter model diperbarui untuk meminimalkan kerugian—melatih model untuk menghasilkan sampel yang sangat mirip dengan data pelatihan asli.

Di luar kualitas gambar, model difusi memiliki keuntungan karena tidak memerlukan pelatihan yang bersifat adversarial, yang mempercepat proses pembelajaran dan juga menawarkan kontrol proses yang dekat. Pelatihan lebih stabil dibandingkan dengan GAN dan model difusi tidak rentan terhadap keruntuhan mode.

Namun, dibandingkan dengan GAN, model difusi dapat memerlukan lebih banyak sumber daya komputasi untuk dilatih, termasuk lebih banyak penyetelan. IBM Research juga menemukan bahwa bentuk AI generatif ini dapat dibajak dengan pintu belakang tersembunyi, yang memberi penyerang kontrol atas proses pembuatan gambar sehingga model difusi AI dapat ditipu untuk menghasilkan gambar yang dimanipulasi.

model transformator

Model transformator menggabungkan arsitektur encoder-decoder dengan mekanisme pemrosesan teks dan telah merevolusi cara model bahasa dilatih. Encoder mengubah teks mentah tanpa anotasi menjadi representasi yang dikenal sebagai embeddings; decoder mengambil embeddings ini bersama dengan output model sebelumnya, dan secara berturut-turut memprediksi setiap kata dalam sebuah kalimat.

Menggunakan tebakan isi bagian yang kosong, encoder mempelajari bagaimana kata dan kalimat berhubungan satu sama lain, untuk membangun representasi bahasa yang kuat tanpa harus memberi label pada bagian ucapan dan fitur tata bahasa lainnya. Transformers, pada kenyataannya, dapat dilatih sejak awal tanpa memikirkan tugas tertentu. Setelah representasi yang kuat ini dipelajari, model-model ini nantinya dapat dikhususkan—dengan data yang jauh lebih sedikit—untuk melakukan tugas yang diminta.

Beberapa inovasi memungkinkan hal ini. Transformer memproses kata-kata dalam kalimat secara bersamaan, memungkinkan pemrosesan teks secara paralel, sehingga mempercepat pelatihan. Teknik sebelumnya termasuk neural networks berulang (RNN) memproses kata satu per satu. Transformers juga mempelajari posisi kata-kata dan hubungannya—konteks ini memungkinkan mereka menyimpulkan makna dan membedakan kata-kata seperti “itu” dalam kalimat yang panjang.

Dengan menghilangkan kebutuhan untuk mendefinisikan tugas di awal, transformer menjadikan proses pelatihan model bahasa pada sejumlah besar teks mentah lebih praktis, sehingga memungkinkan pertambahan ukuran secara dramatis. Sebelumnya, data berlabel dikumpulkan untuk melatih satu model pada tugas tertentu. Dengan transformer, satu model yang dilatih pada sejumlah besar data dapat diadaptasi ke berbagai tugas dengan menyempurnakannya pada sejumlah kecil data spesifik tugas yang diberi label.

Transformasi bahasa saat ini digunakan untuk tugas-tugas non-generatif seperti klasifikasi dan ekstraksi entitas serta tugas-tugas generatif seperti penerjemahan mesin, peringkasan, dan menjawab pertanyaan. Transformers telah mengejutkan banyak orang dengan kemampuan mereka untuk menghasilkan dialog yang meyakinkan, esai, dan konten lainnya.

Pemrosesan bahasa alami (NLP) transformer memberikan kekuatan yang luar biasa karena dapat berjalan secara paralel, memproses beberapa bagian dari sebuah urutan secara bersamaan, yang selanjutnya sangat mempercepat pelatihan. Transformer juga melacak ketergantungan jangka panjang dalam teks, yang memungkinkan mereka untuk memahami konteks keseluruhan dengan lebih jelas dan menciptakan hasil yang unggul. Selain itu, transformer lebih terukur dan fleksibel agar dapat disesuaikan dengan tugas.

Mengenai keterbatasan, karena kerumitannya, transformer memerlukan sumber daya komputasi yang besar dan waktu pelatihan yang lama. Selain itu, data pelatihan harus akurat sesuai target, tidak bias dan berlimpah untuk menghasilkan hasil yang akurat.

Contoh penggunaan pembelajaran mendalam

Jumlah kegunaan untuk pembelajaran mendalam bertambah setiap hari. Berikut ini adalah beberapa cara yang kini membantu bisnis menjadi lebih efisien dan melayani pelanggan dengan lebih baik.

Modernisasi aplikasi

AI generatif dapat meningkatkan kemampuan pengembang dan mengurangi kesenjangan keterampilan yang terus melebar dalam domain modernisasi aplikasi dan otomatisasi TI. AI generatif untuk pengodean dimungkinkan karena terobosan terbaru dalam teknologi model bahasa besar (LLM) dan pemrosesan bahasa alami (NLP). Ini menggunakan algoritma pembelajaran mendalam dan neural networks besar yang dilatih pada kumpulan data yang luas dari kode sumber yang ada. Kode pelatihan umumnya berasal dari kode yang tersedia untuk umum yang diproduksi oleh proyek sumber terbuka.

Pemrogram dapat memasukkan petunjuk teks biasa yang menjelaskan apa yang mereka ingin kode lakukan. Alat bantu AI generatif menyarankan potongan kode atau fungsi lengkap, yang menyederhanakan proses pengodean dengan menangani tugas yang berulang dan mengurangi pengodean manual. AI Generatif juga dapat menerjemahkan kode dari satu bahasa ke bahasa lain, menyederhanakan konversi kode atau proyek modernisasi, seperti memperbarui aplikasi lama dengan menerjemahkan COBOL ke Java.

Visi komputer

Visi komputer adalah bidang kecerdasan buatan (AI) yang mencakup klasifikasi gambar, deteksi objek dan segmentasi semantik. Sistem ini menggunakan machine learning dan neural networks untuk mengajari komputer dan sistem pembelajaran untuk mendapatkan informasi yang berarti dari gambar digital, video, dan input visual lainnya—dan untuk membuat rekomendasi atau mengambil tindakan ketika sistem melihat adanya cacat atau masalah. Jika AI memungkinkan komputer untuk berpikir, visi komputer memungkinkan mereka untuk melihat, mengamati, dan memahami.

Karena sistem visi komputer sering kali dilatih untuk memeriksa produk atau mengawasi aset produksi, sistem ini biasanya dapat menganalisis ribuan produk atau proses per menit, memperhatikan cacat atau masalah yang tidak terlihat. Visi komputer digunakan dalam industri yang berkisar dari energi dan utilitas hingga manufaktur dan otomotif.

Visi komputer membutuhkan banyak data, dan selanjutnya menjalankan analisis data tersebut berulang-ulang hingga dapat membedakan dan pada akhirnya mengenali gambar. Contohnya, untuk melatih komputer mengenali ban mobil, komputer harus diberi banyak sekali gambar ban dan benda-benda yang berhubungan dengan ban untuk mempelajari perbedaannya dan mengenali ban, terutama ban yang tidak cacat.

Visi komputer menggunakan model algoritmik untuk memungkinkan komputer untuk mengajarkan dirinya sendiri tentang konteks data visual. Jika cukup banyak data yang dimasukkan melalui model, komputer akan "melihat" data dan mengajarkan dirinya sendiri untuk membedakan satu gambar dari gambar lainnya. Algoritma memungkinkan mesin untuk belajar dengan sendirinya, bukan dengan seseorang yang memprogramnya untuk mengenali gambar.

Visi komputer memungkinkan sistem memperoleh informasi bermakna dari gambar digital, video, dan input visual lainnya, dan berdasarkan masukan tersebut, untuk mengambil tindakan. Kemampuan untuk memberikan rekomendasi membedakannya dari tugas pengenalan gambar sederhana. Beberapa penerapan umum visi komputer saat ini dapat dilihat pada:

  • Otomotif: Meskipun era mobil tanpa pengemudi belum sepenuhnya tiba, teknologi yang mendasarinya sudah mulai diterapkan pada mobil, meningkatkan keselamatan pengemudi dan penumpang melalui fitur-fitur seperti deteksi garis jalur.

  • Perawatan Kesehatan: Visi komputer telah dimasukkan ke dalam teknologi radiologi, sehingga memungkinkan dokter untuk mengidentifikasi tumor kanker dengan lebih baik dalam anatomi yang sehat.

  • Pemasaran: Platform media sosial memberikan saran mengenai siapa saja yang mungkin ada di dalam foto yang telah diposting di profil, sehingga lebih mudah untuk menandai teman di album foto.

  • Retail: Pencarian visual telah dimasukkan ke dalam beberapa platform e-commerce, yang memungkinkan merek untuk merekomendasikan barang-barang yang akan melengkapi lemari pakaian yang ada.
Layanan pelanggan

AI membantu bisnis untuk lebih memahami dan memenuhi permintaan konsumen yang kian meningkat. Dengan meningkatnya belanja online yang sangat personal, model direct-to-consumer, dan layanan pengiriman, AI generatif dapat membantu membuka lebih banyak manfaat yang dapat meningkatkan layanan pelanggan, transformasi talenta, dan kinerja aplikasi.

AI memberdayakan bisnis untuk mengadopsi pendekatan yang berpusat pada pelanggan dengan memanfaatkan wawasan berharga dari umpan balik pelanggan dan kebiasaan membeli. Pendekatan berbasis data ini dapat membantu meningkatkan desain dan pengemasan produk serta dapat membantu mendorong kepuasan pelanggan yang tinggi dan peningkatan penjualan.

AI Generatif juga dapat berfungsi sebagai asisten kognitif untuk layanan pelanggan, yang memberikan panduan kontekstual berdasarkan riwayat percakapan, analisis sentimen, dan transkrip pusat panggilan. Selain itu, AI generatif juga dapat memungkinkan pengalaman berbelanja yang dipersonalisasi, menumbuhkan loyalitas pelanggan, dan memberikan keunggulan kompetitif.

Tenaga kerja digital

Organisasi dapat menambah tenaga kerja mereka dengan membangun dan menerapkan otomatisasi proses robotik (RPA) dan tenaga kerja digital untuk berkolaborasi dengan manusia guna meningkatkan produktivitas, atau membantu kapan pun cadangan diperlukan. Misalnya, ini dapat membantu pengembang mempercepat pembaruan perangkat lunak lama.

Tenaga kerja digital menggunakan model dasar untuk mengotomatisasi dan meningkatkan produktivitas pekerja pengetahuan dengan memungkinkan otomatisasi layanan mandiri dengan cara yang cepat dan andal—tanpa adanya hambatan teknis. Untuk mengotomatiskan kinerja tugas atau memanggil API, model pengisian slot berbasis LLM tingkat perusahaan dapat mengidentifikasi informasi dalam percakapan dan mengumpulkan semua informasi yang diperlukan untuk menyelesaikan tindakan atau memanggil API tanpa banyak upaya manual.

Alih-alih meminta para pakar teknis untuk merekam dan mengodekan alur tindakan yang berulang-ulang untuk para pekerja pengetahuan, otomatisasi tenaga kerja digital yang dibangun dengan fondasi instruksi dan demonstrasi percakapan bertenaga model dapat digunakan oleh pekerja pengetahuan untuk otomatisasi layanan mandiri. Misalnya, untuk mempercepat pembuatan aplikasi, para karyawan praktik kerja lapangan digital tanpa kode dapat membantu pengguna akhir, yang tidak memiliki keahlian pemrograman, dengan mengajar, mengawasi, dan memvalidasi kode secara efektif. 

AI Generatif

AI generatif (juga disebut gen AI) adalah kategori AI yang secara mandiri membuat teks, gambar, video, data, atau konten lainnya sebagai respons terhadap perintah atau permintaan pengguna.

AI generatif bergantung pada model pembelajaran mendalam yang dapat belajar dari pola-pola dalam konten yang ada dan menghasilkan konten baru yang serupa berdasarkan pelatihan tersebut. Ini memiliki aplikasi di berbagai bidang—termasuk layanan pelanggan, pemasaran, pengembangan perangkat lunak, dan penelitian—dan menawarkan potensi yang sangat besar untuk menyederhanakan alur kerja perusahaan melalui pembuatan dan penambahan konten yang cepat dan otomatis. 

AI Generatif unggul dalam menangani beragam sumber data seperti email, gambar, video, file audio, dan konten media sosial. Data yang tidak terstruktur ini menjadi landasan untuk membuat model dan pelatihan AI generatif yang sedang berlangsung, sehingga dapat tetap efektif dari waktu ke waktu. Menggunakan data yang tidak terstruktur ini dapat meningkatkan layanan pelanggan melalui chatbot dan memfasilitasi perutean email yang lebih efektif. Dalam praktiknya, hal ini bisa berarti memandu pengguna ke sumber daya yang tepat, apakah itu menghubungkan mereka dengan agen yang tepat atau mengarahkan mereka ke panduan pengguna dan Pertanyaan Umum.

Terlepas dari keterbatasan dan risikonya yang telah banyak dibahas, banyak bisnis yang terus maju, yang dengan hati-hati mengeksplorasi bagaimana organisasi mereka dapat memanfaatkan AI generatif untuk meningkatkan alur kerja internal, serta meningkatkan produk dan layanan mereka. Ini adalah tantangan baru:  Bagaimana membuat tempat kerja menjadi lebih efisien tanpa menimbulkan masalah hukum atau etika.

AI generatif untuk pengembang
Pemrosesan bahasa alami dan pengenalan suara

Pemrosesan bahasa alami, atauNLP, menggabungkan linguistik komputasi, yaitu pemodelan berbasis aturan bahasa manusia, dengan model statistik dan machine learning untuk memungkinkan komputer dan perangkat digital mengenali, memahami, dan menghasilkan teks dan ucapan. NLP mendukung aplikasi dan perangkat yang dapat menerjemahkan teks dari satu bahasa ke bahasa lain, merespons perintah yang diketik atau diucapkan, mengenali atau mengautentikasi pengguna berdasarkan suara.  NLP membantu meringkas teks dalam jumlah besar, menilai maksud atau sentimen teks atau ucapan, dan menghasilkan teks atau grafik atau konten lain sesuai permintaan.

Salah satu bagian dari NLP adalah NLP statistik, yang menggabungkan algoritma komputer dengan machine learning dan model pembelajaran mendalam. Pendekatan ini membantu mengekstrak, mengklasifikasikan, dan memberi label pada elemen-elemen data teks dan suara secara otomatis, lalu menetapkan kemungkinan statistik untuk setiap kemungkinan makna dari elemen-elemen tersebut. Saat ini, model pembelajaran mendalam dan teknik pembelajaran berdasarkan RNN memungkinkan sistem NLP yang "belajar" saat bekerja dan mengekstrak makna yang lebih akurat dari kumpulan data teks dan suara dalam jumlah besar yang mentah, tidak terstruktur, dan tidak berlabel.

Pengenalan ucapan—juga dikenal sebagai pengenalan ucapan otomatis (ASR), pengenalan ucapan komputer atau speech to text— adalah kemampuan yang memungkinkan program untuk memproses ucapan manusia ke dalam format tertulis.

Meskipun pengenalan ucapan biasanya disalahartikan sebagai pengenalan suara, pengenalan ucapan berfokus pada penerjemahan ucapan dari format verbal ke format teks, sedangkan pengenalan suara hanya berusaha mengidentifikasi suara pengguna.

Penerapan di industri

Penerapan pembelajaran mendalam di dunia nyata ada di sekitar kita, dan terintegrasi dengan baik ke dalam produk dan layanan sehingga pengguna tidak menyadari pemrosesan data kompleks yang terjadi di latar belakang. Beberapa contohnya antara lain:

Pembelajaran mendalam layanan pelanggan

Banyak organisasi memasukkan teknologi pembelajaran mendalam ke dalam proses layanan pelanggan mereka. Chatbots sering digunakan di berbagai aplikasi, layanan, dan portal layanan pelanggan. Chatbot tradisional menggunakan bahasa alami dan bahkan pengenalan visual (visual recognition), yang biasa ditemukan di menu seperti pusat panggilan. Namun, solusi chatbot yang lebih canggih mencoba untuk menentukan, melalui pembelajaran, apakah ada respons terhadap pertanyaan ambigu secara real time. Berdasarkan respons yang diterimanya, chatbot selanjutnya mencoba menjawab pertanyaan-pertanyaan ini secara langsung atau mengarahkan percakapan ke pengguna manusia.

Asisten virtual seperti Siri dari Apple, Amazon Alexa, atau Google Assistant memperluas ide chatbot dengan mengaktifkan fungsionalitas pengenalan suara. Ini menciptakan metode baru untuk melibatkan pengguna dengan cara yang dipersonalisasi.

Analisis layanan keuangan

Lembaga keuangan secara rutin menggunakan analitik prediktif untuk mendorong perdagangan saham algoritmik, menilai risiko bisnis untuk persetujuan pinjaman, mendeteksi penipuan, dan membantu mengelola portofolio kredit dan investasi untuk klien.

Penyimpanan catatan perawatan kesehatan

Industri perawatan kesehatan telah mendapat manfaat besar dari kemampuan pembelajaran mendalam sejak digitalisasi arsip dan gambar rumah sakit. Aplikasi pengenalan gambar dapat mendukung spesialis pencitraan medis dan ahli radiologi, yang membantu mereka menganalisis dan menilai lebih banyak gambar dalam waktu yang lebih singkat.

Penegakan hukum menggunakan pembelajaran mendalam

Algoritma pembelajaran mendalam dapat menganalisis dan belajar dari data transaksional untuk mengidentifikasi pola berbahaya yang menunjukkan kemungkinan aktivitas penipuan atau kriminal. Pengenalan ucapan, visi komputer, dan aplikasi pembelajaran mendalam lainnya dapat meningkatkan efisiensi dan efektivitas analisis investigasi dengan mengekstraksi pola dan bukti dari rekaman suara dan video, gambar, dan dokumen. Kemampuan ini membantu penegak hukum menganalisis sejumlah besar data dengan lebih cepat dan akurat.

Solusi terkait
IBM watsonx

IBM watsonx adalah portofolio alat, aplikasi, dan solusi siap bisnis, yang dirancang untuk mengurangi biaya dan rintangan adopsi AI sambil mengoptimalkan hasil dan penggunaan AI yang bertanggung jawab.

Jelajahi IBM watsonx
IBM watsonx Assistant - Chatbot AI

IBM watsonx Assistant adalah chatbot AI untuk bisnis. Teknologi kecerdasan buatan perusahaan ini memungkinkan pengguna untuk membangun solusi AI percakapan.

Jelajahi watsonx Assistant
IBM® Watson Studio

Membangun, menjalankan, dan mengelola model AI. Siapkan data dan buat model di cloud apa pun menggunakan kode sumber terbuka atau pemodelan visual. Memprediksi dan mengoptimalkan hasil Anda.

Jelajahi Watson Studio
Sumber daya Pembelajaran langsung dan gratis untuk teknologi AI generatif

Pelajari konsep dasar untuk AI dan AI generatif, termasuk rekayasa cepat, model bahasa yang besar, dan proyek sumber terbuka terbaik.

Pengantar pembelajaran mendalam

Jelajahi cabang machine learning yang dilatih dengan data dalam jumlah besar dan berhubungan dengan unit komputasi yang bekerja bersama-sama untuk melakukan prediksi.

Arsitektur pembelajaran mendalam

Jelajahi dasar-dasar machine learning dan arsitektur pembelajaran mendalam serta temukan aplikasi dan manfaatnya.

Bandingkan kerangka kerja pembelajaran mendalam

Memilih kerangka kerja pembelajaran mendalam yang tepat berdasarkan beban kerja individu Anda adalah langkah pertama yang penting dalam pembelajaran mendalam.

Ambil langkah selanjutnya

Latih, validasi, lakukan tuning, dan terapkan AI generatif, model dasar, dan kemampuan machine learning dengan IBM watsonx.ai, studio perusahaan generasi berikutnya untuk pembangun AI. Bangun aplikasi AI dalam waktu singkat, dengan sedikit data.

Jelajahi watsonx.ai Pesan demo langsung