Apa itu segmentasi semantik?

Segmentasi semantik adalah visi komputer tugas yang menetapkan label kelas ke piksel menggunakan pembelajaran mendalam (DL ). Ini adalah salah satu dari tiga sub-kategori dalam keseluruhan proses segmentasi gambar yang membantu komputer memahami informasi visual. Segmentasi semantik mengidentifikasi kumpulan piksel dan mengklasifikasikannya menurut berbagai karakteristik. Dua sub-kategori segmentasi gambar lainnya adalah segmentasi instans dan segmentasi panoptik.

Segmentasi gambar

Segmentasi gambar adalah proses analisis gambar menyeluruh yang membagi gambar digital menjadi beberapa segmen dan mengklasifikasikan informasi yang terkandung dalam setiap wilayah. Tiga jenis tugas segmentasi gambar, yaitu segmentasi semantik, instans, dan panoptik, menetapkan label ke masing-masing piksel dalam gambar untuk menandai batas-batas spesifik dan bentuk objek dan wilayah yang berbeda dalam gambar, mengklasifikasikannya dengan menggunakan informasi seperti warna, kontras, penempatan di dalam gambar, dan atribut lainnya.

Sedangkan segmentasi semantik memberi label pada setiap piksel yang terdapat dalam gambar berdasarkan kelas semantiknya, segmentasi instans dan segmentasi panoptik digunakan untuk tugas klasifikasi yang berbeda. Model segmentasi instans hanya berfokus pada kelas semantik yang terkandung dalam gambar yang dapat dihitung: entitas dan objek seperti orang, hewan, pohon, mobil, atau hidran. Alat ini mendeteksi setiap objek, atau instans, dan kemudian mengeluarkan penutup segmentasi dan tag pengenal spesifik untuk masing-masing objek. Model segmentasi panoptik memerlukan kedua jenis informasi: model ini melakukan segmentasi semantik dan mendeteksi serta menyegmentasikan instans objek individual, memberikan analisis gambar yang lebih lengkap dengan memberikan setiap piksel label semantik dan (jika sesuai) pengenal instans yang unik.

Ikuti tur IBM® watsonx.data

Lihat cara Anda dapat menskalakan beban kerja AI, untuk semua data Anda, di mana saja.

Konten terkait

Berlangganan buletin IBM

Mengapa segmentasi gambar semantik penting?

Tugas segmentasi semantik membantu mesin membedakan berbagai kelas objek dan wilayah latar belakang dalam sebuah gambar. Dengan munculnya kecerdasan buatan (AI) dan pembelajaran mesin (ML)segmentasi gambar dan pembuatan peta segmentasi memainkan peran penting dalam melatih komputer untuk mengenali konteks penting dalam gambar digital seperti lanskap, foto orang, gambar medis, dan banyak lagi.

Model pembelajaran segmentasi gambar memungkinkan mesin untuk menafsirkan informasi visual yang mirip dengan otak manusia. Sementara model segmentasi gambar sama-sama menggunakan model deteksi objek, mereka berbeda dalam aspek kritis: Mereka mengidentifikasi entitas yang berbeda yang terkandung dalam gambar pada tingkat piksel, daripada memperkirakan informasi itu dengan kotak pembatas. Pada dasarnya, sementara model klasifikasi gambar dapat menentukan apa yang terkandung dalam gambar (tetapi tidak melakukan lokalisasi apa pun), dan model deteksi objek dapat menentukan di mana dalam gambar objek berada, untuk menentukan bentuk dan batas spesifik entitas dalam gambar memerlukan model segmentasi gambar.¹

Dengan meningkatnya keberhasilan algoritme pembelajaran mendalam dalam membantu mesin menginterpretasikan gambar sebagai data, mesin menjadi semakin baik dalam mengidentifikasi objek. Sementara tugas klasifikasi gambar membantu mesin memahami informasi apa yang terkandung dalam sebuah gambar, segmentasi semantik memungkinkan mesin mengidentifikasi lokasi yang tepat dari berbagai jenis informasi visual, serta di mana masing-masing dimulai dan diakhiri.

Bagaimana cara kerja segmentasi semantik?

Model segmentasi semantik membuat peta segmentasi gambar input. Peta segmentasi pada dasarnya adalah rekonstruksi gambar asli di mana setiap piksel diberi kode warna berdasarkan kelas semantiknya untuk membuat penutup segmentasi. Penutup segmentasi hanyalah bagian gambar yang sudah dibedakan dari bagian gambar lainnya. Sebagai contoh, peta segmentasi pohon di bidang kosong kemungkinan akan berisi tiga penutup segmentasi: satu untuk pohon, satu untuk tanah, dan satu untuk langit di latar belakang.

Untuk melakukannya, model segmentasi semantik menggunakan jaringan neural untuk mengelompokkan piksel terkait secara akurat ke dalam penutup segmentasi dan mengenali kelas semantik dunia nyata dengan benar untuk setiap kelompok piksel (atau segmen). Metode pembelajaran mendalam (DL) ini membutuhkan model untuk dilatih pada set data berlabel besar yang telah dianotasi oleh pakar manusia, menyesuaikan bobot dan biasnya melalui teknik pembelajaran mesin seperti propagasi mundur dan penurunan gradien.

Metode DL telah menggantikan algoritme pembelajaran mesin "tradisional" lainnya, seperti Support Vector Machines (SVM) dan Random Forest. Meskipun jaringan neural mendalam membutuhkan lebih banyak waktu, data, dan sumber daya komputasi untuk dilatih, metode ini mengungguli metode lain dan dengan cepat menjadi pendekatan yang dipilih setelah inovasi awal terbukti berhasil.

Penggunaan kumpulan data untuk pelatihan

Tugas mengklasifikasikan data gambar secara akurat memerlukan kumpulan data yang terdiri dari nilai piksel yang merepresentasikan penutup untuk objek atau label kelas yang berbeda yang terdapat dalam gambar. Biasanya, karena kompleksitas data pelatihan yang terlibat dalam segmentasi gambar, kumpulan data semacam ini lebih besar dan lebih kompleks daripada kumpulan data pembelajaran mesin lainnya.

Banyak kumpulan data segmentasi gambar open source tersedia, mencakup berbagai kelas semantik dengan ribuan contoh dan anotasi terperinci untuk masing-masing. Misalnya, bayangkan masalah segmentasi di mana visi komputer dalam mobil tanpa pengemudi diajarkan untuk mengenali semua berbagai objek yang perlu direm, seperti pejalan kaki, sepeda, dan mobil lain. Visi komputer mobil harus dilatih untuk secara konsisten mengenali semuanya atau mungkin tidak selalu menyuruh mobil untuk mengerem; Pelatihannya juga harus sangat akurat dan tepat, atau mungkin terus-menerus mengerem setelah secara keliru mengklasifikasikan visual yang tidak berbahaya sebagai objek yang menjadi perhatian.

Berikut ini adalah beberapa kumpulan data sumber terbuka yang lebih populer yang digunakan dalam segmentasi gambar dan semantik:

Pascal Visual Object Classes (Pascal VOC): Kumpulan data Pascal VOC terdiri dari berbagai kelas objek, kotak pembatas, dan peta segmentasi yang kuat.

MS COCO: MS COCO berisi sekitar 330.000 gambar dan anotasi untuk berbagai tugas, termasuk deteksi, segmentasi, dan keterangan gambar.

Pemandangan kota: Kumpulan data lanskap kota populer menafsirkan data dari lingkungan perkotaan dan terdiri dari 5.000 gambar dengan 20.000 anotasi dan 30 label kelas.

Model segmentasi semantik

Model yang terlatih menuntut arsitektur yang kuat agar dapat berfungsi dengan baik. Berikut beberapa model segmentasi semantik yang banyak digunakan.

Jaringan konvolusional penuh (FCN)

Jaringan konvolusi penuh (FCN) adalah arsitektur jaringan neural mutakhir yang digunakan untuk segmentasi semantik yang bergantung pada beberapa lapisan konvolusi yang terhubung. Sementara arsitektur CNN tradisional terdiri dari lapisan konvolusi dan lapisan datar yang menghasilkan label tunggal, model FCN menggantikan beberapa lapisan datar tersebut dengan blok konvolusi 1:1 yang dapat mengekstrak lebih banyak informasi lebih lanjut tentang gambar. Menghindari penggunaan lapisan datar dan lebih padat untuk mendukung lapisan konvolusi, pengumpulan atau upsampling membuat jaringan FCN lebih mudah dilatih.

Upsampling dan downsampling: Saat jaringan mengumpulkan lebih banyak lapisan konvolusi, ukuran gambar akan berkurang, sehingga menghasilkan lebih sedikit informasi spasial serta informasi tingkat piksel, suatu proses yang diperlukan yang dikenal sebagai downsampling. Pada akhir proses ini, teknisi data melakukan pengoptimalan gambar dengan memperluas, atau upsampling, peta fitur yang telah dibuat kembali ke bentuk gambar input.
Max-pooling: Max-pooling adalah alat bantu penting lainnya dalam proses mengekstraksi informasi dari bagian gambar dan menganalisisnya. Max-pooling memilih elemen terbesar di wilayah yang sedang dianalisis sehingga outputnya dapat menghasilkan peta fitur yang berisi fitur yang paling menonjol dari peta fitur sebelumnya.

U-Nets

Arsitektur U-Net adalah modifikasi dari arsitektur FCN asli yang diperkenalkan pada tahun 2015 dan secara konsisten mencapai hasil yang lebih baik. Arsitektur ini terdiri dari dua bagian, enkoder, dan dekoder. Sementara encoder menumpuk lapisan konvolusional yang secara konsisten downsampling gambar untuk mengekstrak informasi darinya, decoder membangun kembali fitur gambar menggunakan proses dekonvolusi. Arsitektur U-net terutama digunakan dalam bidang medis untuk mengidentifikasi tumor kanker dan non-kanker di paru-paru dan otak.

Koneksi loncat atau skip-connection: Inovasi penting yang diperkenalkan pada FCN oleh U-Net dikenal sebagai skip-connections, yang digunakan untuk menghubungkan output dari satu lapisan konvolusi ke lapisan lain yang tidak berdekatan. Proses melewatkan koneksi ini mengurangi kehilangan data selama downsampling, sehingga memungkinkan output dengan resolusi yang lebih tinggi. Setiap lapisan konvolusi secara independen di-upsampling dan digabungkan dengan fitur dari lapisan lain hingga hasil akhir secara akurat mewakili gambar yang sedang dianalisis.

DeepLab

Model segmentasi semantik DeepLab dikembangkan oleh Google pada tahun 2015 untuk lebih meningkatkan arsitektur FCN asli dan memberikan hasil yang lebih tepat. Meskipun tumpukan lapisan dalam model FCN mengurangi resolusi gambar secara signifikan, arsitektur DeepLab menggunakan proses yang disebut konvolusi atrofi untuk meningkatkan sampel data. Dengan proses konvolusi atrofi, kernel konvolusi dapat menghapus informasi dari suatu gambar dan meninggalkan celah di antara parameter kernel.

Pendekatan DeepLab untuk konvolusi dilatasi menarik data dari bidang pandang yang lebih besar sambil tetap mempertahankan resolusi yang sama. Ruang fitur kemudian ditarik melalui algoritme medan acak bersyarat (CRF) yang terhubung sepenuhnya, sehingga lebih banyak detail dapat ditangkap dan dimanfaatkan untuk fungsi kehilangan piksel, menghasilkan penutup segmentasi yang lebih jernih dan akurat.

Jaringan Parsing Pemandangan Piramida (PSPNet)

Pada tahun 2017, algoritme segmentasi baru untuk segmentasi gambar diperkenalkan. PSPNet menerapkan modul parsing piramida yang mengumpulkan kumpulan data gambar kontekstual pada tingkat akurasi yang lebih tinggi daripada pendahulunya. Seperti pendahulunya, arsitektur PSPNet menggunakan pendekatan encoder-decoder, tetapi di mana DeepLab menerapkan upscaling untuk membuat perhitungan tingkat pikselnya, PSPNet menambahkan lapisan penyatuan piramida baru untuk mencapai hasilnya. Penyatuan multi-skala PSPNet memungkinkannya untuk menganalisis jendela informasi gambar yang lebih luas daripada model lainnya.

Kasus penggunaan segmentasi semantik

Kendaraan otonom

Mobil yang mengemudi sendiri menggunakan segmentasi semantik untuk melihat dunia di sekitar mereka dan bereaksi terhadapnya secara real-time. Segmentasi semantik memisahkan apa yang dilihat mobil ke dalam wilayah visual yang dikategorikan seperti jalur di jalan, mobil lain dan persimpangan. Pengetahuan yang diberikan kepada mobil melalui segmentasi semantik memungkinkannya untuk menavigasi dengan aman dan mencapai tujuannya serta mengambil tindakan penting dalam menanggapi peristiwa tak terduga seperti pejalan kaki yang menyeberang jalan atau pengereman mobil lain secara tiba-tiba.

Diagnostik medis

Banyak prosedur medis yang umum dilakukan seperti CT scan, sinar-X, dan MRI yang mengandalkan analisis gambar. Meskipun tugas ini biasanya menjadi tanggung jawab seorang profesional medis di masa lalu, namun saat ini, model segmentasi gambar medis mencapai hasil yang serupa. Dengan menganalisis gambar dan menggambar batas-batas yang tepat di sekitar berbagai objek di dalamnya, AI yang dilengkapi dengan segmentasi semantik dapat membantu mendeteksi anomali dan bahkan menyarankan diagnosis potensial.

Pertanian

Para petani menggunakan AI, otomatisasi, dan segmentasi semantik untuk membantu mendeteksi hama pada tanaman mereka dan bahkan mengotomatiskan penyemprotan pestisida. Penglihatan komputer dapat memberi tahu petani bagian mana dari ladang yang berpotensi terinfeksi atau berisiko, dan sistem otomatis dapat mengambil tindakan untuk membasmi hama.

Fotografi

Segmentasi semantik sering digunakan untuk memungkinkan kamera beralih antara mode potret dan lanskap, menambah atau menghapus filter atau membuat pengaruh. Semua filter dan fitur populer di aplikasi seperti Instagram dan TikTok menggunakan segmentasi semantik untuk mengidentifikasi mobil, bangunan, hewan, dan objek lainnya sehingga filter atau efek yang dipilih dapat diterapkan.

Solusi segmentasi semantik

Data dan AI

IBM® watsonx.data

Segmentasi semantik dan segmentasi gambar memainkan peran penting dalam pemrosesan gambar untuk beban kerja AI. IBM® watsonx.data: memanfaatkan beberapa alat dan teknologi sumber terbuka AI utama dan menggabungkannya dengan inovasi penelitian IBM untuk memungkinkan alur kerja AI yang kuat dan efisien untuk perusahaan modern.

Pelajari lebih lanjut tentang IBM® watsonx.data

Sumber daya terkait

IBM akan membantu bisnis meningkatkan beban kerja AI

Ketahui lebih lanjut tentang IBM® watsonx.data, sebuah penyimpanan data yang membantu perusahaan dengan mudah menyatukan dan mengatur data terstruktur dan tidak terstruktur.

IBM® watsonx.data: Penyimpanan data terbuka, hybrid, dan teratur

Temukan bagaimana IBM® watsonx.data membantu perusahaan mengatasi tantangan lingkungan data yang kompleks saat ini dan menskalakan AI agar sesuai dengan kebutuhan mereka.

AI dalam prospek pasar visi komputer (2021-2022)

Temukan lebih lanjut tentang cara AI membantu mengatur informasi dan menciptakan hasil dalam lingkungan komputer.

AI vs. pembelajaran mesin vs. pembelajaran mendalam vs. jaringan neural: Apa bedanya?

Pelajari lebih lanjut tentang perbedaan antara istilah-istilah kunci yang terlibat dalam mengajarkan komputer untuk memahami dan memproses informasi visual.

Ambil langkah selanjutnya

Dapatkan kemampuan yang Anda perlukan dengan IBM® watsonx.data, penyimpanan data yang terbuka, hybrid, dan teratur untuk meningkatkan beban kerja AI, untuk semua data Anda, di mana saja.

Temukan IBM® watsonx.data

Catatan kaki

¹"Pembelajaran Mesin Praktis untuk Visi Komputer" (tautan berada di luar ibm.com), Lakshmanan, Valliappa, Gorner, Martin and Gillard, Ryan, O'Reilly Media, Juli 2021