JAKARTA – Perusahaan teknologi Apple mengembangkan model kecerdasan buatan (AI) terbaru bernama “Sharp” yang memiliki kemampuan mengonversi gambar dua dimensi menjadi visual tiga dimensi yang tampak realistis.
Proses tersebut dapat dilakukan oleh model AI ini dalam waktu kurang dari satu detik.
Melalui studi berjudul “Sharp Monocular View Synthesis in Less Than a Second”, Apple menjelaskan bahwa Sharp dirancang untuk menghasilkan visual 3D dengan kecepatan tinggi dan tingkat akurasi yang mumpuni.
Hasil gambar yang dihasilkan memiliki dimensi yang proporsional, menyerupai tampilan objek di dunia nyata. Dalam riset tersebut, Apple juga menunjukkan kemampuan Sharp dalam mengolah foto biasa menjadi gambar 3D.
Visual yang dihasilkan terlihat cukup nyata, bahkan detail kecil seperti bulu pada hewan dapat ditampilkan dengan jelas, mendekati tampilan objek aslinya.
Secara teknis, para peneliti menjelaskan bahwa Sharp memanfaatkan pendekatan 3D berbasis Gaussian untuk mengubah satu gambar menjadi representasi ruang tiga dimensi.
Model AI ini membangun adegan dari jutaan titik cahaya virtual, kemudian memprosesnya melalui satu kali komputasi dalam jaringan saraf. Dengan cara ini, rekonstruksi 3D dapat diselesaikan dalam waktu kurang dari satu detik.
"Representasi Gaussian 3D yang dihasilkan Sharp dapat dirender secara real-time untuk menghasilkan gambar fotorealistik beresolusi tinggi dari sudut pandang yang berdekatan,” ucap tim peneliti Apple.
Kemampuan Sharp dinilai cukup menonjol. Pasalnya, pembuatan adegan 3D pada umumnya memerlukan puluhan hingga ratusan foto dari berbagai sudut pandang.
Sementara itu, Sharp dirancang agar mampu membangun satu lingkungan 3D hanya dengan memanfaatkan satu foto. Untuk mewujudkan hal tersebut, Apple melatih Sharp menggunakan gabungan data sintetis serta gambar dunia nyata dalam skala besar.
Melalui proses pelatihan tersebut, Sharp mempelajari pola kedalaman dan bentuk yang sering muncul dalam berbagai kondisi.
Ketika menerima foto baru, Sharp akan memperkirakan jarak antarobjek, menyempurnakan perhitungan berdasarkan pembelajaran sebelumnya, lalu menentukan posisi serta karakteristik jutaan titik Gaussian 3D secara bersamaan.
Mekanisme inilah yang membuat proses rekonstruksi 3D dapat berlangsung dengan sangat cepat. Apple juga mengklaim bahwa Sharp menunjukkan peningkatan yang cukup besar dibandingkan model sebelumnya.
Hal ini tercermin dari penurunan metrik kesalahan visual seperti LPIPS hingga 25–34 persen dan DISTS sebesar 21–43 persen, sekaligus memangkas waktu sintesis hingga ribuan kali lebih cepat.
Adapun keterbatasan Sharp saat ini terletak pada sudut pandang virtual yang dihasilkan, yang masih optimal jika berada dekat dengan posisi kamera asli.
Model AI ini tidak menciptakan bagian baru dari adegan yang tidak tertangkap dalam foto, sehingga pergeseran sudut pandang yang terlalu jauh berpotensi menurunkan akurasi visual.
Misalnya, ketika menampilkan objek pada area yang tidak ada dalam gambar awal.
Meski memiliki keterbatasan tersebut, Apple memilih pendekatan ini untuk menjaga kecepatan pemrosesan sekaligus mempertahankan hasil visual 3D yang tetap realistis, seperti dirangkum dari Times of India.
Saat ini, Sharp sudah dapat diakses melalui platform GitHub. Sejumlah pengguna juga telah mencoba kemampuan Sharp dan membagikan hasilnya melalui media sosial X/Twitter.