Sumber Daya Satu Atap Baru untuk Anggota IEEE Life

Namun bahkan sekarang, setelah 150 tahun pengembangan, suara yang kita dengar bahkan dari sistem audio kelas atas jauh dari apa yang kita dengar saat kita hadir secara fisik di pertunjukan musik langsung. Pada acara seperti itu, kita berada dalam medan suara alami dan dapat dengan mudah melihat bahwa suara instrumen yang berbeda berasal dari lokasi yang berbeda, bahkan ketika medan suara tersebut disilangkan dengan suara campuran dari beberapa instrumen. Ada alasan mengapa orang membayar mahal untuk mendengarkan musik live: Ini lebih menyenangkan, mengasyikkan, dan dapat menghasilkan dampak emosional yang lebih besar.

Saat ini, para peneliti, perusahaan, dan pengusaha, termasuk kami, akhirnya mendekati rekaman audio yang benar-benar menciptakan kembali medan suara yang alami. Grup ini mencakup perusahaan besar, seperti Apple dan Sony, serta perusahaan kecil, seperti
Kreatif. Netflix baru-baru ini mengungkapkan kemitraan dengan Sennheiser di mana jaringan telah mulai menggunakan sistem baru, Ambeo 2-Channel Spatial Audio, untuk meningkatkan realisme sonik dari acara TV seperti “Hal-hal Asing” dan “Sang Penyihir.”

Sekarang ada setidaknya setengah lusin pendekatan berbeda untuk menghasilkan audio yang sangat realistis. Kami menggunakan istilah “soundstage” untuk membedakan karya kami dari format audio lainnya, seperti yang disebut sebagai audio spasial atau audio imersif. Ini dapat mewakili suara dengan lebih banyak efek spasial daripada stereo biasa, tetapi biasanya tidak menyertakan petunjuk lokasi sumber suara terperinci yang diperlukan untuk mereproduksi medan suara yang benar-benar meyakinkan.

Kami percaya bahwa panggung suara adalah masa depan perekaman dan reproduksi musik. Tetapi sebelum revolusi besar-besaran dapat terjadi, akan diperlukan untuk mengatasi hambatan yang sangat besar: yaitu dengan mudah dan murah mengonversi rekaman yang ada selama berjam-jam yang tak terhitung jumlahnya, terlepas dari apakah itu suara surround mono, stereo, atau multichannel (5.1, 7.1 , dan seterusnya). Tidak ada yang tahu persis berapa banyak lagu yang telah direkam, tetapi menurut perhatian metadata hiburan Gracenote, lebih dari 200 juta lagu yang direkam sekarang tersedia di planet Bumi. Mengingat bahwa durasi rata-rata sebuah lagu adalah sekitar 3 menit, ini setara dengan sekitar 1.100 tahun musik.

Itu adalah banyak musik. Setiap upaya untuk mempopulerkan format audio baru, tidak peduli seberapa menjanjikannya, pasti akan gagal kecuali jika menyertakan teknologi yang memungkinkan kita mendengarkan semua audio yang ada ini dengan kemudahan dan kenyamanan yang sama dengan yang sekarang kita nikmati musik stereo—di rumah kita, di pantai, di kereta api, atau di dalam mobil.

Kami telah mengembangkan teknologi seperti itu. Sistem kami, yang kami sebut Panggung Suara 3D, memungkinkan pemutaran musik di panggung suara pada ponsel cerdas, speaker biasa atau pintar, headphone, earphone, laptop, TV, soundbar, dan di kendaraan. Tidak hanya dapat mengubah rekaman mono dan stereo menjadi panggung suara, ini juga memungkinkan pendengar tanpa pelatihan khusus untuk mengkonfigurasi ulang bidang suara sesuai dengan preferensi mereka sendiri, menggunakan antarmuka pengguna grafis. Misalnya, seorang pendengar dapat menetapkan lokasi masing-masing instrumen dan sumber suara vokal dan menyesuaikan volume masing-masing—mengubah volume relatif, katakanlah, vokal dibandingkan dengan iringan instrumental. Sistem melakukan ini dengan memanfaatkan kecerdasan buatan (AI), realitas virtual, dan pemrosesan sinyal digital (lebih lanjut tentang itu segera).

Untuk menciptakan kembali dengan meyakinkan suara yang berasal dari, katakanlah, kuartet gesek di dua speaker kecil, seperti yang tersedia di sepasang headphone, membutuhkan banyak kemahiran teknis. Untuk memahami bagaimana hal ini dilakukan, mari kita mulai dengan cara kita memahami suara.

Saat suara merambat ke telinga Anda, karakteristik unik kepala Anda—bentuk fisiknya, bentuk telinga luar dan dalam, bahkan bentuk rongga hidung—mengubah spektrum audio dari suara aslinya. Juga, ada sedikit perbedaan waktu kedatangan dari sumber suara ke kedua telinga Anda. Dari perubahan spektral dan perbedaan waktu ini, otak Anda merasakan lokasi sumber suara. Perubahan spektral dan perbedaan waktu dapat dimodelkan secara matematis sebagai: fungsi transfer terkait kepala (HRTFs). Untuk setiap titik dalam ruang tiga dimensi di sekitar kepala Anda, ada sepasang HRTF, satu untuk telinga kiri dan satu lagi untuk kanan.

Jadi, dengan sepotong audio, kita dapat memproses audio itu menggunakan sepasang HRTF, satu untuk telinga kanan, dan satu untuk kiri. Untuk menciptakan kembali pengalaman asli, kita perlu memperhitungkan lokasi sumber suara relatif terhadap mikrofon yang merekamnya. Jika kita kemudian memutar kembali audio yang telah diproses itu, misalnya melalui sepasang headphone, pendengar akan mendengar audio dengan isyarat asli, dan merasakan bahwa suara itu berasal dari arah asal rekaman itu.

Jika kami tidak memiliki informasi lokasi asli, kami cukup menetapkan lokasi untuk masing-masing sumber suara dan pada dasarnya mendapatkan pengalaman yang sama. Pendengar tidak mungkin melihat perubahan kecil dalam penempatan pemain—bahkan, mereka mungkin lebih memilih konfigurasi mereka sendiri.

Bahkan sekarang, setelah 150 tahun pengembangan, suara yang kita dengar bahkan dari sistem audio kelas atas jauh dari apa yang kita dengar saat kita hadir secara fisik di pertunjukan musik langsung.

Ada banyak aplikasi komersial yang menggunakan HRTFs untuk menciptakan suara spasial bagi pendengar menggunakan headphone dan earphone. Salah satu contohnya adalah Apple Spasialisasi Stereo. Teknologi ini menerapkan HRTF untuk memutar audio sehingga Anda dapat merasakan efek suara spasial—bidang suara yang lebih dalam yang lebih realistis daripada stereo biasa. Apple juga menawarkan versi pelacak kepala yang menggunakan sensor pada iPhone dan AirPods untuk melacak arah relatif antara kepala Anda, seperti yang ditunjukkan oleh AirPods di telinga Anda, dan iPhone Anda. Ini kemudian menerapkan HRTF yang terkait dengan arah iPhone Anda untuk menghasilkan suara spasial, sehingga Anda merasakan bahwa suara itu berasal dari iPhone Anda. Ini bukan apa yang kami sebut audio panggung suara, karena suara instrumen masih bercampur. Anda tidak dapat melihat bahwa, misalnya, pemain biola berada di sebelah kiri pemain biola.

Namun, Apple memiliki produk yang mencoba menyediakan audio panggung: Audio Spasial Apple. Ini adalah peningkatan yang signifikan dibandingkan stereo biasa, tetapi masih memiliki beberapa kesulitan, dalam pandangan kami. Satu, itu menggabungkan Dolby Atmos, teknologi surround-sound yang dikembangkan oleh Dolby Laboratories. Audio Spasial menerapkan seperangkat HRTF untuk membuat audio spasial untuk headphone dan earphone. Namun, penggunaan Dolby Atmos berarti bahwa semua musik stereoponis yang ada harus di-remaster untuk teknologi ini. Remaster dari jutaan lagu yang sudah direkam dalam mono dan stereo pada dasarnya tidak mungkin. Masalah lain dengan Audio Spasial adalah hanya dapat mendukung headphone atau earphone, bukan speaker, sehingga tidak bermanfaat bagi orang yang cenderung mendengarkan musik di rumah dan mobil mereka.

Jadi bagaimana? sistem kami mencapai audio panggung suara yang realistis? Kita mulai dengan menggunakan pembelajaran mesin perangkat lunak untuk memisahkan audio menjadi beberapa trek yang terisolasi, masing-masing mewakili satu instrumen atau penyanyi atau satu kelompok instrumen atau penyanyi. Proses pemisahan ini disebut upmixing. Produser atau bahkan pendengar tanpa pelatihan khusus kemudian dapat menggabungkan kembali beberapa trek untuk membuat ulang dan mempersonalisasi bidang suara yang diinginkan.

Pertimbangkan sebuah lagu yang menampilkan kuartet yang terdiri dari gitar, bass, drum, dan vokal. Pendengar dapat memutuskan di mana “menempatkan” para pemain dan dapat menyesuaikan volume masing-masing, sesuai dengan preferensi pribadinya. Menggunakan layar sentuh, pendengar dapat secara virtual mengatur lokasi sumber suara dan posisi pendengar di bidang suara, untuk mencapai konfigurasi yang menyenangkan. Antarmuka pengguna grafis menampilkan bentuk yang mewakili panggung, yang di atasnya terdapat ikon yang menunjukkan sumber suara—vokal, drum, bass, gitar, dan sebagainya. Ada ikon kepala di tengah, yang menunjukkan posisi pendengar. Pendengar dapat menyentuh dan menyeret ikon kepala di sekitar untuk mengubah bidang suara sesuai dengan preferensi mereka sendiri.

Memindahkan ikon kepala lebih dekat ke drum membuat suara drum lebih menonjol. Jika pendengar memindahkan ikon kepala ke ikon yang mewakili instrumen atau penyanyi, pendengar akan mendengar pemain itu sebagai solo. Intinya adalah bahwa dengan memungkinkan pendengar untuk mengkonfigurasi ulang bidang suara, Soundstage 3D menambahkan dimensi baru (jika Anda memaafkan permainan kata-kata) untuk menikmati musik.

Audio panggung suara yang dikonversi dapat dalam dua saluran, jika dimaksudkan untuk didengar melalui headphone atau sistem saluran kiri dan kanan biasa. Atau bisa multichannel, jika ditujukan untuk pemutaran pada sistem multi-speaker. Dalam kasus terakhir ini, bidang audio panggung suara dapat dibuat oleh dua, empat, atau lebih speaker. Jumlah sumber suara yang berbeda di bidang suara yang dibuat ulang bahkan bisa lebih besar dari jumlah speaker.

Pendekatan multisaluran ini tidak boleh disamakan dengan yang biasa 5.1 dan 7.1 suara surround. Ini biasanya memiliki lima atau tujuh saluran terpisah dan speaker untuk masing-masing, ditambah subwoofer (“.1”). Beberapa pengeras suara menciptakan medan suara yang lebih mendalam daripada pengaturan stereo dua speaker standar, tetapi mereka masih jauh dari kenyataan yang mungkin terjadi dengan rekaman panggung suara yang sebenarnya. Saat diputar melalui pengaturan multisaluran seperti itu, rekaman Soundstage 3D kami melewati format 5.1, 7.1, atau format audio khusus lainnya, termasuk standar kompresi audio multitrack.

Sepatah kata tentang standar ini. Untuk menangani data dengan lebih baik untuk aplikasi suara surround dan audio imersif yang lebih baik, standar baru telah dikembangkan baru-baru ini. Ini termasuk standar audio MPEG-H 3D untuk audio spasial imersif dengan Spatial Audio Object Coding (SAOC). Standar baru ini menggantikan berbagai format audio multisaluran dan algoritme pengkodeannya yang sesuai, seperti Dolby Digital AC-3 dan DTS, yang dikembangkan beberapa dekade lalu.

Saat mengembangkan standar baru, para ahli harus mempertimbangkan berbagai persyaratan dan fitur yang diinginkan. Orang ingin berinteraksi dengan musik, misalnya dengan mengubah volume relatif dari kelompok instrumen yang berbeda. Mereka ingin mengalirkan berbagai jenis multimedia, melalui berbagai jenis jaringan, dan melalui konfigurasi speaker yang berbeda. SAOC dirancang dengan mempertimbangkan fitur-fitur ini, memungkinkan file audio disimpan dan diangkut secara efisien, sambil mempertahankan kemungkinan bagi pendengar untuk menyesuaikan campuran berdasarkan selera pribadi mereka.

Untuk melakukannya, bagaimanapun, itu tergantung pada berbagai teknik pengkodean standar. Untuk membuat file, SAOC menggunakan encoder. Input ke encoder adalah file data yang berisi trek suara; setiap trek adalah file yang mewakili satu atau lebih instrumen. Encoder pada dasarnya memampatkan file data, menggunakan teknik standar. Selama pemutaran, dekoder di sistem audio Anda menerjemahkan file, yang kemudian diubah kembali ke sinyal suara analog multisaluran oleh konverter digital-ke-analog.

Teknologi Soundstage 3D kami melewati ini. Kami menggunakan file data audio mono atau stereo atau multichannel sebagai input. Kami memisahkan file atau aliran data tersebut menjadi beberapa trek dari sumber suara yang terisolasi, dan kemudian mengonversi trek tersebut menjadi keluaran dua saluran atau multisaluran, berdasarkan konfigurasi pilihan pendengar, untuk menggerakkan headphone atau beberapa pengeras suara. Kami menggunakan teknologi AI untuk menghindari perekaman ulang multitrack, encoding, dan decoding.

Bahkan, satu salah satu tantangan teknis terbesar yang kami hadapi dalam menciptakan sistem Soundstage 3D adalah menulis perangkat lunak pembelajaran mesin yang memisahkan (atau mencampur) rekaman mono, stereo, atau multisaluran konvensional menjadi beberapa trek yang terisolasi secara real time. Perangkat lunak ini berjalan pada jaringan syaraf. Kami mengembangkan pendekatan ini untuk pemisahan musik pada tahun 2012 dan menjelaskannya dalam paten yang diberikan di 2022 dan 2015 (nomor paten AS adalah 11.240.621 B2 dan 9.131.305 B2).

Pendengar dapat memutuskan di mana “menempatkan” para pemain dan dapat menyesuaikan volume masing-masing, sesuai dengan preferensi pribadinya.

Sesi tipikal memiliki dua komponen: pelatihan dan upmixing. Dalam sesi pelatihan, banyak koleksi lagu campuran, bersama dengan instrumen terisolasi dan trek vokal, masing-masing digunakan sebagai input dan output target, untuk jaringan saraf. Pelatihan menggunakan pembelajaran mesin untuk mengoptimalkan parameter jaringan saraf sehingga keluaran jaringan saraf—kumpulan trek individual dari instrumen dan data vokal yang terisolasi—sesuai dengan keluaran target.

Jaringan saraf sangat longgar dimodelkan di otak. Ini memiliki lapisan input node, yang mewakili neuron biologis, dan kemudian banyak lapisan perantara, yang disebut “lapisan tersembunyi.” Terakhir, setelah lapisan tersembunyi ada lapisan keluaran, di mana hasil akhir muncul. Dalam sistem kami, data yang diumpankan ke node input adalah data trek audio campuran. Saat data ini diproses melalui lapisan node tersembunyi, setiap node melakukan perhitungan yang menghasilkan jumlah nilai berbobot. Kemudian operasi matematika nonlinier dilakukan pada jumlah ini. Perhitungan ini menentukan apakah dan bagaimana data audio dari node tersebut diteruskan ke node di lapisan berikutnya.

Ada puluhan lapisan ini. Saat data audio berpindah dari lapisan ke lapisan, masing-masing instrumen secara bertahap dipisahkan satu sama lain. Pada akhirnya, di lapisan keluaran, setiap trek audio yang terpisah dikeluarkan pada sebuah simpul di lapisan keluaran.

Itulah idenya. Sementara jaringan saraf sedang dilatih, output mungkin melenceng. Ini mungkin bukan trek instrumental yang terisolasi—mungkin berisi elemen audio dari dua instrumen, misalnya. Dalam hal ini, bobot individu dalam skema pembobotan yang digunakan untuk menentukan bagaimana data berpindah dari node tersembunyi ke node tersembunyi di-tweak dan pelatihan dijalankan kembali. Pelatihan dan penyesuaian berulang ini berlangsung hingga output cocok, kurang lebih sempurna, output target.

Seperti halnya kumpulan data pelatihan untuk pembelajaran mesin, semakin banyak jumlah sampel pelatihan yang tersedia, semakin efektif pelatihan tersebut pada akhirnya. Dalam kasus kami, kami membutuhkan puluhan ribu lagu dan lagu instrumental terpisah untuk pelatihan; dengan demikian, total set data musik pelatihan adalah dalam ribuan jam.

Setelah jaringan saraf dilatih, diberi lagu dengan suara campuran sebagai input, sistem mengeluarkan beberapa trek yang terpisah dengan menjalankannya melalui jaringan saraf menggunakan sistem yang dibuat selama pelatihan.

Setelah memisahkan merekam ke trek komponennya, langkah selanjutnya adalah mencampurnya menjadi rekaman panggung suara. Ini dilakukan oleh prosesor sinyal panggung suara. Prosesor soundstage ini melakukan fungsi komputasi yang kompleks untuk menghasilkan sinyal output yang menggerakkan speaker dan menghasilkan audio soundstage. Input ke generator termasuk trek terisolasi, lokasi fisik speaker, dan lokasi yang diinginkan dari pendengar dan sumber suara di bidang suara yang dibuat ulang. Output dari prosesor soundstage adalah sinyal multitrack, satu untuk setiap saluran, untuk menggerakkan beberapa speaker.

Medan suara bisa dalam ruang fisik, jika dihasilkan oleh speaker, atau di ruang virtual, jika dihasilkan oleh headphone atau earphone. Fungsi yang dilakukan dalam prosesor panggung suara didasarkan pada akustik komputasi dan psikoakustik, dan ini memperhitungkan perambatan gelombang suara dan interferensi di bidang suara yang diinginkan dan HRTF untuk pendengar dan bidang suara yang diinginkan.

Misalnya, jika pendengar akan menggunakan earphone, generator memilih satu set HRTF berdasarkan konfigurasi lokasi sumber suara yang diinginkan, kemudian menggunakan HRTF yang dipilih untuk menyaring trek sumber suara yang terisolasi. Terakhir, prosesor panggung suara menggabungkan semua output HRTF untuk menghasilkan trek kiri dan kanan untuk earphone. Jika musik akan diputar ulang pada speaker, setidaknya diperlukan dua, tetapi semakin banyak speaker, semakin baik bidang suara. Jumlah sumber suara di bidang suara yang dibuat ulang bisa lebih atau kurang dari jumlah speaker.

Kami merilis aplikasi panggung suara pertama kami, untuk iPhone, pada tahun 2020. Aplikasi ini memungkinkan pendengar mengonfigurasi, mendengarkan, dan menyimpan musik panggung suara secara real time—pemrosesan tidak menyebabkan penundaan waktu yang jelas. Aplikasi yang disebut
Musik 3D, mengonversi musik stereo dari perpustakaan musik pribadi pendengar, cloud, atau bahkan streaming musik ke panggung suara secara real time. (Untuk karaoke, aplikasi dapat menghapus vokal, atau mengeluarkan instrumen apa pun yang terisolasi.)

Awal tahun ini, kami membuka portal Web,
3dsoundstage.com, yang menyediakan semua fitur aplikasi 3D Musica di cloud plus antarmuka pemrograman aplikasi (API) yang membuat fitur tersebut tersedia untuk penyedia musik streaming dan bahkan pengguna browser Web populer mana pun. Siapa pun sekarang dapat mendengarkan musik dalam audio panggung suara di perangkat apa pun.

Saat suara merambat ke telinga Anda, karakteristik unik kepala Anda—bentuk fisiknya, bentuk telinga luar dan dalam, bahkan bentuk rongga hidung—mengubah spektrum audio dari suara aslinya.

Kami juga mengembangkan versi terpisah dari perangkat lunak 3D Soundstage untuk kendaraan dan sistem audio rumah serta perangkat untuk membuat ulang bidang suara 3D menggunakan dua, empat, atau lebih speaker. Di luar pemutaran musik, kami memiliki harapan besar untuk teknologi ini dalam konferensi video. Banyak dari kita memiliki pengalaman melelahkan menghadiri konferensi video di mana kita mengalami kesulitan mendengar peserta lain dengan jelas atau bingung tentang siapa yang berbicara. Dengan soundstage, audio dapat dikonfigurasi sehingga setiap orang terdengar dari lokasi yang berbeda di ruang virtual. Atau “lokasi” dapat dengan mudah ditetapkan tergantung pada posisi orang tersebut dalam kisi-kisi khas Zoom dan aplikasi konferensi video lainnya. Bagi sebagian orang, setidaknya, konferensi video tidak terlalu melelahkan dan ucapan akan lebih mudah dipahami.

Sama seperti audio pindah dari mono ke stereo, dan dari stereo ke surround dan audio spasial, sekarang mulai pindah ke panggung suara. Di era sebelumnya, audiophiles mengevaluasi sistem suara dengan kesetiaannya, berdasarkan parameter seperti bandwidth,
distorsi harmonik, resolusi data, waktu respons, kompresi data lossless atau lossy, dan faktor terkait sinyal lainnya. Sekarang, panggung suara dapat ditambahkan sebagai dimensi lain untuk kesetiaan suara—dan, kami berani mengatakan, yang paling mendasar. Bagi telinga manusia, dampak panggung suara, dengan isyarat spasial dan kedekatan yang mencekam, jauh lebih signifikan daripada peningkatan inkremental dalam kesetiaan. Fitur luar biasa ini menawarkan kemampuan yang sebelumnya melampaui pengalaman audiophile yang paling kaya sekalipun.

Teknologi telah memicu revolusi sebelumnya dalam industri audio, dan sekarang meluncurkan revolusi lain. Kecerdasan buatan, realitas virtual, dan pemrosesan sinyal digital memanfaatkan psikoakustik untuk memberi para penggemar audio kemampuan yang belum pernah mereka miliki. Pada saat yang sama, teknologi ini memberi perusahaan rekaman dan artis alat baru yang akan menghidupkan kehidupan baru ke dalam rekaman lama dan membuka jalan baru untuk kreativitas. Akhirnya, tujuan berusia seabad untuk menciptakan kembali suara ruang konser secara meyakinkan telah tercapai.

Dari Artikel Situs Anda

Artikel Terkait di Sekitar Web