Software

Transkripsi suara Microsoft yang didukung AI di Word Online mengubah wawancara 11 menit menjadi 1.935 kata dalam 10 menit

Transkripsi suara Microsoft yang didukung AI di Word Online mengubah wawancara 11 menit menjadi 1.935 kata dalam 10 menit


Selama bertahun-tahun saya telah melakukan sejumlah wawancara di techAU dan salah satu proses yang paling menyakitkan adalah mentranskripsikan wawancara dari audio menjadi teks.

Jelas, ketika Anda mengutip CEO, Anda harus benar-benar akurat dan itu biasanya membutuhkan mendengarkan, kemudian mendengarkan kembali dan mendengarkan lagi.

Ini berarti wawancara setengah jam, bisa memakan waktu lebih dari satu jam untuk membuat transkrip. Begitu menyakitkan proses ini, sehingga banyak jurnalis beralih ke layanan berbayar, yang menyerahkan pekerjaan itu kepada seseorang yang menukar waktu mereka dengan dolar.

Untungnya pada tahun 2020, kami memiliki beberapa teknologi baru untuk membantu kami mengatasi tantangan transkripsi suara ke teks.

Microsoft telah menambahkan fitur baru yang hebat ke Word Online, kemampuan untuk mentranskripsikan audio menggunakan Azure Cognitive Services AI Platform.

Ini berfungsi baik dengan merekam audio langsung ke Word online, atau mengunggah file audio yang ada (yaitu dari ponsel Anda) yang kemudian diproses oleh layanan cloud Microsoft.

Azure Cognitive Services mencakup berbagai disiplin ilmu termasuk Pencarian Keputusan, Bahasa, Ucapan, Visi, dan Web. Microsoft menjual layanan ini kepada pengembang yang biasanya mengintegrasikan keajaiban ini ke dalam aplikasi mereka.

Integrasi Word dari Speech to Text tersedia secara gratis di Word online, yang memberikan jendela bagus tentang apa yang mungkin dilakukan dengan platform lainnya.

Microsoft melatih model ucapan untuk mengenali kata, frasa, dan kalimat, tetapi juga mampu memahami terminologi khusus organisasi dan industri.

Jelas tidak setiap perekaman dilakukan dengan kualitas belajar, lebih sering dilakukan di lingkungan yang sangat bising sehingga AI harus mengatasi hambatan seperti kebisingan latar belakang, aksen, atau kosa kata yang unik. Microsoft mengatakan mereka memiliki transkripsi yang canggih, berkualitas tinggi dan akurat dan yang hebat adalah, kami dapat mengujinya.

Praktik dengan Transkripsi Suara Word Online

Kembali pada tahun 2016, saya mendapat kesempatan untuk mewawancarai Toto Wolff dari tim Formula 1 Mercedes-Benz yang sukses, di Melbourne Grand Prix. Audio direkam di ponsel saya, di paddock pit lane, dengan banyak kebisingan sekitar. Saya duduk di seberang meja dari Toto, dan audionya mungkin adalah contoh yang bagus dari skenario terburuk.

Mengunggah file MP3 10Mb 11 menit, membutuhkan waktu sekitar 10 menit untuk memproses dan mengembalikan transkripsi. Kembali adalah daftar paragraf berkode waktu (pertanyaan dan jawaban) yang juga muncul sebagai pembicara yang diidentifikasi.

Yang sangat saya sukai adalah kemampuan untuk mengganti nama setiap pembicara dan cukup centang kotak untuk mengganti nama semua transkripsi lain yang diidentifikasi oleh pembicara tersebut. Ini secara dramatis mempercepat tingkat di mana Anda dapat mengekstrak pertanyaan dan jawaban dengan cepat, mengklik plus untuk menambahkan segmen itu ke dokumen kata.

Jika Anda melakukan wawancara multi-pihak, Anda dapat dengan mudah mengekstrak hanya pertanyaan dan jawaban subjek. Anda juga dapat menggunakan ini untuk mentranskripsikan rekaman podcast di mana Anda ingin semua teks ditambahkan ke dokumen. Microsoft telah membuatnya mudah dengan tombol sederhana di bagian bawah ‘Tambahkan semua ke dokumen’.

Hal lain yang sangat saya hargai adalah kemampuan untuk mengubah kecepatan pemutaran antara kecepatan 0,5x dan 2x, memungkinkan Anda untuk mempercepat, atau memperlambat pemutaran orang yang berbicara terlalu lambat, atau terlalu cepat. Ini juga dapat membantu mempercepat terjemahan.

Satu area yang dapat ditingkatkan Microsoft untuk fitur Transkripsi baru ini, adalah kemampuan untuk mengalokasikan gaya secara massal ke nama Speaker, setelah ditambahkan ke dokumen.

Untuk sebagian besar, terjemahannya sangat bagus dalam keakuratannya, dengan kehilangan terbesar adalah nama Suzie yang diterjemahkan ke CZ yang agak bisa dimengerti. Bahkan harus membuat beberapa koreksi kecil, Anda jauh sebelumnya yang Anda anggap ini baru saja menerjemahkan wawancara 11:25 menjadi 1.935 kata dalam waktu sekitar 10 menit.

Ini adalah demonstrasi dramatis tentang betapa kuatnya layanan cloud Microsoft ketika diintegrasikan ke dalam aplikasi dan memamerkannya di produk mereka sendiri adalah langkah besar Microsoft.

Setelah sekarang menggunakan ini, dan melihat seberapa baik kerjanya, saya sangat menginginkan ini di WordPress, itu akan secara dramatis mengubah kemampuan penulis untuk mengekstrak konten audio dan mempercepat alur kerja yang menghemat waktu dan uang.

Informasi selengkapnya di blog Microsoft 365.

Dipublikasikan oleh : Data Sidney