Rabu, 03 November 2010

Speech Synthesis

Pidato sintesis adalah produksi buatan ucapan manusia. Sebuah sistem komputer yang digunakan untuk tujuan ini disebut synthesizer pidato, dan dapat diimplementasikan dalam perangkat lunak atau perangkat keras. Sebuah teks-to-speech (TTS) sistem mengkonversi teks ke dalam pidato bahasa normal;. Sistem lain membuat representasi linguistik simbolik seperti transkripsi fonetik dalam pidato


pidato disintesis dapat dibuat dengan menggabungkan potongan pidato direkam yang disimpan dalam database. Sistem berbeda dalam ukuran unit pidato disimpan, sebuah sistem yang menyimpan telepon atau diphones menyediakan berbagai keluaran terbesar, tapi mungkin kurang jelas. Untuk domain penggunaan khusus, penyimpanan seluruh kata-kata atau kalimat memungkinkan untuk output berkualitas tinggi. Atau, synthesizer dapat menggabungkan model saluran vokal dan karakteristik suara manusia untuk membuat yang benar-benar "sintetik" output suara.

Kualitas synthesizer pidato dinilai oleh kesamaannya dengan suara manusia dan dengan kemampuannya untuk dipahami. Sebuah program text-to-speech dipahami memungkinkan orang dengan gangguan visual atau membaca cacat untuk mendengarkan karya tulis di komputer rumah. Banyak komputer operasi telah menyertakan synthesizer pidato sejak awal 1980-an.

Overview of text processing

Sebuah teks-ke sistem-pidato (atau "mesin") adalah terdiri dari dua bagian: front-end dan back-end. The front-end memiliki dua tugas utama. Pertama, mengkonversi teks mentah mengandung simbol seperti angka dan singkatan menjadi setara dengan kata-kata tertulis-out. Proses ini sering disebut teks normalisasi, pra-pengolahan, atau tokenization. The front-end kemudian memberikan transkripsi fonetik untuk setiap kata, dan membagi dan menandai teks ke unit prosodi, seperti frase, klausa, dan kalimat. Proses penempatan transkripsi fonetis kata-kata ini disebut konversi text-to-fonem atau grafem-ke-fonem. transkripsi Fonetik dan informasi prosodi bersama-sama membentuk representasi linguistik simbolik yang output dengan front-end. The back-end-sering disebut sebagai synthesizer-maka mengubah representasi bahasa simbolik menjadi suara. Dalam sistem tertentu, bagian ini meliputi perhitungan dari target prosodi (kontur pitch, durasi fonem), yang kemudian dikenakan pada pidato output.
Sejarah
Jauh sebelum pemrosesan sinyal elektronik ditemukan, ada orang-orang yang mencoba membuat mesin untuk membuat suara manusia. Beberapa legenda awal adanya "kepala
berbicara" terlibat Gerbert dari Aurillac (wafat 1003 M), Albertus Magnus (1198-1280), dan Roger Bacon (1214-1294).
Pada tahun 1779, ilmuwan Denmark Kristen Kratzenstein, bekerja di Akademi Ilmu Pengetahuan Rusia, model dibangun pada saluran vokal manusia yang dapat menghasilkan lima suara vokal panjang (dalam International notasi Abjad Fonetik, mereka adalah [a
ː], [e ː], [ i ː], [o ː] dan [u ː]). Hal ini diikuti oleh "mesin pidato akustik-mekanis"-bellow dioperasikan oleh Wolfgang von Kempelen Wina, Austria, dijelaskan dalam kertas 1791 [6]. Mesin ini ditambahkan model lidah dan bibir, memungkinkan untuk menghasilkan konsonan maupun vokal. Pada 1837, Charles Wheatstone menghasilkan "mesin bicara" berdasarkan desain von Kempelen, dan pada tahun 1857, M. Faber membangun "Euphonia". desain Wheatstone adalah dibangkitkan pada tahun 1923 oleh Paget.
Pada 1930, Bell Labs mengembangkan vocoder, alat analisa pidato keyboard yang dioperasikan elektronik dan synthesizer yang dikatakan dengan jelas dipahami. Homer Dudley halus perangkat ini ke dalam VODER, yang dipamerkan di Fair 1939 New York World's.
Pola pemutaran ini dibangun oleh Dr Franklin S. Cooper dan rekan-rekannya di Haskins Laboratories di akhir 1940-an dan selesai pada 1950. Ada beberapa versi yang berbeda dari perangkat keras tetapi hanya satu saat ini bertahan. Mesin mengkonversi gambar dari pola akustik pidato dalam bentuk spektrogram kembali menjadi suara. Dengan menggunakan perangkat ini, Alvin Liberman dan rekan mampu menemukan isyarat akustik untuk persepsi segmen fonetik (konsonan dan vokal).
sistem dominan pada 1980-an dan 1990-an adalah sistem MITalk, sebagian besar didasarkan pada karya Dennis Klatt di MIT, dan sistem Bell Labs; yang kedua adalah salah satu sistem pertama bahasa-independen multibahasa, membuat luas penggunaan Alam metode pengolahan bahasa.
Awal synthesizer pidato elektronik terdengar robot dan sering hampir tidak dimengerti. Kualitas suara sintesis telah terus membaik, tetapi output dari sistem sintesis pidato kontemporer masih jelas dibedakan dari suara manusia yang sebenarnya.
Sebagai rasio biaya-kinerja menyebabkan synthesizer pidato menjadi lebih murah dan lebih mudah diakses oleh rakyat, lebih banyak orang akan mendapatkan keuntungan dari penggunaan program text-to-speech.
Perangkat elektronik Sistem pidato pertama berbasis komputer sintesis diciptakan di akhir 1950-an, dan teks lengkap pertama-to-speech sistem selesai pada tahun 1968. Pada tahun 1961, fisikawan John Larry Kelly, Jr dan Louis rekan Gerstman digunakan IBM 704 komputer untuk mensintesis pidato, suatu peristiwa yang paling menonjol dalam sejarah dari Bell Labs. perekam suara Kelly synthesizer (vocoder) ulang lagu "Daisy Bell", dengan iringan musik dari Max Mathews. Kebetulan, Arthur C. Clarke mengunjungi teman dan kolega John Pierce di fasilitas Bell Labs Murray Hill. Clarke begitu terkesan oleh demonstrasi bahwa ia digunakan dalam adegan klimaks dari skenario-Nya untuk novel nya 2001: A Space Odyssey, dimana HAL 9000 komputer menyanyikan lagu yang sama seperti yang sedang ditidurkan oleh astronot Dave Bowman Meskipun keberhasilan pidato sintesis murni elektronik,. Penelitian masih terus dilakukan ke synthesizer pidato mekanis. Handheld elektronik menampilkan sintesis pidato mulai muncul pada tahun 1970an. Salah satu yang pertama adalah Telesensory Systems Inc (TSI) Pidato kalkulator portabel untuk orang buta pada tahun 1976. Perangkat lain yang diproduksi terutama untuk tujuan pendidikan, seperti Speak & Spell, diproduksi oleh Texas Instruments pada tahun 1978. Permainan multi-pemain pertama yang menggunakan sintesis suara Milton dari Milton Bradley Company, yang memproduksi perangkat di tahun 1980. Teknologisynthesizer
Kualitas yang paling penting dari sebuah sistem sintesis pidato yang alamiah dan dimengerti. Kealamian menggambarkan seberapa dekat output suara seperti ucapan manusia, sedangkan dimengerti adalah kemudahan dengan yang output dipahami. Synthesizer pidato yang ideal adalah baik alam dan dimengerti. sistem sintesis Pidato biasanya mencoba untuk
memaksimalkan kedua karakteristik. Dua teknologi utama untuk menghasilkan bentuk gelombang pidato sintetis dan sintesis sintesis concatenative forman. Setiap teknologi memiliki kekuatan dan kelemahan, dan menggunakan dimaksud sistem sintesis biasanya akan menentukan pendekatan mana yang digunakan.

Concatenative sintesis
Concatenative sintesis didasarkan pada penggabungan (atau merangkai bersama-sama) dari segmen berbicara dicatat. Umumnya, sintesis concatenative menghasilkan pidato disintesis paling alami yang terdengar. Namun, perbedaan antara variasi alami dalam pidato dan sifat teknik otomatis untuk membagi bentuk gelombang kadang-kadang menyebabkan gangguan terdengar pada output. Ada tiga utama sub-jenis sintesis concatenative.
Unit seleksi sintesis
Unit seleksi sintesis menggunakan database besar pidato direkam. Selama pembuatan database, setiap ucapan tercatat tersegmentasi ke dalam beberapa atau semua hal berikut: telepon individu, diphones, setengah-telepon, suku kata, morfem, kata, frasa, dan kalimat. Biasanya, pembagian ke dalam segmen dilakukan dengan menggunakan pengenal pidato khusus dimodifikasi diatur ke mode "dipaksa alignment" dengan beberapa koreksi manual setelah itu, dengan menggunakan representasi visual seperti gelombang dan spektrogram Sebuah indeks unit dalam database pidato. kemudian dibuat berdasarkan segmentasi dan parameter akustik seperti frekuensi dasar (pitch), durasi, posisi dalam suku kata, dan telepon tetangga. Pada saat runtime, sabda target yang diinginkan dibuat dengan menentukan rantai terbaik unit calon dari database (pemilihan unit). Proses ini biasanya dicapai dengan menggunakan pohon keputusan khusus tertimbang.
Unit seleksi menyediakan kealamian terbesar, karena hanya berlaku sedikit pemrosesan sinyal digital (DSP) untuk pidato direkam. SP sering membuat bunyi ujaran direkam kurang alami, meskipun beberapa sistem menggunakan sejumlah kecil pengolahan sinyal pada titik rentetan untuk menghaluskan bentuk gelombang. Output dari sistem unit-pilihan terbaik sering dibedakan dari suara manusia nyata, terutama dalam konteks dimana sistem TTS telah disetel. Namun, kealamian maksimum biasanya memerlukan unit-seleksi pidato database menjadi sangat besar, dalam beberapa sistem mulai ke gigabyte data dicatat, mewakili puluhan jam berbicara .Selain itu, unit algoritma seleksi telah dikenal untuk memilih segmen dari tempat hasil dalam waktu kurang dari sintesis ideal (kata kecil misalnya menjadi tidak jelas) bahkan ketika pilihan yang lebih baik ada dalam database. Diphone sintesis sintesis Diphone menggunakan database minimal pidato berisi semua diphones (transisi suara-untuk-suara) yang terjadi dalam suatu bahasa. Jumlah diphones tergantung pada fonotaktik bahasa: misalnya, Spanyol memiliki sekitar 800 diphones, dan Jerman sekitar 2500. Dalam sintesis diphone, hanya satu contoh dari setiap diphone terkandung dalam database pidato. Pada runtime, prosodi target suatu kalimat ditumpangkan pada unit-unit ini minimal dengan teknik pemrosesan sinyal digital seperti linear predictive coding, PSOLA [20] atau MBROLA. Kualitas suara yang dihasilkan umumnya lebih buruk daripada unit-seleksi sistem, tetapi lebih alami yang terdengar dari output dari synthesizer forman. sintesis Diphone menderita dari sonik Glitches sintesis concatenative dan sifat robot-terdengar sintesis forman, dan memiliki beberapa keuntungan baik pendekatan lain dari ukuran kecil. Dengan demikian, penggunaannya dalam aplikasi komersial menurun, meskipun terus digunakan dalam penelitian karena ada beberapa implementasi perangkat lunak tersedia secara bebas. Domain-spesifik sintesis
Domain sintesis khusus merangkai kata-kata rekaman dan frase untuk menciptakan ucapan-ucapan selesai. Hal ini digunakan dalam aplikasi dimana berbagai teks sistem akan output terbatas pada domain tertentu, seperti pengumuman jadwal transit atau laporan cuaca. Teknologi ini sangat sederhana untuk menerapkan, dan telah digunakan secara komersial untuk waktu yang lama , dalam perangkat seperti berbicara jam dan kalkulator. Tingkat kealamian sistem ini bisa sangat tinggi karena berbagai jenis kalimat terbatas, dan mereka erat cocok dengan prosodi dan intonasi dari rekaman asli. [Rujukan?]
Karena sistem ini dibatasi oleh kata dan frasa dalam database mereka, mereka tidak tujuan umum dan hanya dapat mensintesis kombinasi kata dan frasa dengan yang mereka telah terprogram. Campuran kata-kata dalam bahasa lisan secara alami namun masih dapat menimbulkan masalah kecuali banyak variasi diperhitungkan. Sebagai contoh, dalam dialek non-rhotic bahasa Inggris yang "r" dalam kata-kata seperti "jelas" / ə ː KLI / biasanya hanya diucapkan ketika kata berikut memiliki vokal sebagai huruf pertama (misalnya, "jelas keluar" akan direalisasi sebagai / ˌ KLI ː əɹɑʊt / ). Demikian juga dalam bahasa Prancis, banyak konsonan akhir menjadi tidak lagi diam jika diikuti oleh sebuah kata yang dimulai dengan vokal, efek yang disebut penghubung. Alternasi ini tidak bisa direproduksi oleh sistem kata-Rangkaian sederhana, yang akan membutuhkan kompleksitas tambahan untuk konteks-sensitif. Forman sintesis-sintesis forman tidak menggunakan sampel suara manusia pada saat runtime. Sebaliknya, keluaran suara sintesis dibuat menggunakan aditif sintesis dan model akustik (sintesis pemodelan fisik) Parameter seperti frekuensi fundamental, menyuarakan, Dan tingkat kebisingan yang bervariasi dari waktu ke waktu untuk membuat gelombang pidato buatan. Metode ini kadang-kadang disebut sintesis berbasis peraturan, namun sistem concatenative banyak juga memiliki komponen aturan berbasis. Banyak sistem yang didasarkan pada teknologi sintesis forman menghasilkan buatan, robot yang terdengar pidato yang tidak akan pernah salah untuk pidato manusia. Namun, kealamian maksimum tidak selalu tujuan sistem sintesis pidato, dan sistem sintesis forman memiliki keunggulan dibandingkan sistem concatenative. pidato forman-disintesis dapat diandalkan dimengerti, bahkan pada kecepatan yang sangat tinggi, menghindari Glitches akustik yang biasanya wabah sistem concatenative. pidato disintesis kecepatan tinggi digunakan oleh tunanetra untuk navigasi cepat komputer menggunakan pembaca layar. synthesizer forman adalah program biasanya lebih kecil dibandingkan dengan sistem concatenative karena mereka tidak memiliki database contoh pidato. Oleh karena itu mereka dapat digunakan dalam embedded system, di mana memori dan daya mikroprosesor sangat terbatas. Karena sistem forman berbasis memiliki kontrol penuh dari semua aspek pidato output, berbagai prosodies dan intonasi dapat menjadi output, tidak hanya menyampaikan pertanyaan dan pernyataan, tetapi berbagai emosi dan nada suara. Contoh non-real time-tetapi sangat akurat kontrol intonasi dalam sintesis forman meliputi pekerjaan yang dilakukan pada akhir tahun 1970 untuk mainan Texas Instruments Speak & Spell, dan pada tahun 1980 mesin awal arcade Sega. Dan dalam banyak Atari, Inc arcade games. dengan menggunakan LPC TMS5220 Chips. Menciptakan intonasi yang tepat untuk proyek ini adalah telaten, dan hasilnya masih harus dicocokkan dengan interface real-time text-to-speech. Artikulatoris sintesis sintesis artikulatoris mengacu pada teknik komputasi untuk sintesa pidato berdasarkan model dari saluran artikulasi vokal manusia dan proses yang terjadi di sana. Synthesizer artikulatoris pertama teratur digunakan untuk percobaan laboratorium dikembangkan di Haskins Laboratories di pertengahan 1970-an oleh Philip Rubin, Tom Baer, dan Paul Mermelstein. Synthesizer ini, dikenal sebagai ASY, didasarkan pada model saluran suara yang dikembangkan di Bell Laboratories pada tahun 1960-an dan 1970-an oleh Paul Mermelstein, Cecil Coker, dan rekan. Sampai saat ini, model sintesis artikulatoris belum dimasukkan ke dalam sistem sintesis pidato komersial. Sebuah pengecualian adalah sistem NeXT berbasis awalnya dikembangkan dan dipasarkan oleh TRILLIUM Sound Research, sebuah perusahaan spin-off dari University of Calgary, di mana banyak riset asli dilakukan. Setelah runtuhnya berbagai inkarnasi NeXT (dimulai oleh Steve Jobs pada akhir tahun 1980 dan bergabung dengan Apple Computer pada tahun 1997), perangkat lunak TRILLIUM diterbitkan dibawah GNU General Public License, dengan bekerja terus sebagai gnuspeech. Sistem, pertama kali dipasarkan pada tahun 1994, menyediakan konversi penuh artikulatoris berbasis text-to-speech menggunakan pandu atau analog transmisi-garis saluran mulut dan hidung manusia dikendalikan oleh "model daerah khas" Carré's. HMM berbasis sintesis HMM berbasis sintesis adalah metode sintesis yang didasarkan pada model Markov tersembunyi, juga disebut Statistik Parametric Sintesis. Dalam sistem ini, spektrum frekuensi (saluran vokal), frekuensi dasar (sumber vokal), dan durasi (prosodi) dari pidato dimodelkan secara bersamaan oleh HMMs. Pidato bentuk gelombang yang dihasilkan dari HMMs diri didasarkan pada kriteria kemungkinan maksimum. Sinewave sintesis sintesis Sinewave adalah teknik untuk sintesis pidato dengan mengganti forman (band utama energi) dengan peluit nada murni. Tantangan Teks normalisasi tantangan Proses normalisasi teks jarang mudah. Teks penuh dengan heteronyms, angka, dan singkatan bahwa semua membutuhkan ekspansi ke representasi fonetik. Ada banyak ejaan dalam bahasa Inggris yang diucapkan berbeda berdasarkan konteks. Misalnya, "Proyek saya terakhir adalah untuk belajar bagaimana proyek yang lebih baik suara saya" berisi dua pengucapan dari "proyek". Kebanyakan teks-to-speech (TTS) sistem tidak menghasilkan representasi semantik teks masukan mereka, sebagai proses untuk melakukan hal yang tidak dapat diandalkan, dipahami dengan baik, atau komputasi yang efektif. Akibatnya, berbagai teknik heuristik digunakan untuk menebak cara yang tepat untuk disambiguate homographs, seperti memeriksa kata-kata tetangga dan menggunakan statistik tentang frekuensi kejadian. Baru-baru ini sistem TTS telah mulai menggunakan HMMs (dibahas di atas) untuk menghasilkan "bagian dari pidato" untuk membantu dalam disambiguating homographs. Teknik ini cukup berhasil untuk banyak kasus seperti apakah "membaca" harus diucapkan sebagai "merah" menyiratkan bentuk lampau, atau sebagai "buluh" menyiratkan hadir tegang. Khas tingkat kesalahan saat HMMs menggunakan cara ini biasanya di bawah lima persen. Teknik ini juga bekerja dengan baik untuk bahasa Eropa yang paling, meskipun akses ke corpora pelatihan yang dibutuhkan sering sulit dalam bahasa. Memutuskan bagaimana mengkonversi angka-angka adalah masalah lain yang sistem TTS harus alamat. Ini adalah tantangan pemrograman sederhana untuk mengkonversi angka menjadi kata-kata (setidaknya dalam bahasa Inggris), seperti "1325" menjadi "1325." Namun, angka terjadi dalam konteks yang berbeda, "1325" juga dapat dibaca sebagai "satu tiga dua lima", "1325" atau "seribu tiga ratus dua puluh lima". Sebuah sistem TTS sering dapat menyimpulkan bagaimana untuk memperluas sejumlah berdasarkan kata sekitarnya, angka, dan tanda baca, dan kadang-kadang sistem menyediakan cara untuk menentukan konteks jika ambigu. Angka Romawi juga bisa dibaca berbeda, tergantung pada konteks . Sebagai contoh "Henry VIII" berbunyi "Henry Kedelapan", sementara "Bab VIII" berbunyi "Bab Delapan". Demikian pula, singkatan bisa ambigu. Misalnya, singkatan "dalam" untuk "inci" harus dibedakan dari kata "dalam", dan alamat yang "12 St John St" menggunakan singkatan yang sama untuk kedua "Saint" dan "Street". sistem TTS dengan ujung depan yang cerdas dapat membuat dididik tebakan tentang singkatan ambigu, sementara yang lain memberikan hasil yang sama dalam semua kasus, sehingga tidak masuk akal (dan kadang-kadang lucu) output.
Text-to-fonem tantangan
sistem sintesis Pidato menggunakan dua pendekatan dasar untuk menentukan pengucapan sebuah kata berdasarkan ejaan, sebuah proses yang sering disebut konversi text-to-fonem atau grafem-ke-fonem (fonem adalah istilah yang digunakan oleh ahli bahasa untuk menggambarkan suara khas di bahasa). Pendekatan paling sederhana untuk konversi text-to-fonem adalah pendekatan berbasis kamus, dimana kamus besar berisi semua kata-kata dari bahasa dan pengucapan yang benar disimpan oleh program ini. Menentukan pengucapan yang benar dari setiap kata adalah masalah mencari setiap kata dalam kamus dan mengganti ejaan dengan pengucapan yang ditentukan dalam kamus. Pendekatan lain adalah berdasarkan aturan, di mana aturan pengucapan diterapkan untuk kata-kata untuk menentukan pengucapan mereka berdasarkan ejaan mereka. Ini mirip dengan pendekatan "terdengar keluar", atau sintetis phonics, untuk membaca belajar. Setiap pendekatan memiliki kelebihan dan kekurangan. Pendekatan berbasis kamus-cepat dan akurat, tapi benar-benar gagal jika diberikan kata yang tidak ada dalam kamus [rujukan?] Sebagai ukuran kamus tumbuh, demikian juga kebutuhan ruang memori dari sistem sintesis.. Di sisi lain, pendekatan berbasis aturan bekerja pada masukan apapun, tetapi kompleksitas peraturan tumbuh secara substansial sebagai sistem memperhitungkan ejaan rekening tidak teratur atau pengucapan. (Perhatikan bahwa kata "dari" adalah sangat umum dalam bahasa Inggris, namun adalah kata-satunya di mana huruf "f" diucapkan [v].) Akibatnya, hampir semua sistem pidato sintesis menggunakan kombinasi pendekatan ini. Bahasa dengan ortografi fonemis memiliki sistem penulisan yang sangat teratur, dan prediksi pengucapan kata-kata berdasarkan ejaan mereka cukup berhasil. sistem sintesis Speech untuk bahasa seperti itu sering menggunakan metode berbasis peraturan ekstensif, beralih ke kamus hanya untuk beberapa kata-kata, seperti nama asing dan pinjaman, yang pengucapan tidak jelas dari ejaan mereka. Di sisi lain, sistem sintesis pidato untuk bahasa seperti bahasa Inggris, yang memiliki sistem ejaan yang sangat tidak teratur, lebih cenderung mengandalkan kamus, dan menggunakan metode berbasis aturan hanya untuk kata-kata yang tidak biasa, atau kata-kata yang tidak dalam kamus mereka. Evaluasi tantangan Evaluasi konsisten sistem sintesis pidato mungkin sulit karena kurangnya universal disepakati kriteria evaluasi objektif. organisasi yang berbeda sering menggunakan data pidato yang berbeda. Kualitas sistem sintesis pidato juga tergantung untuk tingkat besar pada kualitas teknik produksi (yang dapat melibatkan analog atau rekaman digital) dan pada fasilitas yang digunakan untuk memutar ulang pidato. Evaluasi sistem pidato sintesis karena itu sering dikompromikan oleh perbedaan antara teknik produksi dan fasilitas replay. Baru-baru ini, namun, beberapa peneliti telah mulai mengevaluasi sistem pidato sintesis menggunakan dataset pidato umum. Prosodics dan isi emosional Sebuah studi baru-baru ini melaporkan dalam jurnal "Pidato Komunikasi" oleh Amy Drahota dan koleganya di University of Portsmouth, Inggris, melaporkan bahwa pendengar untuk rekaman suara bisa menentukan, pada tingkat lebih baik daripada kesempatan, baik atau tidak pembicara tersenyum. Disarankan bahwa identifikasi fitur vokal yang emosional sinyal konten dapat digunakan untuk membantu membuat pidato disintesis terdengar lebih alami.
Dedicated hardware
• Votrax
o SC-01A (forman analog)
o SC-02 / SSI-263 / "263 Arktik"
• Instrumen Umum SP0256-Al2 (CTS256A-Al2, MEA8000)
• Magnevation SpeakJet (www.speechchips.com TTS256)
Inovasi Savage • SoundGin
• Semikonduktor Digitalker DT1050 Nasional (Mozer)
• Silicon Sistem SSI 263 (forman analog)
• Texas Instruments Chips Pidato LPC
o TMS5110A
o TMS5200
• Oki Semikonduktor
o ML22825 (ADPCM)
o ML22573 (HQADPCM)
T6721A Toshiba •
• Philips PCF8200
• Modul Embedded TextSpeak TTS
Komputer sistem operasi atau outlet dengan sintesis pidato
Atari Diperdebatkan, sistem pidato pertamanya terintegrasi ke dalam sistem operasi adalah komputer pribadi 1400XL/1450XL dirancang oleh Atari, Inc menggunakan chip SC01 Votrax pada tahun 1983. Komputer 1400XL/1450XL menggunakan Finite State Machine untuk mengaktifkan Dunia Bahasa Inggris Ejaan text-to-speech sintesis [32]. Sayangnya, komputer 1400XL/1450XL pribadi tidak pernah dikirimkan dalam jumlah. Atari ST komputer yang dijual dengan "stspeech.tos" pada floppy disk. Apple Sistem pidato pertamanya diintegrasikan menjadi sebuah sistem operasi yang dikirimkan dalam jumlah yang MacInTalk Apple Computer pada tahun 1984. Sejak 1980-an Macintosh Komputer ditawarkan teks untuk kemampuan pidato melalui Perangkat lunak MacinTalk. Pada awal 1990 Apple memperluas kemampuan sistem penawaran lebar teks-untuk mendukung-speech. Dengan diperkenalkannya komputer berbasis PowerPC lebih cepat mereka termasuk sampling kualitas suara yang lebih tinggi. Apple juga memperkenalkan pengenalan suara dalam sistem perusahaan yang menyediakan satu set perintah cairan. Baru-baru ini, Apple telah menambahkan suara berbasis sampel. Berawal dari rasa ingin tahu, sistem pidato Apple Macintosh telah berkembang menjadi sebuah program yang didukung penuh, PlainTalk, bagi orang-orang dengan masalah penglihatan. VoiceOver adalah untuk pertama kalinya ditampilkan di Mac OS X Tiger (10.4). Selama 10.4 (Tiger) & rilis pertama dari 10.5 (Leopard) hanya ada satu pengiriman suara standar dengan Mac OS X. Dimulai dengan 10,6 (Snow Leopard), pengguna dapat memilih keluar dari daftar berbagai beberapa suara. suara VoiceOver fitur pengambilan napas yang terdengar realistis antara kalimat, serta meningkatkan kejelasan pada tingkat baca tinggi di atas PlainTalk. Mac OS X juga termasuk mengatakan, perintah-baris yang mengkonversi aplikasi berbasis text to speech terdengar. The AppleScript Standar Penambahan mencakup mengatakan verba yang memungkinkan sebuah skrip untuk menggunakan salah satu suara terpasang dan untuk mengontrol pitch, kecepatan berbicara dan modulasi dari teks lisan.


AmigaOS

Sistem operasi kedua dengan kemampuan sintesis pembicaraan lanjutan itu AmigaOS, diperkenalkan pada tahun 1985. Sintesis suara dilisensi oleh Commodore International dari rumah perangkat lunak pihak ketiga (Jangan Tanyakan Software, sekarang Softvoice, Inc) dan menampilkan sistem lengkap emulasi suara, dengan baik suara laki-laki dan perempuan dan "stress" Indikator penanda , yang dimungkinkan oleh fitur-fitur canggih dari chipset hardware Amiga audio [33]. Ini dibagi ke dalam perangkat narator dan perpustakaan penerjemah. Amiga Bicara Handler menampilkan penerjemah text-to-speech. AmigaOS dianggap pidato sintesis perangkat hardware virtual, sehingga pengguna bahkan bisa redirect konsol keluaran untuk itu. Beberapa program Amiga, seperti pengolah kata, membuat ekstensif menggunakan sistem pidato. Microsoft Windows Lihat juga: Microsoft Agen Modern sistem Windows menggunakan sistem SAPI4-dan pidato SAPI5 berbasis yang mencakup mesin pengenalan pembicaraan (SRE). SAPI 4.0 tersedia pada sistem operasi berbasis Microsoft sebagai pihak ketiga add-on untuk sistem seperti Windows 95 dan Windows 98. Windows 2000 menambahkan sebuah program yang disebut sintesis pidato Narator, langsung tersedia bagi pengguna. Semua program Windows-kompatibel bisa memanfaatkan fitur sintesis pidato, tersedia melalui menu sekali diinstal pada sistem. Microsoft Speech Server adalah paket lengkap untuk sintesis suara dan pengakuan, untuk aplikasi komersial seperti call center. Text-to-Speech (TTS) kemampuan untuk komputer mengacu pada kemampuan untuk memutar ulang teks dalam suara yang diucapkan. TTS adalah kemampuan sistem operasi untuk bermain teks kembali dicetak sebagai kata yang diucapkan. Sebuah driver internal (diinstal dengan sistem operasi) (disebut mesin TTS): mengakui teks dan menggunakan suara buatan (dipilih dari suara-suara pra-dihasilkan beberapa) berbicara teks tertulis. mesin tambahan (sering menggunakan jargon tertentu atau kosa kata) juga tersedia melalui produsen pihak ketiga. Android Android versi 1.6 menambahkan dukungan untuk sintesis pidato (TTS). Internet TTS Perkembangan terbaru di web browser, adalah Teks JavaScript untuk bekerja Pidato Yury Delendik, port mana yang Flite C engine JavaScript murni. Hal ini memungkinkan halaman web untuk mengubah teks ke audio menggunakan teknologi HTML5. Kemampuan untuk menggunakan port Yuri TTS saat ini membutuhkan browser custom build yang menggunakan Mozilla Audio-Data-API. Namun, banyak pekerjaan yang sedang dilakukan dalam konteks dari W3C untuk memindahkan teknologi ini ke dalam pasar browser mainstream melalui W3C Audio Inkubator Group dengan keterlibatan BBC dan Google Inc. Saat ini, ada beberapa aplikasi, plugin dan gadget yang dapat membaca pesan langsung dari halaman e-mail client dan web dari web browser atau Google Toolbar misalnya Teks-suara ke-yang merupakan add-on untuk Firefox. Beberapa software khusus dapat menceritakan RSS-feed. Di satu sisi, online RSS-perawi menyederhanakan penyampaian informasi dengan memungkinkan pengguna untuk mendengarkan sumber berita favorit mereka dan untuk mengkonversikannya ke podcast. Di sisi lain, on-line RSS-pembaca yang tersedia di hampir semua PC yang terhubung ke Internet. Pengguna dapat men-download file audio yang dihasilkan ke perangkat portabel, misalnya dengan penerima bantuan podcast, dan mendengarkan mereka sambil berjalan, jogging atau Komuter untuk bekerja. Bidang tumbuh di internet TTS berbasis teknologi bantu berbasis web, misalnya 'Browsealoud' dari perusahaan Inggris dan Readspeaker. Hal ini dapat memberikan fungsi TTS kepada siapapun (untuk alasan aksesibilitas, kenyamanan, hiburan atau informasi) dengan akses ke web browser. Laba non-proyek Pediaphon diciptakan pada tahun 2006 untuk menyediakan antarmuka berbasis web yang mirip TTS di Wikipedia bahasa [36] Selain itu SPEAK.TO.ME dari Oxford Informasi Laboratories mampu memberikan text to speech melalui browser apapun tanpa perlu. mendownload aplikasi khusus, dan termasuk teknologi pengiriman pintar untuk memastikan hanya apa yang dilihat diucapkan dan konten secara logis pathed.
Lain-lain
• Beberapa model komputer rumah Texas Instruments yang diproduksi pada tahun 1979 dan 1981 (Texas Instruments TI-99 / 4 dan TI-99/4A) mampu sintesis teks-ke-fonem atau membaca kata-kata dan frasa lengkap (teks-ke-kamus) , menggunakan Pidato yang sangat populer Synthesizer perifer. TI menggunakan codec proprietary untuk melekatkan frase diucapkan lengkap ke dalam aplikasi, terutama video game. [37]
• IBM OS / 2 Warp 4 termasuk VoiceType, pelopor untuk IBM ViaVoice.
• Sistem yang beroperasi pada sistem bebas dan open source software termasuk Linux sangat beragam, dan termasuk program open source seperti Festival Speech Synthesis Sistem yang menggunakan sintesis diphone berbasis (dan dapat menggunakan jumlah terbatas MBROLA suara), dan gnuspeech yang menggunakan sintesis artikulatoris [38] dari Free Software Foundation.
• Perusahaan yang mengembangkan sistem pidato sintesis tetapi yang tidak lagi dalam bisnis ini termasuk TERBAIK Pidato (dibeli oleh L & H), fasih Teknologi (dibeli oleh SpeechWorks), Lernout & Hauspie (dibeli oleh Nuansa), SpeechWorks (dibeli oleh Nuansa), Retoris Sistem (dibeli oleh Nuansa).
Pidato bahasa markup sintesis
Sejumlah bahasa markup telah dibentuk untuk membawakan teks sebagai pidato dalam format XML-compliant. Yang paling terakhir adalah Speech Synthesis Markup Language (SSML), yang menjadi rekomendasi W3C pada tahun 2004. sintesis pidato bahasa markup yang lebih tua termasuk Jawa Pidato Markup Language (JSML) dan Sable. Meskipun masing-masing diusulkan sebagai standar, tidak satupun dari mereka telah diadopsi secara luas.
sintesis bahasa markup Pidato dibedakan dari bahasa markup dialog. VoiceXML, misalnya, termasuk tags terkait dengan pengenalan suara, manajemen dialog dan panggilan touchtone, selain teks-untuk markup-speech.


Aplikasi


Pidato sintesis telah lama menjadi alat bantu teknologi vital dan penerapannya di daerah ini sangat signifikan dan luas. Hal ini memungkinkan hambatan lingkungan harus dikeluarkan untuk orang dengan berbagai cacat. Aplikasi terpanjang telah menggunakan pembaca layar untuk orang dengan gangguan penglihatan, tetapi teks-to-speech sistem yang sekarang umum digunakan oleh orang-orang dengan disleksia dan kesulitan membaca lainnya serta anak-anak pra-melek. Mereka juga sering digunakan untuk membantu mereka dengan gangguan berbicara parah biasanya melalui bantuan output komunikasi suara khusus.
Situs seperti Ananova dan YAKiToMe! telah sintesis suara yang digunakan untuk mengkonversi berita yang ditulis untuk konten audio, yang dapat digunakan untuk aplikasi mobile.
Teknik sintesis Pidato digunakan juga dalam produksi hiburan seperti game, anime dan serupa. Pada tahun 2007, Animo Limited mengumumkan pengembangan paket aplikasi perangkat lunak berdasarkan sintesis pidato FineSpeech software-nya, secara eksplisit diarahkan terhadap pelanggan dalam industri hiburan, mampu menghasilkan narasi dan baris dialog sesuai dengan spesifikasi pengguna [39] Aplikasi tercapai. Jatuh tempo pada tahun 2008, ketika NEC Biglobe mengumumkan sebuah layanan web yang memungkinkan pengguna untuk membuat frase dari suara Code Geass:. Lelouch R2 karakter Pemberontakan [40]
TTS aplikasi seperti YAKiToMe! dan Speakonia sering digunakan untuk menambahkan suara sintetis untuk video YouTube untuk efek komedi, seperti dalam video Barney Bunch. YAKiToMe! juga digunakan untuk mengkonversi seluruh buku-buku untuk keperluan pribadi Podcasting, RSS feed dan halaman web untuk berita, dan pendidikan teks untuk belajar ditingkatkan.
Software seperti Vocaloid dapat menghasilkan menyanyikan suara melalui lirik dan melodi. Ini juga merupakan tujuan dari proyek Komputer Bernyanyi (yang menggunakan GNU LilyPond dan Festival) untuk membantu orang buta periksa input lirik mereka. [41]
Berikutnya ke aplikasi ini adalah penggunaan teks untuk perangkat lunak pidato juga populer di Interactive Voice Response sistem, seringkali dalam kombinasi dengan pengenalan suara. Contoh suara tersebut dapat ditemukan di speechsynthesissoftware.com atau Nextup.
Lihat juga
• Text-to-suara - Mozilla Firefox ekstensi
• Perbandingan synthesizer pidato
• artikulatoris sintesis
• sintesis Cina pidato
• Bahasa alami pengolahan
• Paperless kantor
• Perbandingan pembaca layar
• Sinewave sintesis
• Pidato pengolahan
• Silent pidato antarmuka
Referensi
1. ^ Jonathan Allen, M. Sharon Hunnicutt, Dennis Klatt, Dari Text to Speech: Sistem MITalk. Cambridge University Press: 1987. ISBN 0-521-30641-8
2. ^ Rubin, P.; Baer, T.; Mermelstein, P. (1981). "Sebuah synthesizer artikulatoris untuk penelitian persepsi". Journal of Acoustical Society of America 70: 321-328. DOI: 10.1121/1.386780.
3. ^ Jan PH van Santen, Richard W. Sproat, Joseph P. Zaitun, dan Hirschberg Julia, Kemajuan dalam Sintesis Ucapan. Springer: 1997. ISBN 0-387-94701-9
4. ^ Jan PH van Santen, Penugasan durasi segmental dalam teks-untuk sintesis-speech. Komputer Pidato dan Bahasa, 8:95-128, 1994
5. ^ Sejarah dan Pengembangan Sintesis Pidato, Helsinki University of Technology, Diakses pada November 4, 2006
6. ^ Mechanismus menschlichen Sprache der Beschreibung der Maschine nebst kapal purse sprechenden ("Mekanisme dari pidato manusia dengan deskripsi mesin bicara perusahaan," JB Degen, Wien).
7. ^ Mattingly, Ignatius G. Pidato sintesis untuk model fonetik dan fonologi. Dalam Sebeok A. Thomas (Ed.), Tren Lancar dalam Linguistik, Volume 12, Mouton, Den Haag, hal 2451-2487, 1974.
8. ^ Richard W. Sproat, Multilingual Text-to-Speech Synthesis: The Bell Labs Pendekatan, Springer, 1997, ISBN-10: 0792380274
9. ^ Kurzweil, Raymond (2005). Singularity adalah Dekat. Penguin Books. ISBN 0-14-303788-9.
10. ^ Lambert, Bruce (1992/03/21). "NY Times obituari untuk Louis Gerstman". New York Times. http://query.nytimes.com/search/query?ppds=per&v1=GERSTMAN, LOUIS & sort = terbaru. Diperoleh 2010/02/17.
11. ^ Arthur C. Clarke online Biografi [dead link]
12. ^ "Mana" HAL "Pertama Spoke (Bell Labs Speech Synthesis website)". Bell Labs. http://www.bell-labs.com/news/1997/march/5/2.html. Diperoleh 2010/02/17.
13. ^ Antropomorfis Berbicara Robot Waseda-pembicara Seri
14. ^ TSI Pidato & kalkulator berbicara lain
15. ^ Gevaryahu, Jonathan, "TSI S14001A Speech Synthesizer Panduan LSI Sirkuit Terpadu" [1]
16. ^ Breslow, et al. Paten Amerika Serikat 4326710 April 27, 1982
17. ^ Alan W. Black, Sempurna sintesis untuk semua orang sepanjang waktu. IEEE TTS Workshop 2002.
18. ^ John Kominek dan Alan W. Hitam. (2003). CMU ARKTIK database untuk sintesis pidato. CMU-LTI-03-177. Language Technologies Institute, Fakultas Ilmu Komputer, Universitas Carnegie Mellon.
19. ^ Julia Zhang. Bahasa Generation dan Speech Synthesis dalam Dialog untuk Language Learning, master tesis, http://groups.csail.mit.edu/sls/publications/2004/zhang_thesis.pdf Bagian 5.6 di halaman 54.
20. ^ PSOLA Sintesis [dead link]
21. ^ T. Dutoit, V. Pagel, N. Pierret, F. Bataille, O. Vrecken van der. The MBROLA Proyek: Menuju set synthesizer pidato tinggi kualitas penggunaan untuk tujuan non komersial. ICSLP Proceedings, 1996.
22. ^ LF Lamel, Gauvain JL, B. Prouts, C. Bouhier, R. Boesch. Generasi dan Sintesis Pesan Broadcast, Proceedings Lokakarya ESCA-NATO dan Aplikasi Teknologi Speech, September 1993.
23. ^ Dartmouth College: Musik dan Computers.http: / / digitalmusics.dartmouth.edu / ~ book/MATCpages/chap.4/4.4.formant_synth.html, 1993.
24. Contoh ^ termasuk Astro Blaster, Space Fury, dan Star Trek: Strategis Operasi Simulator
25. Contoh ^ termasuk Star Wars, Firefox, Return of the Jedi, Road Runner, The Empire Strikes Back, Indiana Jones dan Kuil Doom, 720 °, Gauntlet, Gauntlet II, APB, Paperboy, RoadBlasters, Vindicators Bagian II, Escape dari Planet of the Monster Robot.
26. ^ John Holmes dan Holmes Wendy. Pidato Sintesis dan Pengakuan, Edisi 2. CRC: 2001. ISBN 0-7484-0856-8.
27. ^ The Pidato HMM berbasis Sintesis Sistem, http://hts.sp.nitech.ac.jp/
28. ^ Remez, RE, Rubin, PE, Pisoni, DB, & Carrell, TD Pidato persepsi tanpa isyarat pidato tradisional. Ilmu, 1981, 212, 947-950.
29. ^ "Speech sintesis". Organisasi World Wide Web. http://www.w3.org/TR/speech-synthesis/ # S3.1.8.
30. ^ Blizzard Challenge http://festvox.org/blizzard
31. ^ The Sound of Smiling
32. ^ Pidato Handler Spesifikasi 1400XL/1450XL Referensi Eksternal
33. ^ Miner, Jay et al. (1991). Amiga Hardware Referensi Manual: Edisi Ketiga. Addison-Wesley Publishing Company, Inc ISBN 0-201-56776-8.
34. ^ Ab "Bagaimana mengkonfigurasi dan menggunakan Text-to-Speech di Windows XP dan di Windows Vista". Support.microsoft.com. 2007/05/07. http://support.microsoft.com/kb/306902. Diperoleh 2010/02/17.
35. ^ Jean-Michel Trivi (2009/09/23). "Sebuah pengenalan Text-To-Speech di Android". Android-developers.blogspot.com. http://android-developers.blogspot.com/2009/09/introduction-to-text-to-speech-in.html. Diperoleh 2010/02/17.
36. ^ Andreas Bischoff, The Pediaphon - Interface Pidato Encyclopedia Wikipedia gratis untuk Mobile Phones, PDA, dan MP3 Players, Prosiding Konferensi Internasional ke-18 pada Database dan Sistem Aplikasi Ahli, Halaman: 575-579 ISBN 0-7695-2932-1 , 2007
37. ^ "Smithsonian Speech Synthesis Riwayat Proyek (SSSHP) 1986-2002". Mindspring.com. http://www.mindspring.com/ ~ ssshp / ssshp_cd / ss_home.htm. Diperoleh 2010/02/17.
38. ^ "Gnuspeech". Gnu.org. http://www.gnu.org/software/gnuspeech/. Diperoleh 2010/02/17.
39. ^ "Speech Synthesis Software untuk Anime mengumumkan". Animenewsnetwork.com. 2007/05/02. http://animenewsnetwork.com/news/2007-05-02/speech-synthesis-software. Diperoleh 2010/02/17.
40. ^ "Code Geass Speech Synthesizer Layanan Ditawarkan di Jepang". Animenewsnetwork.com. 2008/09/09. http://www.animenewsnetwork.com/news/2008-09-09/code-geass-voice-synthesis-service-offered-in-japan. Diperoleh 2010/02/17.
41. ^ Brailcom, o.p.s.. "Bernyanyi Komputer". Gratis (b) lembut. http://www.freebsoft.org/singing-computer. Diperoleh 2010/02/17.
Pranala luar
• Text to Speech Synthesis di Web Browser dengan JavaScript
• Pidato sintesis di Open Directory Project
• Text to Voice atau Teks untuk Addon Speech Firefox
• Dennis Klatt Sejarah Sintesis Pidato
• Ivona Text-To-Speech

Speech recognation

Tampilan dari screensaver Pengakuan Pidato pada laptop, di mana karakter merespon pertanyaan, misalnya "Di mana kau?" atau pernyataan, misalnya "Halo."

pengenalan pembicaraan (juga dikenal sebagai pengenalan suara otomatis atau pengakuan komputer pidato) mengkonversi diucapkan kata-kata untuk teks. The "pengenalan suara" istilah kadang-kadang digunakan untuk merujuk kepada sistem pengakuan yang harus dilatih untuk kasus-speaker tertentu seperti untuk perangkat lunak pengenal yang paling desktop. Menyadari pembicara dapat menyederhanakan tugas menerjemahkan pidato.

pengenalan pembicaraan adalah solusi yang lebih luas yang mengacu pada teknologi yang dapat mengenali pidato tanpa ditargetkan pada pembicara tunggal seperti sistem call center yang dapat mengenali suara sewenang-wenang.

aplikasi pengenalan pembicaraan termasuk user interface seperti suara panggilan suara (misalnya, "Call home"), call routing (misalnya, "Saya ingin membuat collect call"), kontrol alat domotic, pencarian (misalnya, menemukan podcast di mana tertentu Kata-kata itu diucapkan), sederhana entri data (misalnya, memasukkan nomor kartu kredit), persiapan dokumen terstruktur (misalnya, sebuah laporan radiologi), pengolahan pidato-ke-teks (misalnya, kata prosesor atau email), dan pesawat udara (biasanya disebut Input langsung suara).

Sejarah

Yang Pengenal pidato pertama muncul pada tahun 1952 dan terdiri dari sebuah perangkat untuk pengakuan lisan digit tunggal [1] awal perangkat lainnya adalah IBM Kotak Sepatu, dipamerkan di Fair tahun 1964 New York World's. Akhir-akhir ini telah ada banyak perbaikan seperti capabilitiy massa kecepatan transkripsi tinggi pada satu sistem seperti Sonic Extractor

Salah satu domain yang paling menonjol untuk aplikasi komersial pengenalan suara di Amerika Serikat telah perawatan kesehatan dan khususnya karya transcriptionist medis (MT) [rujukan?]. Menurut para ahli industri, pada awal berdirinya, pengenalan pembicaraan (SR) yang dijual sebagai cara untuk sepenuhnya menghilangkan transkripsi daripada membuat proses transkripsi lebih efisien, maka tidak diterima. Ini juga merupakan kasus yang SR pada waktu itu sering secara teknis kurang. Selain itu, untuk digunakan secara efektif, dibutuhkan perubahan cara dokter bekerja dan didokumentasikan pertemuan klinis, yang banyak jika tidak semua enggan untuk melakukannya. Keterbatasan terbesar pidato pengakuan mengotomatisasi transkripsi, bagaimanapun, dipandang sebagai perangkat lunak. Sifat naratif dikte sangat interpretatif dan seringkali memerlukan penilaian yang dapat diberikan oleh manusia sesungguhnya tetapi belum oleh sistem otomatis. Keterbatasan lainnya telah jumlah ekstensif waktu yang diperlukan oleh pengguna dan / atau penyedia sistem untuk melatih perangkat lunak.

Perbedaan dalam ASR sering dibuat antara "sistem sintaks buatan" yang biasanya domain-spesifik dan "pemrosesan bahasa alami" yang biasanya bahasa-spesifik. Masing-masing jenis aplikasi menyajikan tujuannya sendiri tertentu dan tantangan.
Aplikasi
Perawatan kesehatan

Dalam domain perawatan kesehatan, bahkan di bangun meningkatkan teknologi pengenalan suara, transcriptionists medis (MTs) belum menjadi usang. Layanan yang diberikan dapat didistribusikan daripada diganti.

Pengenalan pembicaraan dapat diimplementasikan di front-end atau back-end dari proses dokumentasi medis.

Front-End SR adalah tempat penyedia menentukan ke mesin pidato-pengakuan, kata-kata yang diakui ditampilkan tepat setelah mereka berbicara, dan diktator yang bertanggung jawab untuk mengedit dan penandatanganan off pada dokumen. Ini tidak pernah pergi melalui MT / editor.

Back-End SR atau SR tangguhan adalah di mana penyedia menentukan menjadi sebuah sistem dikte digital, dan suara yang diarahkan melalui pidato-mesin pengakuan dan draft dokumen diakui dirutekan bersama dengan file suara yang asli ke MT / editor, yang mengedit draft dan memfinalisasi laporan. Ditangguhkan SR sedang banyak digunakan dalam industri saat ini.

Banyak Electronic Medical Records (EMR) aplikasi dapat menjadi lebih efektif dan dapat dilakukan lebih mudah bila digunakan dalam hubungannya dengan mesin pidato-pengakuan. Pencarian, query, dan pengisian formulir semua bisa lebih cepat untuk melakukan dengan suara dibandingkan dengan menggunakan keyboard.
Militer
Performa tinggi pesawat tempur

upaya substansial telah dibuka dalam dekade terakhir untuk uji dan evaluasi pengenalan suara dalam pesawat tempur. Dari catatan khusus adalah program AS dalam pidato pengakuan untuk Fighter Advanced Integrasi Teknologi (AFTI) / F-16 pesawat (F-16 VISTA), program di Perancis pada memasang sistem pengenalan pembicaraan pada pesawat Mirage, dan program di Inggris menangani dengan berbagai platform pesawat. Dalam program ini, recognizers pidato telah beroperasi dengan sukses di pesawat tempur dengan aplikasi termasuk: pengaturan frekuensi radio, memerintahkan sistem autopilot, pengaturan mengarahkan-titik koordinat dan parameter pelepasan senjata, dan mengendalikan menampilkan penerbangan.

Bekerja dengan pilot Swedia terbang di kokpit Gripen JAS-39, Englund (2004) menemukan pengakuan memburuk dengan meningkatnya G-beban. Hal ini juga menyimpulkan bahwa adaptasi sangat meningkat hasilnya dalam semua kasus dan model memperkenalkan untuk bernafas ditunjukkan untuk meningkatkan skor pengakuan secara signifikan. Berlawanan dengan apa yang mungkin diharapkan, tidak ada efek dari bahasa Inggris patah speaker ditemukan. Ini adalah bukti bahwa pidato spontan menyebabkan masalah untuk recognizer, seperti yang bisa diharapkan. Sebuah kosa kata terbatas, dan di atas semua, sintaks yang tepat, sehingga bisa diharapkan untuk meningkatkan akurasi pengenalan secara substansial. [2]

The Eurofighter Typhoon saat ini dalam pelayanan dengan RAF Inggris memiliki sistem speaker-dependent, yakni mengharuskan setiap pilot untuk membuat template. Sistem ini tidak digunakan untuk keselamatan kritis atau tugas senjata kritis, seperti pelepasan senjata atau menurunkan dari bawah mobil, tapi digunakan untuk berbagai fungsi lain kokpit. Perintah suara sudah dikonfirmasi oleh umpan balik visual dan / atau aural. Sistem ini dipandang sebagai fitur desain utama dalam pengurangan beban kerja pilot, dan bahkan memungkinkan pilot untuk menetapkan target untuk dirinya dengan dua perintah suara sederhana atau ke salah satu dari wingman nya dengan hanya lima perintah. [3]

Sistem Speaker independen juga sedang dikembangkan dan dalam pengujian untuk The F35 Lightning II (JSF) dan memimpin Aermacchi M346 di pelatih tempur. Sistem ini telah menghasilkan akurasi kata lebih dari 98%.
Helikopter

Masalah akurasi pengenalan mencapai tinggi di bawah tekanan dan berhubungan kebisingan kuat terhadap lingkungan helikopter serta lingkungan tempur. Masalah kebisingan akustik sebenarnya lebih parah di lingkungan helikopter, bukan hanya karena tingkat kebisingan tinggi tetapi juga karena pilot helikopter umumnya tidak memakai sungkup muka, yang akan mengurangi kebisingan akustik mikrofon. uji Substansial dan program evaluasi telah dilakukan dalam dekade terakhir dalam aplikasi pengenalan suara sistem di helikopter, terutama oleh US Army Avionics Penelitian dan Pengembangan Kegiatan (AVRADA) dan oleh Royal Aerospace Pendirian (RAE) di Inggris. Bekerja di Prancis sudah termasuk pengenalan pembicaraan pada helikopter Puma. Ada juga telah banyak pekerjaan yang berguna di Kanada. Hasil telah mendorong, dan aplikasi suara telah menyertakan: kontrol radio komunikasi, pengaturan sistem navigasi; dan kontrol sistem target serah terima otomatis.

Seperti di aplikasi tempur, masalah utama untuk suara di helikopter adalah dampak terhadap efektivitas pilot. Mendorong hasil dilaporkan untuk tes AVRADA, meskipun ini hanya mewakili demonstrasi kelayakan dalam lingkungan tes. Masih banyak yang harus dilakukan baik dalam pengenalan suara dan teknologi pengenalan suara secara keseluruhan, untuk secara konsisten mencapai peningkatan kinerja dalam pengaturan operasional.
Pertempuran manajemen
Bagian ini tidak mengutip manapun acuan atau sumber.
Silakan bantu memperbaiki artikel ini dengan menambahkan referensi yang layak. Disertai rujukan bahan mungkin sulit dan dihapus. (Juli 2009)

Manajemen Pertempuran pusat komando umumnya memerlukan akses cepat ke dan kontrol yang besar, cepat berubah database informasi. Komandan dan sistem operator perlu query database ini sebagai nyaman mungkin, dalam lingkungan mata-sibuk di mana banyak informasi disajikan dalam format layar. Manusia-mesin interaksi dengan suara memiliki potensi untuk menjadi sangat berguna dalam lingkungan. Sejumlah upaya telah dilakukan untuk antarmuka tersedia secara komersial recognizers terisolasi-kata ke dalam lingkungan manajemen pertempuran. Dalam satu studi kelayakan peralatan pengenalan suara diuji sehubungan dengan menampilkan informasi yang terintegrasi untuk aplikasi manajemen pertempuran laut. Pengguna sangat optimis tentang potensi dari sistem, meskipun kemampuan terbatas.

Pidato pemahaman program yang disponsori oleh Defense Advanced Research Projects Agency (DARPA) di Amerika Serikat telah difokuskan pada masalah interface ucapan yang alami. upaya pengenalan pembicaraan telah difokuskan pada database pengenalan suara kontinyu (CSR), pidato besar kosakata yang dirancang untuk menjadi wakil dari tugas pengelolaan sumber daya laut. kemajuan yang signifikan dalam seni negara-of-the-dalam CSR telah dicapai, dan upaya saat ini difokuskan pada integrasi pengenalan suara dan pengolahan bahasa alami untuk memungkinkan interaksi bahasa lisan dengan sistem pengelolaan sumber daya laut.
Pelatihan pengendali lalu lintas udara

Pelatihan untuk pengendali lalu lintas udara (ATC) merupakan aplikasi yang sangat baik untuk sistem pengenalan suara. Banyak sistem pelatihan ATC saat ini membutuhkan seseorang untuk bertindak sebagai "pseudo-pilot", terlibat dalam dialog suara dengan controller trainee, yang mensimulasikan dialog yang controller harus melakukan dengan pilot dalam situasi ATC yang nyata. Pidato pengakuan dan sintesis teknik menawarkan potensi untuk menghilangkan kebutuhan bagi seseorang untuk bertindak sebagai pseudo-pilot, sehingga mengurangi personil pelatihan dan dukungan. Secara teori, tugas pengendali udara juga ditandai dengan pidato yang sangat terstruktur sebagai output utama dari controller, sehingga mengurangi kesulitan tugas pengenalan suara harus mungkin. Dalam prakteknya ini jarang terjadi. FAA dokumen 7110,65 rincian frase yang harus digunakan oleh pengendali lalu lintas udara. Sementara dokumen ini memberikan kurang dari 150 contoh frase tersebut, jumlah frase didukung oleh salah satu sistem pengenalan suara simulasi vendor adalah lebih dari 500.000.

The USAF, USMC, US Army, US Navy dan FAA serta sejumlah pelatihan organisasi internasional ATC seperti Air Services Australia, Royal Australian Air Force dan Otoritas Penerbangan Sipil di Italia, Brasil, Kanada saat ini menggunakan simulator ATC dengan pengenalan suara dari sejumlah vendor yang berbeda.
Telephony dan domain lainnya

ASR di bidang telepon sekarang biasa dan dalam bidang game dan simulasi komputer menjadi lebih luas. Meskipun tingginya tingkat integrasi dengan pengolah kata dalam komputasi personal umumnya, bagaimanapun, ASR di bidang produksi dokumen belum melihat yang diharapkan [oleh siapa?] Meningkat digunakan.

Peningkatan kecepatan prosesor mobile dibuat layak pidato-enabled Symbian dan Windows Mobile Smartphone. Ucapan umumnya digunakan sebagai bagian dari User Interface, untuk membuat perintah pidato pra-ditentukan atau kustom. vendor software terkemuka di bidang ini adalah: Microsoft Corporation (Microsoft Voice Command), Nuansa Komunikasi (Nuansa Voice Control), Vito Teknologi (Vito Voice2Go), Speereo Perangkat Lunak (Speereo Voice Translator), Digital Syphon (Sonic Messager alat) dan SVOX.
Selanjutnya aplikasi

* Terjemahan otomatis;
* Pengenalan suara Otomotif (misalnya, Ford Sync);
* Telematika (misalnya kendaraan Navigasi Systems);
* Pengadilan pelaporan (Realtime Suara Menulis);
* Komputasi Hands-free: perintah suara pengenalan komputer user interface;
* Home otomatisasi;
* Respon suara Interaktif;
* Mobile telephony, termasuk email mobile;
* Interaksi Multimodal;
* Pengucapan evaluasi dalam bahasa dibantu komputer belajar aplikasi;
* Robotika;
* Video game, dengan Tom Clancy's EndWar dan Lifeline sebagai contoh kerja;
* Transkripsi (pidato-digital-teks);
* Pidato-ke-teks (transkripsi dari pidato ke dalam pesan teks mobile);
* Air Traffic Control Speech Recognition.

Kinerja

Kinerja sistem pengenalan suara biasanya ditentukan dalam hal akurasi dan kecepatan. Akurasi biasanya dinilai dengan tingkat kesalahan kata (Wer), sedangkan kecepatan diukur dengan faktor real time. Tindakan-tindakan lain akurasi termasuk Single Word Error Rate (SWER) dan Komando Sukses Rate (CSR).

Pada tahun 1982 Kurzweil Terapan Intelijen dan Naga Sistem merilis produk pengenalan suara. Pada tahun 1985, perangkat lunak Kurzweil's, memiliki kosakata 1000 kata-kalau mengucapkan satu kata pada suatu waktu. Dua tahun kemudian, pada tahun 1987, leksikon yang mencapai 20.000 kata, memasuki alam kosakata manusia, yang berkisar dari 10.000 hingga 150.000 kata. Tapi akurasi pengenalan hanya 10% pada tahun 1993. Dua tahun kemudian, tingkat kesalahan menyeberang di bawah 50%. Dragon Sistem merilis "Tentu Berbicara" pada tahun 1997 yang diakui suara manusia normal. Kemajuan terutama berasal dari peningkatan kinerja komputer dan database yang lebih besar sumber teks. Corpus Brown database besar pertama yang tersedia, yang berisi beberapa juta kata. Pada tahun 2001 akurasi pengenalan mencapai dataran tinggi saat ini sebesar 80%, tidak lagi tumbuh dengan data atau daya komputasi. Pada tahun 2006, Google menerbitkan corpus triliun-kata, sementara Carnegie Mellon University peneliti tidak menemukan peningkatan yang signifikan dalam akurasi pengenalan.

Algoritma

Kedua model akustik dan pemodelan bahasa adalah bagian penting dari algoritma modern pidato statistik berbasis pengakuan. Model Markov Tersembunyi (HMMs) yang banyak digunakan dalam banyak sistem. pemodelan Bahasa memiliki banyak aplikasi lainnya seperti keyboard cerdas dan klasifikasi dokumen.
Model Markov tersembunyi
Artikel utama: Model Markov tersembunyi

sistem modern pidato tujuan umum pengakuan didasarkan pada Hidden Markov Model. Ini adalah model statistik yang output urutan simbol atau kuantitas. HMMs digunakan dalam pengenalan suara karena sinyal suara dapat dilihat sebagai sinyal sesepenggal stasioner atau sinyal stasioner waktu singkat. Dalam waktu singkat (misalnya, 10 milidetik)), pidato dapat didekati sebagai suatu proses stasioner. Pidato dapat dianggap sebagai model Markov untuk tujuan stokastik banyak.

Alasan lain mengapa HMMs yang populer adalah karena mereka dapat dilatih secara otomatis dan sederhana dan komputasi layak untuk digunakan. Dalam pidato pengakuan, model Markov tersembunyi akan menampilkan urutan vektor bernilai real n-dimensi (dengan n menjadi bilangan bulat kecil, seperti 10), keluaran salah satu dari setiap 10 milidetik. Vektor akan terdiri dari koefisien cepstral, yang diperoleh dengan mengambil Transformasi Fourier jendela waktu singkat berbicara dan decorrelating spektrum dengan menggunakan transformasi kosinus, kemudian mengambil (paling signifikan) koefisien pertama. Model Markov tersembunyi akan cenderung memiliki di setiap negara distribusi statistik yang merupakan campuran kovarians diagonal Gaussians yang akan memberikan kemungkinan untuk setiap vektor diamati. Setiap kata, atau (untuk lebih sistem pengenalan pembicaraan umum), masing-masing fonem, akan memiliki distribusi output yang berbeda; model Markov tersembunyi untuk urutan kata-kata atau fonem dibuat dengan menggabungkan terlatih individu model Markov tersembunyi untuk kata-kata yang terpisah dan fonem.

Diuraikan di atas adalah elemen inti dari pendekatan, yang paling umum HMM berbasis pengenalan suara. Sistem pengenalan suara modern menggunakan berbagai kombinasi dari beberapa teknik standar dalam rangka meningkatkan hasil lebih dari pendekatan dasar yang dijelaskan di atas. Sebuah sistem yang besar-kosakata khas akan membutuhkan dependensi konteks fonem (jadi fonem dengan kiri berbeda dan konteks yang tepat memiliki realisasi yang berbeda sebagai negara HMM); itu akan menggunakan normalisasi cepstral untuk menormalkan untuk speaker yang berbeda dan kondisi rekaman, karena normalisasi pembicara lebih lanjut mungkin menggunakan saluran normalisasi vokal panjang (VTLN) untuk normalisasi laki-laki perempuan dan maksimum likelihood regresi linier (MLLR) untuk lebih adaptasi pembicara umum. Fitur akan memiliki apa yang disebut delta dan koefisien delta-delta untuk menangkap dinamika ucapan dan selain mungkin menggunakan analisis diskriminan linier heteroscedastic (HLDA), atau mungkin melewati delta dan koefisien delta-delta dan splicing digunakan dan proyeksi LDA berbasis diikuti mungkin dengan analisis diskriminan linier heteroscedastic atau kovarians semitied global transformasi (juga dikenal sebagai maximum likelihood MLLT linier mengubah, atau). Banyak sistem menggunakan teknik pelatihan apa yang disebut diskriminatif yang membuang dengan pendekatan murni statistik untuk estimasi parameter HMM dan bukannya mengoptimalkan beberapa ukuran yang berhubungan dengan klasifikasi data pelatihan. Contohnya adalah informasi saling maksimum (MMI), kesalahan klasifikasi minimum (MCE) dan kesalahan telepon minimum (MPE).

Decoding dari pidato (istilah atas apa yang terjadi ketika sistem ini disajikan dengan ucapan yang baru dan harus menghitung kalimat sumber yang paling mungkin) mungkin akan menggunakan algoritma Viterbi untuk menemukan jalur terbaik, dan di sini ada pilihan antara dinamis menciptakan Model Markov tersembunyi kombinasi yang mencakup baik informasi model akustik dan bahasa, atau menggabungkannya statis sebelumnya (transduser negara yang terbatas, atau FST, pendekatan).
Dynamic waktu warping (DTW) berbasis speech recognition
Artikel utama: Dynamic warping waktu

Dynamic waktu warping adalah suatu pendekatan yang secara historis digunakan untuk pengenalan suara tapi kini sebagian besar telah mengungsi akibat pendekatan HMM berbasis lebih berhasil. Dynamic waktu warping adalah suatu algoritma untuk mengukur kesamaan antara dua sekuen yang mungkin berbeda dalam waktu atau kecepatan. Misalnya, kesamaan dalam pola berjalan akan terdeteksi, bahkan jika dalam satu video orang itu berjalan perlahan-lahan dan jika di lain mereka berjalan lebih cepat, atau bahkan jika ada percepatan dan deselerasi selama satu pengamatan. DTW telah diterapkan ke video, audio, dan grafik - memang, setiap data yang dapat berubah menjadi representasi linier dapat dianalisis dengan DTW.

Sebuah aplikasi terkenal telah pengenalan suara otomatis, untuk mengatasi dengan kecepatan berbicara yang berbeda. Secara umum, ini adalah metode yang memungkinkan komputer untuk menemukan kecocokan yang optimal antara dua sekuens tertentu (misalnya time series) dengan pembatasan tertentu, yaitu urutan yang "bengkok" non-linear untuk mencocokkan satu sama lain. Metode sequence alignment yang sering digunakan dalam konteks model Markov tersembunyi.
Informasi lebih lanjut

pengenalan pembicaraan konferensi Populer diadakan setiap tahun atau dua termasuk SpeechTEK dan SpeechTEK Eropa, ICASSP, Eurospeech / ICSLP (sekarang bernama Interspeech) dan ASRU IEEE. Pertemuan di bidang pengolahan bahasa alam, seperti ACL, NAACL, EMNLP, dan HLT, mulai meliputi dokumen pada pengolahan pidato. jurnal penting termasuk Transaksi IEEE pada Pidato dan Audio Processing (sekarang bernama Transaksi IEEE pada Audio, Pidato dan Bahasa Processing), Komputer Pidato dan Bahasa, dan Ucapan Komunikasi. Buku-buku seperti "Fundamentals of Speech Recognition" oleh Lawrence Rabiner dapat berguna untuk mendapatkan pengetahuan dasar, namun mungkin tidak sepenuhnya up to date (1993). Sumber lain yang baik dapat "Metode Statistik untuk Speech Recognition" oleh Frederick Jelinek dan "Spoken Language Processing (2001)" oleh Xuedong Huang dll Lebih up to date adalah "Computer Speech", oleh Manfred R. Schroeder, edisi kedua diterbitkan pada tahun 2004 . Buku teks baru-baru ini diperbarui "Pidato dan Bahasa Pengolahan (2008)" oleh Jurafsky dan Martin menyajikan dasar-dasar dan keadaan seni untuk ASR. Sebuah wawasan yang baik ke teknik yang digunakan dalam sistem modern terbaik dapat diperoleh dengan memperhatikan evaluasi yang disponsori pemerintah seperti yang diselenggarakan oleh DARPA (proyek pidato yang berhubungan dengan pengakuan terbesar berlangsung pada tahun 2007 adalah proyek Gale, yang melibatkan baik pengenalan suara dan terjemahan komponen).

Dalam hal sumber daya yang tersedia secara bebas, Carnegie Mellon University's toolkit SPHINX adalah salah satu tempat untuk mulai kedua belajar tentang pengenalan suara dan untuk mulai bereksperimen. Sumber lain (gratis seperti di bir gratis, bukan perangkat lunak bebas) adalah buku HTK (dan HTK toolkit terlampir). AT & T perpustakaan perpustakaan GRM, dan perpustakaan DCD juga perpustakaan software umum untuk pengenalan suara besar kosa kata.

Untuk sumber daya software lain, lihat Daftar perangkat lunak pengenalan suara.

Sebuah tinjauan yang berguna dari luas wilayah kekokohan dalam ASR disediakan oleh Junqua dan Haton (1995).
Orang dengan cacat

Orang dengan cacat bisa mendapatkan keuntungan dari program pengenalan suara. pengenalan pembicaraan sangat berguna bagi orang yang mengalami kesulitan menggunakan tangan mereka, mulai dari yang ringan cedera stres yang berulang untuk penyandang cacat yang terlibat bahwa mencegah menggunakan perangkat masukan komputer konvensional. Bahkan, orang yang menggunakan keyboard banyak dan dikembangkan RSI menjadi awal pasar mendesak untuk pengenalan suara. [5] [6] Speech recognition digunakan dalam telepon tuli, seperti pesan suara ke teks, layanan relay, dan telepon judul. Individu dengan ketidakmampuan belajar yang memiliki masalah dengan pikiran-untuk komunikasi-kertas (dasarnya mereka memikirkan sebuah ide tetapi diproses salah menyebabkan ia berakhir berbeda di atas kertas) bisa mendapatkan keuntungan dari perangkat lunak [rujukan?].
Wiki surat w.svg Bagian ini membutuhkan ekspansi.
Saat penelitian dan pendanaan

Mengukur kemajuan dalam kinerja pengenalan pembicaraan sulit dan kontroversial. Beberapa tugas pengenalan pembicaraan jauh lebih sulit daripada yang lain. tingkat kesalahan Word pada beberapa tugas yang kurang yang satu persen. Pada orang lain mereka bisa setinggi 50%. Kadang-kadang bahkan muncul kinerja yang akan mundur sebagai peneliti melakukan tugas-tugas sulit yang memiliki tingkat kesalahan yang lebih tinggi.

Karena kemajuan lambat dan sulit untuk diukur, ada persepsi bahwa kinerja telah plateaued dan pendanaan yang telah kering atau pergeseran prioritas. persepsi seperti ini tidak baru. Pada tahun 1969, John Pierce menulis sebuah surat terbuka yang tidak menyebabkan banyak dana yang mengering selama beberapa tahun [7] Pada tahun 1993 ada perasaan yang kuat bahwa kinerja telah plateaued dan. Ada lokakarya didedikasikan untuk masalah ini. Namun, dalam pendanaan tahun 1990-an melanjutkan kinerja yang lebih atau kurang terganggu dan terus perlahan tapi pasti meningkat.

Selama tiga puluh tahun terakhir, pidato penelitian yang telah ditandai oleh akumulasi stabil perbaikan tambahan kecil. Ada juga kecenderungan untuk terus-menerus mengubah fokus ke tugas yang lebih sulit karena baik untuk kemajuan dalam kinerja pengenalan pembicaraan dan ketersediaan komputer yang lebih cepat. Secara khusus, ini beralih ke tugas yang lebih sulit telah ditandai pendanaan DARPA pengenalan suara sejak 1980-an. Dalam dekade terakhir ini telah berlanjut dengan proyek TELINGA, yang melakukan pengakuan Mandarin dan Arab selain bahasa Inggris, dan proyek Gale, yang hanya berfokus pada bahasa Mandarin dan Arab dan dibutuhkan terjemahan bersamaan dengan pengenalan suara.

Komersial penelitian dan penelitian akademik lainnya juga terus fokus pada masalah semakin sulit. Satu wilayah kunci adalah untuk meningkatkan ketahanan kinerja pengenalan pembicaraan, tidak hanya ketahanan terhadap kebisingan tetapi ketahanan terhadap setiap kondisi yang menyebabkan degradasi utama dalam kinerja. Bidang lain kunci penelitian difokuskan pada kesempatan bukan masalah. Penelitian ini mencoba untuk mengambil keuntungan dari fakta bahwa dalam banyak aplikasi ada sejumlah besar data pidato yang tersedia, hingga jutaan jam. Hal ini terlalu mahal untuk memiliki manusia menuliskan jumlah besar seperti pidato, sehingga fokus penelitian adalah mengembangkan metode baru untuk belajar mesin yang efektif dapat memanfaatkan jumlah besar data tak berlabel. Bidang lain penelitian adalah pemahaman yang lebih baik dari kemampuan manusia dan menggunakan pemahaman ini untuk meningkatkan kinerja mesin pengakuan. [8]
Lihat juga

* Audio pertambangan
* Pengenalan suara audio visual
* Acoustic Model
* Digital dikte
* Input langsung Voice
* Kata Kunci bercak
* Daftar perangkat lunak pengenalan suara
* Mikrofon
* Mondegreen
* Multimodal interaksi
* OpenDocument
* Teknologi Fonetik pencarian
* Pidato Analytics
* Speaker identifikasi
* Speaker diarisation
* Pidato corpus
* Pidato pengolahan
* Pidato pengakuan di Linux
* Pidato sintesis
* Pidato verifikasi
* Text-to-speech (TTS)
* VoiceXML
* Voxforge
* Windows Speech Recognition
* Pidato teknologi

Referensi
* Karat, Clare-Marie; Vergo, John; Nahamoo, David (2007).
"Teknologi Interface Percakapan". Dalam Sears, Andrew; Jacko, Julie A.. Interaksi Manusia Komputer Handbook: Fundamentals, Technologies Berkembang, dan Emerging Aplikasi (Faktor Manusia dan Ergonomi). Lawrence Erlbaum Associates Inc ISBN 978-0805858709.
* Mengelola editor: Giovanni Battista Varile, Antonio Zampolli. (1997). Cole, Annie; Mariani, Yusuf; Uszkoreit, Hans et al .. eds. Survei keadaan seni dalam teknologi bahasa manusia. Cambridge Studi Pada Pengolahan Bahasa Alami. XII-XIII. Cambridge University Press. ISBN 0-521-59277-1.
* Junqua, J.-C.; Haton, J.-P. (1995). Kekokohan dalam Pengakuan Pidato Otomatis: Fundamental dan Aplikasi. Kluwer Akademik Publishers. ISBN 978-0792396468.
1. ^ Davies, KH, Biddulph, R. dan Balashek, S. (1952) Speech Recognition otomatis Digit Disampaikan, J. Acoust. Soc. Am. 24 (6) pp.637 - 642
2. ^ Http://www.speech.kth.se/prod/publications/files/1664.pdf
3. ^ Eurofighter Input Suara Langsung
4. ^ "Sejarah Evaluasi Pengakuan Pidato otomatis di NIST". Institut Nasional Standar dan Teknologi. Mei, 2009. http://www.itl.nist.gov/iad/mig/publications/ASRhistory/index.html. Diakses Mei, 2010.
5. ^ Speech recognition untuk orang cacat
6. ^ Teman kelompok pendukung internasional
7. ^ Pierce (1969) Yohanes. "Ke Mana Speech Recognition". Journal of Acoustical Society of America.
8. ^ "Perkembangan Penelitian dan Arah dalam Pidato Pengakuan dan Pemahaman, Bagian 1". MEI, 2009. http://research.microsoft.com/pubs/80528/SPM-MINDS-I.pdf. Diakses Mei, 2010.