attack: Speech recognation

Tampilan dari screensaver Pengakuan Pidato pada laptop, di mana karakter merespon pertanyaan, misalnya "Di mana kau?" atau pernyataan, misalnya "Halo."

pengenalan pembicaraan (juga dikenal sebagai pengenalan suara otomatis atau pengakuan komputer pidato) mengkonversi diucapkan kata-kata untuk teks. The "pengenalan suara" istilah kadang-kadang digunakan untuk merujuk kepada sistem pengakuan yang harus dilatih untuk kasus-speaker tertentu seperti untuk perangkat lunak pengenal yang paling desktop. Menyadari pembicara dapat menyederhanakan tugas menerjemahkan pidato.

pengenalan pembicaraan adalah solusi yang lebih luas yang mengacu pada teknologi yang dapat mengenali pidato tanpa ditargetkan pada pembicara tunggal seperti sistem call center yang dapat mengenali suara sewenang-wenang.

aplikasi pengenalan pembicaraan termasuk user interface seperti suara panggilan suara (misalnya, "Call home"), call routing (misalnya, "Saya ingin membuat collect call"), kontrol alat domotic, pencarian (misalnya, menemukan podcast di mana tertentu Kata-kata itu diucapkan), sederhana entri data (misalnya, memasukkan nomor kartu kredit), persiapan dokumen terstruktur (misalnya, sebuah laporan radiologi), pengolahan pidato-ke-teks (misalnya, kata prosesor atau email), dan pesawat udara (biasanya disebut Input langsung suara).

Sejarah

Yang Pengenal pidato pertama muncul pada tahun 1952 dan terdiri dari sebuah perangkat untuk pengakuan lisan digit tunggal [1] awal perangkat lainnya adalah IBM Kotak Sepatu, dipamerkan di Fair tahun 1964 New York World's. Akhir-akhir ini telah ada banyak perbaikan seperti capabilitiy massa kecepatan transkripsi tinggi pada satu sistem seperti Sonic Extractor

Salah satu domain yang paling menonjol untuk aplikasi komersial pengenalan suara di Amerika Serikat telah perawatan kesehatan dan khususnya karya transcriptionist medis (MT) [rujukan?]. Menurut para ahli industri, pada awal berdirinya, pengenalan pembicaraan (SR) yang dijual sebagai cara untuk sepenuhnya menghilangkan transkripsi daripada membuat proses transkripsi lebih efisien, maka tidak diterima. Ini juga merupakan kasus yang SR pada waktu itu sering secara teknis kurang. Selain itu, untuk digunakan secara efektif, dibutuhkan perubahan cara dokter bekerja dan didokumentasikan pertemuan klinis, yang banyak jika tidak semua enggan untuk melakukannya. Keterbatasan terbesar pidato pengakuan mengotomatisasi transkripsi, bagaimanapun, dipandang sebagai perangkat lunak. Sifat naratif dikte sangat interpretatif dan seringkali memerlukan penilaian yang dapat diberikan oleh manusia sesungguhnya tetapi belum oleh sistem otomatis. Keterbatasan lainnya telah jumlah ekstensif waktu yang diperlukan oleh pengguna dan / atau penyedia sistem untuk melatih perangkat lunak.

Perbedaan dalam ASR sering dibuat antara "sistem sintaks buatan" yang biasanya domain-spesifik dan "pemrosesan bahasa alami" yang biasanya bahasa-spesifik. Masing-masing jenis aplikasi menyajikan tujuannya sendiri tertentu dan tantangan.
Aplikasi
Perawatan kesehatan

Dalam domain perawatan kesehatan, bahkan di bangun meningkatkan teknologi pengenalan suara, transcriptionists medis (MTs) belum menjadi usang. Layanan yang diberikan dapat didistribusikan daripada diganti.

Pengenalan pembicaraan dapat diimplementasikan di front-end atau back-end dari proses dokumentasi medis.

Front-End SR adalah tempat penyedia menentukan ke mesin pidato-pengakuan, kata-kata yang diakui ditampilkan tepat setelah mereka berbicara, dan diktator yang bertanggung jawab untuk mengedit dan penandatanganan off pada dokumen. Ini tidak pernah pergi melalui MT / editor.

Back-End SR atau SR tangguhan adalah di mana penyedia menentukan menjadi sebuah sistem dikte digital, dan suara yang diarahkan melalui pidato-mesin pengakuan dan draft dokumen diakui dirutekan bersama dengan file suara yang asli ke MT / editor, yang mengedit draft dan memfinalisasi laporan. Ditangguhkan SR sedang banyak digunakan dalam industri saat ini.

Banyak Electronic Medical Records (EMR) aplikasi dapat menjadi lebih efektif dan dapat dilakukan lebih mudah bila digunakan dalam hubungannya dengan mesin pidato-pengakuan. Pencarian, query, dan pengisian formulir semua bisa lebih cepat untuk melakukan dengan suara dibandingkan dengan menggunakan keyboard.
Militer
Performa tinggi pesawat tempur

upaya substansial telah dibuka dalam dekade terakhir untuk uji dan evaluasi pengenalan suara dalam pesawat tempur. Dari catatan khusus adalah program AS dalam pidato pengakuan untuk Fighter Advanced Integrasi Teknologi (AFTI) / F-16 pesawat (F-16 VISTA), program di Perancis pada memasang sistem pengenalan pembicaraan pada pesawat Mirage, dan program di Inggris menangani dengan berbagai platform pesawat. Dalam program ini, recognizers pidato telah beroperasi dengan sukses di pesawat tempur dengan aplikasi termasuk: pengaturan frekuensi radio, memerintahkan sistem autopilot, pengaturan mengarahkan-titik koordinat dan parameter pelepasan senjata, dan mengendalikan menampilkan penerbangan.

Bekerja dengan pilot Swedia terbang di kokpit Gripen JAS-39, Englund (2004) menemukan pengakuan memburuk dengan meningkatnya G-beban. Hal ini juga menyimpulkan bahwa adaptasi sangat meningkat hasilnya dalam semua kasus dan model memperkenalkan untuk bernafas ditunjukkan untuk meningkatkan skor pengakuan secara signifikan. Berlawanan dengan apa yang mungkin diharapkan, tidak ada efek dari bahasa Inggris patah speaker ditemukan. Ini adalah bukti bahwa pidato spontan menyebabkan masalah untuk recognizer, seperti yang bisa diharapkan. Sebuah kosa kata terbatas, dan di atas semua, sintaks yang tepat, sehingga bisa diharapkan untuk meningkatkan akurasi pengenalan secara substansial. [2]

The Eurofighter Typhoon saat ini dalam pelayanan dengan RAF Inggris memiliki sistem speaker-dependent, yakni mengharuskan setiap pilot untuk membuat template. Sistem ini tidak digunakan untuk keselamatan kritis atau tugas senjata kritis, seperti pelepasan senjata atau menurunkan dari bawah mobil, tapi digunakan untuk berbagai fungsi lain kokpit. Perintah suara sudah dikonfirmasi oleh umpan balik visual dan / atau aural. Sistem ini dipandang sebagai fitur desain utama dalam pengurangan beban kerja pilot, dan bahkan memungkinkan pilot untuk menetapkan target untuk dirinya dengan dua perintah suara sederhana atau ke salah satu dari wingman nya dengan hanya lima perintah. [3]

Sistem Speaker independen juga sedang dikembangkan dan dalam pengujian untuk The F35 Lightning II (JSF) dan memimpin Aermacchi M346 di pelatih tempur. Sistem ini telah menghasilkan akurasi kata lebih dari 98%.
Helikopter

Masalah akurasi pengenalan mencapai tinggi di bawah tekanan dan berhubungan kebisingan kuat terhadap lingkungan helikopter serta lingkungan tempur. Masalah kebisingan akustik sebenarnya lebih parah di lingkungan helikopter, bukan hanya karena tingkat kebisingan tinggi tetapi juga karena pilot helikopter umumnya tidak memakai sungkup muka, yang akan mengurangi kebisingan akustik mikrofon. uji Substansial dan program evaluasi telah dilakukan dalam dekade terakhir dalam aplikasi pengenalan suara sistem di helikopter, terutama oleh US Army Avionics Penelitian dan Pengembangan Kegiatan (AVRADA) dan oleh Royal Aerospace Pendirian (RAE) di Inggris. Bekerja di Prancis sudah termasuk pengenalan pembicaraan pada helikopter Puma. Ada juga telah banyak pekerjaan yang berguna di Kanada. Hasil telah mendorong, dan aplikasi suara telah menyertakan: kontrol radio komunikasi, pengaturan sistem navigasi; dan kontrol sistem target serah terima otomatis.

Seperti di aplikasi tempur, masalah utama untuk suara di helikopter adalah dampak terhadap efektivitas pilot. Mendorong hasil dilaporkan untuk tes AVRADA, meskipun ini hanya mewakili demonstrasi kelayakan dalam lingkungan tes. Masih banyak yang harus dilakukan baik dalam pengenalan suara dan teknologi pengenalan suara secara keseluruhan, untuk secara konsisten mencapai peningkatan kinerja dalam pengaturan operasional.
Pertempuran manajemen
Bagian ini tidak mengutip manapun acuan atau sumber.
Silakan bantu memperbaiki artikel ini dengan menambahkan referensi yang layak. Disertai rujukan bahan mungkin sulit dan dihapus. (Juli 2009)

Manajemen Pertempuran pusat komando umumnya memerlukan akses cepat ke dan kontrol yang besar, cepat berubah database informasi. Komandan dan sistem operator perlu query database ini sebagai nyaman mungkin, dalam lingkungan mata-sibuk di mana banyak informasi disajikan dalam format layar. Manusia-mesin interaksi dengan suara memiliki potensi untuk menjadi sangat berguna dalam lingkungan. Sejumlah upaya telah dilakukan untuk antarmuka tersedia secara komersial recognizers terisolasi-kata ke dalam lingkungan manajemen pertempuran. Dalam satu studi kelayakan peralatan pengenalan suara diuji sehubungan dengan menampilkan informasi yang terintegrasi untuk aplikasi manajemen pertempuran laut. Pengguna sangat optimis tentang potensi dari sistem, meskipun kemampuan terbatas.

Pidato pemahaman program yang disponsori oleh Defense Advanced Research Projects Agency (DARPA) di Amerika Serikat telah difokuskan pada masalah interface ucapan yang alami. upaya pengenalan pembicaraan telah difokuskan pada database pengenalan suara kontinyu (CSR), pidato besar kosakata yang dirancang untuk menjadi wakil dari tugas pengelolaan sumber daya laut. kemajuan yang signifikan dalam seni negara-of-the-dalam CSR telah dicapai, dan upaya saat ini difokuskan pada integrasi pengenalan suara dan pengolahan bahasa alami untuk memungkinkan interaksi bahasa lisan dengan sistem pengelolaan sumber daya laut.
Pelatihan pengendali lalu lintas udara

Pelatihan untuk pengendali lalu lintas udara (ATC) merupakan aplikasi yang sangat baik untuk sistem pengenalan suara. Banyak sistem pelatihan ATC saat ini membutuhkan seseorang untuk bertindak sebagai "pseudo-pilot", terlibat dalam dialog suara dengan controller trainee, yang mensimulasikan dialog yang controller harus melakukan dengan pilot dalam situasi ATC yang nyata. Pidato pengakuan dan sintesis teknik menawarkan potensi untuk menghilangkan kebutuhan bagi seseorang untuk bertindak sebagai pseudo-pilot, sehingga mengurangi personil pelatihan dan dukungan. Secara teori, tugas pengendali udara juga ditandai dengan pidato yang sangat terstruktur sebagai output utama dari controller, sehingga mengurangi kesulitan tugas pengenalan suara harus mungkin. Dalam prakteknya ini jarang terjadi. FAA dokumen 7110,65 rincian frase yang harus digunakan oleh pengendali lalu lintas udara. Sementara dokumen ini memberikan kurang dari 150 contoh frase tersebut, jumlah frase didukung oleh salah satu sistem pengenalan suara simulasi vendor adalah lebih dari 500.000.

The USAF, USMC, US Army, US Navy dan FAA serta sejumlah pelatihan organisasi internasional ATC seperti Air Services Australia, Royal Australian Air Force dan Otoritas Penerbangan Sipil di Italia, Brasil, Kanada saat ini menggunakan simulator ATC dengan pengenalan suara dari sejumlah vendor yang berbeda.
Telephony dan domain lainnya

ASR di bidang telepon sekarang biasa dan dalam bidang game dan simulasi komputer menjadi lebih luas. Meskipun tingginya tingkat integrasi dengan pengolah kata dalam komputasi personal umumnya, bagaimanapun, ASR di bidang produksi dokumen belum melihat yang diharapkan [oleh siapa?] Meningkat digunakan.

Peningkatan kecepatan prosesor mobile dibuat layak pidato-enabled Symbian dan Windows Mobile Smartphone. Ucapan umumnya digunakan sebagai bagian dari User Interface, untuk membuat perintah pidato pra-ditentukan atau kustom. vendor software terkemuka di bidang ini adalah: Microsoft Corporation (Microsoft Voice Command), Nuansa Komunikasi (Nuansa Voice Control), Vito Teknologi (Vito Voice2Go), Speereo Perangkat Lunak (Speereo Voice Translator), Digital Syphon (Sonic Messager alat) dan SVOX.
Selanjutnya aplikasi

* Terjemahan otomatis;
* Pengenalan suara Otomotif (misalnya, Ford Sync);
* Telematika (misalnya kendaraan Navigasi Systems);
* Pengadilan pelaporan (Realtime Suara Menulis);
* Komputasi Hands-free: perintah suara pengenalan komputer user interface;
* Home otomatisasi;
* Respon suara Interaktif;
* Mobile telephony, termasuk email mobile;
* Interaksi Multimodal;
* Pengucapan evaluasi dalam bahasa dibantu komputer belajar aplikasi;
* Robotika;
* Video game, dengan Tom Clancy's EndWar dan Lifeline sebagai contoh kerja;
* Transkripsi (pidato-digital-teks);
* Pidato-ke-teks (transkripsi dari pidato ke dalam pesan teks mobile);
* Air Traffic Control Speech Recognition.

Kinerja

Kinerja sistem pengenalan suara biasanya ditentukan dalam hal akurasi dan kecepatan. Akurasi biasanya dinilai dengan tingkat kesalahan kata (Wer), sedangkan kecepatan diukur dengan faktor real time. Tindakan-tindakan lain akurasi termasuk Single Word Error Rate (SWER) dan Komando Sukses Rate (CSR).

Pada tahun 1982 Kurzweil Terapan Intelijen dan Naga Sistem merilis produk pengenalan suara. Pada tahun 1985, perangkat lunak Kurzweil's, memiliki kosakata 1000 kata-kalau mengucapkan satu kata pada suatu waktu. Dua tahun kemudian, pada tahun 1987, leksikon yang mencapai 20.000 kata, memasuki alam kosakata manusia, yang berkisar dari 10.000 hingga 150.000 kata. Tapi akurasi pengenalan hanya 10% pada tahun 1993. Dua tahun kemudian, tingkat kesalahan menyeberang di bawah 50%. Dragon Sistem merilis "Tentu Berbicara" pada tahun 1997 yang diakui suara manusia normal. Kemajuan terutama berasal dari peningkatan kinerja komputer dan database yang lebih besar sumber teks. Corpus Brown database besar pertama yang tersedia, yang berisi beberapa juta kata. Pada tahun 2001 akurasi pengenalan mencapai dataran tinggi saat ini sebesar 80%, tidak lagi tumbuh dengan data atau daya komputasi. Pada tahun 2006, Google menerbitkan corpus triliun-kata, sementara Carnegie Mellon University peneliti tidak menemukan peningkatan yang signifikan dalam akurasi pengenalan.

Algoritma

Kedua model akustik dan pemodelan bahasa adalah bagian penting dari algoritma modern pidato statistik berbasis pengakuan. Model Markov Tersembunyi (HMMs) yang banyak digunakan dalam banyak sistem. pemodelan Bahasa memiliki banyak aplikasi lainnya seperti keyboard cerdas dan klasifikasi dokumen.
Model Markov tersembunyi
Artikel utama: Model Markov tersembunyi

sistem modern pidato tujuan umum pengakuan didasarkan pada Hidden Markov Model. Ini adalah model statistik yang output urutan simbol atau kuantitas. HMMs digunakan dalam pengenalan suara karena sinyal suara dapat dilihat sebagai sinyal sesepenggal stasioner atau sinyal stasioner waktu singkat. Dalam waktu singkat (misalnya, 10 milidetik)), pidato dapat didekati sebagai suatu proses stasioner. Pidato dapat dianggap sebagai model Markov untuk tujuan stokastik banyak.

Alasan lain mengapa HMMs yang populer adalah karena mereka dapat dilatih secara otomatis dan sederhana dan komputasi layak untuk digunakan. Dalam pidato pengakuan, model Markov tersembunyi akan menampilkan urutan vektor bernilai real n-dimensi (dengan n menjadi bilangan bulat kecil, seperti 10), keluaran salah satu dari setiap 10 milidetik. Vektor akan terdiri dari koefisien cepstral, yang diperoleh dengan mengambil Transformasi Fourier jendela waktu singkat berbicara dan decorrelating spektrum dengan menggunakan transformasi kosinus, kemudian mengambil (paling signifikan) koefisien pertama. Model Markov tersembunyi akan cenderung memiliki di setiap negara distribusi statistik yang merupakan campuran kovarians diagonal Gaussians yang akan memberikan kemungkinan untuk setiap vektor diamati. Setiap kata, atau (untuk lebih sistem pengenalan pembicaraan umum), masing-masing fonem, akan memiliki distribusi output yang berbeda; model Markov tersembunyi untuk urutan kata-kata atau fonem dibuat dengan menggabungkan terlatih individu model Markov tersembunyi untuk kata-kata yang terpisah dan fonem.

Diuraikan di atas adalah elemen inti dari pendekatan, yang paling umum HMM berbasis pengenalan suara. Sistem pengenalan suara modern menggunakan berbagai kombinasi dari beberapa teknik standar dalam rangka meningkatkan hasil lebih dari pendekatan dasar yang dijelaskan di atas. Sebuah sistem yang besar-kosakata khas akan membutuhkan dependensi konteks fonem (jadi fonem dengan kiri berbeda dan konteks yang tepat memiliki realisasi yang berbeda sebagai negara HMM); itu akan menggunakan normalisasi cepstral untuk menormalkan untuk speaker yang berbeda dan kondisi rekaman, karena normalisasi pembicara lebih lanjut mungkin menggunakan saluran normalisasi vokal panjang (VTLN) untuk normalisasi laki-laki perempuan dan maksimum likelihood regresi linier (MLLR) untuk lebih adaptasi pembicara umum. Fitur akan memiliki apa yang disebut delta dan koefisien delta-delta untuk menangkap dinamika ucapan dan selain mungkin menggunakan analisis diskriminan linier heteroscedastic (HLDA), atau mungkin melewati delta dan koefisien delta-delta dan splicing digunakan dan proyeksi LDA berbasis diikuti mungkin dengan analisis diskriminan linier heteroscedastic atau kovarians semitied global transformasi (juga dikenal sebagai maximum likelihood MLLT linier mengubah, atau). Banyak sistem menggunakan teknik pelatihan apa yang disebut diskriminatif yang membuang dengan pendekatan murni statistik untuk estimasi parameter HMM dan bukannya mengoptimalkan beberapa ukuran yang berhubungan dengan klasifikasi data pelatihan. Contohnya adalah informasi saling maksimum (MMI), kesalahan klasifikasi minimum (MCE) dan kesalahan telepon minimum (MPE).

Decoding dari pidato (istilah atas apa yang terjadi ketika sistem ini disajikan dengan ucapan yang baru dan harus menghitung kalimat sumber yang paling mungkin) mungkin akan menggunakan algoritma Viterbi untuk menemukan jalur terbaik, dan di sini ada pilihan antara dinamis menciptakan Model Markov tersembunyi kombinasi yang mencakup baik informasi model akustik dan bahasa, atau menggabungkannya statis sebelumnya (transduser negara yang terbatas, atau FST, pendekatan).
Dynamic waktu warping (DTW) berbasis speech recognition
Artikel utama: Dynamic warping waktu

Dynamic waktu warping adalah suatu pendekatan yang secara historis digunakan untuk pengenalan suara tapi kini sebagian besar telah mengungsi akibat pendekatan HMM berbasis lebih berhasil. Dynamic waktu warping adalah suatu algoritma untuk mengukur kesamaan antara dua sekuen yang mungkin berbeda dalam waktu atau kecepatan. Misalnya, kesamaan dalam pola berjalan akan terdeteksi, bahkan jika dalam satu video orang itu berjalan perlahan-lahan dan jika di lain mereka berjalan lebih cepat, atau bahkan jika ada percepatan dan deselerasi selama satu pengamatan. DTW telah diterapkan ke video, audio, dan grafik - memang, setiap data yang dapat berubah menjadi representasi linier dapat dianalisis dengan DTW.

Sebuah aplikasi terkenal telah pengenalan suara otomatis, untuk mengatasi dengan kecepatan berbicara yang berbeda. Secara umum, ini adalah metode yang memungkinkan komputer untuk menemukan kecocokan yang optimal antara dua sekuens tertentu (misalnya time series) dengan pembatasan tertentu, yaitu urutan yang "bengkok" non-linear untuk mencocokkan satu sama lain. Metode sequence alignment yang sering digunakan dalam konteks model Markov tersembunyi.
Informasi lebih lanjut

pengenalan pembicaraan konferensi Populer diadakan setiap tahun atau dua termasuk SpeechTEK dan SpeechTEK Eropa, ICASSP, Eurospeech / ICSLP (sekarang bernama Interspeech) dan ASRU IEEE. Pertemuan di bidang pengolahan bahasa alam, seperti ACL, NAACL, EMNLP, dan HLT, mulai meliputi dokumen pada pengolahan pidato. jurnal penting termasuk Transaksi IEEE pada Pidato dan Audio Processing (sekarang bernama Transaksi IEEE pada Audio, Pidato dan Bahasa Processing), Komputer Pidato dan Bahasa, dan Ucapan Komunikasi. Buku-buku seperti "Fundamentals of Speech Recognition" oleh Lawrence Rabiner dapat berguna untuk mendapatkan pengetahuan dasar, namun mungkin tidak sepenuhnya up to date (1993). Sumber lain yang baik dapat "Metode Statistik untuk Speech Recognition" oleh Frederick Jelinek dan "Spoken Language Processing (2001)" oleh Xuedong Huang dll Lebih up to date adalah "Computer Speech", oleh Manfred R. Schroeder, edisi kedua diterbitkan pada tahun 2004 . Buku teks baru-baru ini diperbarui "Pidato dan Bahasa Pengolahan (2008)" oleh Jurafsky dan Martin menyajikan dasar-dasar dan keadaan seni untuk ASR. Sebuah wawasan yang baik ke teknik yang digunakan dalam sistem modern terbaik dapat diperoleh dengan memperhatikan evaluasi yang disponsori pemerintah seperti yang diselenggarakan oleh DARPA (proyek pidato yang berhubungan dengan pengakuan terbesar berlangsung pada tahun 2007 adalah proyek Gale, yang melibatkan baik pengenalan suara dan terjemahan komponen).

Dalam hal sumber daya yang tersedia secara bebas, Carnegie Mellon University's toolkit SPHINX adalah salah satu tempat untuk mulai kedua belajar tentang pengenalan suara dan untuk mulai bereksperimen. Sumber lain (gratis seperti di bir gratis, bukan perangkat lunak bebas) adalah buku HTK (dan HTK toolkit terlampir). AT & T perpustakaan perpustakaan GRM, dan perpustakaan DCD juga perpustakaan software umum untuk pengenalan suara besar kosa kata.

Untuk sumber daya software lain, lihat Daftar perangkat lunak pengenalan suara.

Sebuah tinjauan yang berguna dari luas wilayah kekokohan dalam ASR disediakan oleh Junqua dan Haton (1995).
Orang dengan cacat

Orang dengan cacat bisa mendapatkan keuntungan dari program pengenalan suara. pengenalan pembicaraan sangat berguna bagi orang yang mengalami kesulitan menggunakan tangan mereka, mulai dari yang ringan cedera stres yang berulang untuk penyandang cacat yang terlibat bahwa mencegah menggunakan perangkat masukan komputer konvensional. Bahkan, orang yang menggunakan keyboard banyak dan dikembangkan RSI menjadi awal pasar mendesak untuk pengenalan suara. [5] [6] Speech recognition digunakan dalam telepon tuli, seperti pesan suara ke teks, layanan relay, dan telepon judul. Individu dengan ketidakmampuan belajar yang memiliki masalah dengan pikiran-untuk komunikasi-kertas (dasarnya mereka memikirkan sebuah ide tetapi diproses salah menyebabkan ia berakhir berbeda di atas kertas) bisa mendapatkan keuntungan dari perangkat lunak [rujukan?].
Wiki surat w.svg Bagian ini membutuhkan ekspansi.
Saat penelitian dan pendanaan

Mengukur kemajuan dalam kinerja pengenalan pembicaraan sulit dan kontroversial. Beberapa tugas pengenalan pembicaraan jauh lebih sulit daripada yang lain. tingkat kesalahan Word pada beberapa tugas yang kurang yang satu persen. Pada orang lain mereka bisa setinggi 50%. Kadang-kadang bahkan muncul kinerja yang akan mundur sebagai peneliti melakukan tugas-tugas sulit yang memiliki tingkat kesalahan yang lebih tinggi.

Karena kemajuan lambat dan sulit untuk diukur, ada persepsi bahwa kinerja telah plateaued dan pendanaan yang telah kering atau pergeseran prioritas. persepsi seperti ini tidak baru. Pada tahun 1969, John Pierce menulis sebuah surat terbuka yang tidak menyebabkan banyak dana yang mengering selama beberapa tahun [7] Pada tahun 1993 ada perasaan yang kuat bahwa kinerja telah plateaued dan. Ada lokakarya didedikasikan untuk masalah ini. Namun, dalam pendanaan tahun 1990-an melanjutkan kinerja yang lebih atau kurang terganggu dan terus perlahan tapi pasti meningkat.

Selama tiga puluh tahun terakhir, pidato penelitian yang telah ditandai oleh akumulasi stabil perbaikan tambahan kecil. Ada juga kecenderungan untuk terus-menerus mengubah fokus ke tugas yang lebih sulit karena baik untuk kemajuan dalam kinerja pengenalan pembicaraan dan ketersediaan komputer yang lebih cepat. Secara khusus, ini beralih ke tugas yang lebih sulit telah ditandai pendanaan DARPA pengenalan suara sejak 1980-an. Dalam dekade terakhir ini telah berlanjut dengan proyek TELINGA, yang melakukan pengakuan Mandarin dan Arab selain bahasa Inggris, dan proyek Gale, yang hanya berfokus pada bahasa Mandarin dan Arab dan dibutuhkan terjemahan bersamaan dengan pengenalan suara.

Komersial penelitian dan penelitian akademik lainnya juga terus fokus pada masalah semakin sulit. Satu wilayah kunci adalah untuk meningkatkan ketahanan kinerja pengenalan pembicaraan, tidak hanya ketahanan terhadap kebisingan tetapi ketahanan terhadap setiap kondisi yang menyebabkan degradasi utama dalam kinerja. Bidang lain kunci penelitian difokuskan pada kesempatan bukan masalah. Penelitian ini mencoba untuk mengambil keuntungan dari fakta bahwa dalam banyak aplikasi ada sejumlah besar data pidato yang tersedia, hingga jutaan jam. Hal ini terlalu mahal untuk memiliki manusia menuliskan jumlah besar seperti pidato, sehingga fokus penelitian adalah mengembangkan metode baru untuk belajar mesin yang efektif dapat memanfaatkan jumlah besar data tak berlabel. Bidang lain penelitian adalah pemahaman yang lebih baik dari kemampuan manusia dan menggunakan pemahaman ini untuk meningkatkan kinerja mesin pengakuan. [8]
Lihat juga

* Audio pertambangan
* Pengenalan suara audio visual
* Acoustic Model
* Digital dikte
* Input langsung Voice
* Kata Kunci bercak
* Daftar perangkat lunak pengenalan suara
* Mikrofon
* Mondegreen
* Multimodal interaksi
* OpenDocument
* Teknologi Fonetik pencarian
* Pidato Analytics
* Speaker identifikasi
* Speaker diarisation
* Pidato corpus
* Pidato pengolahan
* Pidato pengakuan di Linux
* Pidato sintesis
* Pidato verifikasi
* Text-to-speech (TTS)
* VoiceXML
* Voxforge
* Windows Speech Recognition
* Pidato teknologi

Referensi
* Karat, Clare-Marie; Vergo, John; Nahamoo, David (2007). "Teknologi Interface Percakapan". Dalam Sears, Andrew; Jacko, Julie A.. Interaksi Manusia Komputer Handbook: Fundamentals, Technologies Berkembang, dan Emerging Aplikasi (Faktor Manusia dan Ergonomi). Lawrence Erlbaum Associates Inc ISBN 978-0805858709.
* Mengelola editor: Giovanni Battista Varile, Antonio Zampolli. (1997). Cole, Annie; Mariani, Yusuf; Uszkoreit, Hans et al .. eds. Survei keadaan seni dalam teknologi bahasa manusia. Cambridge Studi Pada Pengolahan Bahasa Alami. XII-XIII. Cambridge University Press. ISBN 0-521-59277-1.
* Junqua, J.-C.; Haton, J.-P. (1995). Kekokohan dalam Pengakuan Pidato Otomatis: Fundamental dan Aplikasi. Kluwer Akademik Publishers. ISBN 978-0792396468.
1. ^ Davies, KH, Biddulph, R. dan Balashek, S. (1952) Speech Recognition otomatis Digit Disampaikan, J. Acoust. Soc. Am. 24 (6) pp.637 - 642
2. ^ Http://www.speech.kth.se/prod/publications/files/1664.pdf
3. ^ Eurofighter Input Suara Langsung
4. ^ "Sejarah Evaluasi Pengakuan Pidato otomatis di NIST". Institut Nasional Standar dan Teknologi. Mei, 2009. http://www.itl.nist.gov/iad/mig/publications/ASRhistory/index.html. Diakses Mei, 2010.
5. ^ Speech recognition untuk orang cacat
6. ^ Teman kelompok pendukung internasional
7. ^ Pierce (1969) Yohanes. "Ke Mana Speech Recognition". Journal of Acoustical Society of America.
8. ^ "Perkembangan Penelitian dan Arah dalam Pidato Pengakuan dan Pemahaman, Bagian 1". MEI, 2009. http://research.microsoft.com/pubs/80528/SPM-MINDS-I.pdf. Diakses Mei, 2010.

attack

Rabu, 03 November 2010

Speech recognation

Tidak ada komentar:

Posting Komentar

Mengenai Saya