Bu yazı için, John Garofolo, Standartlar ve Teknoloji Ulusal Enstitüsü Bilgi Teknolojisi Laboratuarı'nda Konuşma Grup Müdürü ile konuştum. Veri Üye olmak istiyorum Biz de bu makale ile yaptığı yardım için Joshua Senecal teşekkür etmek istiyorum.
Konuşma
ekranda metin veya bir bilgisayar komutuna konuşma dönüştürmek için, bir bilgisayar çok karmaşık adımlarda gitmek zorunda . Konuştuğunuz zaman, havada titreşim yaratır. Analog-dijital çevirici (ADC) bilgisayar anlayabileceği dijital veri içine bu analog dalga çevirir. Bu örnekler, bu yapın ya da sık aralıklarla dalga hassas ölçümler alarak, ses digitizes için. Sistem dijital ses frekansının farklı bantları (frekans perdesinde farklılıklar gibi insanlar tarafından duydum ses dalgalarının dalga boyu vardır) içine ayırmak için bazen istenmeyen gürültüyü ortadan kaldırmak, ve filtreler. Ayrıca ses normalleştirir, ya da sabit hacimli seviyeye ayarlar. Aynı zamanda, zamansal olarak hizalanmış gerekebilir. Ses zaten sistemin hafızasında saklanan şablon ses örnekleri hızına uyacak şekilde ayarlanmalıdır yüzden insanlar hep aynı hızda do not speak.
Sinyali gibi kısa küçük parçalara bölünür
Sonraki Birkaç saniyenin hundredths veya patlayıcı ünsüz seslerin durumunda bile binde - vokal yollarında hava akımını engelleyerek üretilen ünsüz durdurmak - benzeri " p " veya ". t " Program daha sonra uygun dilde bilinen sesbirimler bu kesimleri eşleşir. Bir fonem, bir dilin en küçük öğesidir - Yaptığımız sesler temsil ve anlamlı ifadeleri oluşturmak için bir araya koymak. Diğer diller fazla veya daha az fonemleri varken İngilizce dilinde 40 sesleri (farklı dilbilimci tam sayısı farklı görüşlere sahibiz), kabaca vardır.
Bir sonraki adım basit görünüyor, ama aslında en zor başarmak ve en konuşma tanıma araştırma isimli odak noktasıdır. Program çevrelerindeki diğer sesbirimlerinin bağlamında sesbirimleri inceler. Bu karmaşık istatistiksel modeli ile bağlamsal sesbirim arsa çalışır ve bilinen kelimeler, deyimler ve cümleler büyük bir kütüphaneye onları karşılaştırır. Program daha sonra.
Biz tam bu önümüzdeki yapar nasıl daha yakından göz atacağız. Kullanıcı muhtemelen söyleyerek ve metin veya konular bir bilgisayar komut olarak ya çıkışlar onu ne belirler Konuşma Tanıma ve istatistiki
Modelleme
Erken konuşma tanıma sistemleri konuşma gra