Reconeixement de veu de l'estat de Linux

Introducció

Em passo molt de temps investigant articles i molt sovint penso en l'assumpte d'un article mentre caminava a l'estació de tren o quan sortia i en general.

Una nit mentre caminava 1,5 milles a l'estació del meu treball, vaig pensar que "no seria bo si pogués gravar el que volia dir i després haver-lo transcrit automàticament a un fitxer de text que vaig poder editar i formatar més endavant" .

He passat moltes llargues hores mirant les diferents opcions disponibles per al reconeixement de veu i el dictat, incloent-hi la gravació directa a través d'un micròfon amb programari de dictat a Linux, gravant el fitxer a format MP3 o WAV i convertir-lo a través de la línia d'ordres, així com utilitzar Chrome i aplicacions d'Android.

Aquest article destaca les meves troballes després de dies de treball dur.

Opcions de Linux

Intentar trobar programari de diccionament i reconeixement de veu a Linux no és tan fàcil com ho podria ser i les opcions disponibles no són tan intel·ligents.

Aquesta pàgina de wikipedia té una llista de possibles opcions, incloses CMU Sphinx, Julius i Simon.

Estic utilitzant SparkyLinux que es basa en Debian Testing en aquest moment i us puc dir que l'únic paquet de reconeixement de veu disponible als repositoris és Sphinx.

Els programes nadius de Linux que vaig acabar provant van ser PocketSphinx, que solia convertir els fitxers WAV a text i Freespeech-VR, que és una aplicació python que et permet gravar directament des d'un micròfon.

També vaig provar un parell d'aplicacions de Chrome incloent VoiceNote II i Dictanote.

Finalment he provat les aplicacions d'Android "Dictation and Email" i "Talk and Talk Dictation".

Freespeech-VR

Freespeech-VR no està disponible en els dipòsits estàndard. He baixat els fitxers des d'aquí.

Després de descarregar i extreure els continguts del fitxer zip, vaig obrir un terminal i vaig navegar a la carpeta on es van extreure els fitxers.

Vaig escriure l'ordre següent per obrir freespeech-vr.

sudo python freespeech-vr

Tinc un parell d'auriculars amb un micròfon bastant decent i un accent francès clarament meridional.

El text següent apareix a la finestra freespeech-vr:

Benvinguts als gossos de la unitat del resultat Avui hem assegurat Com fer proves administrates Un ha de provar Quan es fa un text Uses una manera del sistema Paraigües I l'Un a cadascun era Només En una Esperança d'estada i A través d'un pollastres d'or com a sistema El Ea quan es diu el meu nom el següent que truca al telèfon Aquest fitxer Com prou poc es posa un telèfon de cas a Hands-Space the esfinge Going No es comparteixen els telèfons Un entrenat i eines Utilitzar el discurs Quan acabeu Es diu Un fitxer utilitzat Last a història A I usant un per quan Quan és molt l'èxit Aquest Linux era com eviteu

M'agradaria dir ara que aquest no és el lloc web Unitat de gossos i en cap moment he mencionat res a veure amb pollastres d'or. En realitat, he intentat descriure el procés d'ús del programari de reconeixement de veu.

Vaig provar el programari diverses vegades incloent velocitat i velocitat variable, però la precisió era baixa.

PocketSphinx

PocketSphinx pot prendre un fitxer WAV i convertir-lo en text utilitzant la línia d'ordres.

PocketSphinx està disponible a través dels dipòsits de Debian i ha d'estar disponible per a la majoria de les distribucions.

El principal problema que vaig trobar amb PocketSphinx és que pràcticament necessiteu un títol en els conceptes de reconeixement de veu, fitxers d'idiomes, diccionaris i com entrenar el sistema.

Després d'instal·lar PocketSphinx, hauríeu d'anar al lloc web de CMU Sphinx i llegir la major quantitat d'informació possible. També heu de descarregar el fitxer de model següent.

(Si no és un parlant nadiu d'anglès, seleccioneu el model d'idioma que us convingui).

La documentació per a PocketSphinx i Sphinx en general és difícil d'entendre per a la persona laica, però del que vaig poder compondre els fitxers de diccionari, s'utilitza per proporcionar una llista de possibles paraules i models d'idiomes amb una llista de possibles pronunciacions.

Per provar PocketSphinx he utilitzat un enregistrament de la meva pròpia veu, un fragment d'Al Pacino a "The Devils Advocate" i un fragment de "Morgan Freeman". El punt d'això era provar veus diferents i per a mi no hi ha ningú que pugui explicar una història tan clara com Morgan Freeman i ningú lliura una línia com Al Pacino.

Per funcionar PocketSphinx necessita un fitxer WAV i ha d'estar en un format determinat. Si el fitxer està en format MP3 utilitzeu l'ordre ffmpeg per convertir-lo en format WAV:

ffmpeg -i inputfilename.mp3 -acodec pcm_s16le -ar 16000 outputfilename.wav

Per executar PocketSphinx, utilitzeu l'ordre següent:

pocketsphinx_continuous -dict /usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic -infile voice2.wav -lm cmusphinx-5.0-en-us.lm 2> voice2.log

pocketsphinx_continuous pren un fitxer WAV i el converteix en text.

A l'ordre a la qual es diu a la butxaca, s'utilitza un fitxer de diccionari anomenat "/usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic" amb el model d'idiomes "cmusphinx-5.0-en-us.lm". El fitxer que es converteix en text es diu voice2.wav (que és una gravació que he fet amb la meva veu). Finalment, el 2> posa tota la sortida detallada que no necessàriament necessiteu en un fitxer anomenat voice2.log. Els resultats reals de la prova es mostren a la finestra del terminal.

Els resultats que utilitzo la meva veu són els següents:

Benvinguts a la propera no gaire bé aquest tema de setmana sobre el programari de reconeixement en un minut

Els resultats no són tan horribles com amb freespeech-vr, però encara no són usables. Després vaig intentar utilitzar PocketSphinx amb Al Pacino, però això no va obtenir cap resultat.

Finalment he intentat utilitzar la veu de Morgan Freeman de la pel·lícula "Bruce Almighty" i aquí teniu els resultats:

000000000: anem a ella
000000001: són tan difícils, sí, el dia que ara mateix sí, aquest és el que més vivim, sóc part del calent
000000002: a l'ascensor que és la clau d'una mica de beisbol o saber què fer a la vida
000000003: quins seran els que es recuperaran
000000004: no ho van escriure
000000005: tenen a mi a la perfecció
000000006: heu de ser regles
000000007: t'he estat esperant
000000008: i va aprendre aquí que era una il·lustració que era la festa de Nadal assassina
000000009: resulta una de les maneres d'escriure o. Vaig pensar que pocs sempre usen un
000000010: igual que el problema unit no li donarà el bé que estic estimat en aquell moment quan no vam pensar que tot el que creguis que estaria en el món serà habitatge i he vist que
000000011: un pare que ho té
000000012: què molt d'això?
000000013: fa això donat
000000014: tot allò que no cau gaire
000000015: a la dreta a la tardor
000000016: manteniu-vos bé només per mi
000000017: és una infelicitat si també penso que tindran un que allò que es casarà en un no ho faria, m'agrada el diferent de la manera

La meva prova difícilment es pot considerar científica i els desenvolupadors de PocketSphinx poden afirmar que no estic fent servir el programari correctament. També hi ha una tècnica anomenada formació de veu que es pot utilitzar per crear millors diccionaris i fitxers de llengua.

Tanmateix, la meva opinió primordial és que és massa difícil per a l'ús diari estàndard.

VoiceNote II

VoiceNote II és una aplicació de Chrome que utilitza l'API de reconeixement de Google Voice.

Si utilitzeu els navegadors Chrome o Chromium, podeu instal·lar VoiceNote II a través de la Web Store .

Les icones de VoiceNote II estan dissenyades d'una manera estranya, ja que cal configurar l'idioma a la part inferior de la finestra i el botó d'edició també es troba a la part inferior, però el botó de gravació es troba a la part superior dreta.

El primer que heu de fer és seleccionar un idioma i això es pot fer clicant a la icona del món.

Per començar a gravar, feu clic a la icona del micròfon i comenceu a parlar al vostre micròfon. Per obtenir els millors resultats, vaig trobar que parlar lentament era clau perquè el programari tingués l'oportunitat de mantenir-se al dia.

Els resultats no van ser grans, com es pot veure a continuació:

Benvingut i benvingut a connectar-vos. Articles d'avui sobre articles sobre conversió de veu a text de la recessió dunelm farrell 2008 com a conversions i va dir que està molt bé recolzat la millor manera de trobar un complement de text de veu per mostrar el paquet 2014debian o rpm que obriu el tipus de veu a la veu al text, obriu-lo si voleu triar vs escolliu a Edimburg, el francès alemany, us aconsellegiu el temps a l'estat de regne unit a la vora del mar que heu acabat d'escriure el vostre text com a fitxer de text a l'arxiu de text. És clar que és un accent anglès molt estàndard del sud d'Anglaterra, el millor per a això, però vaig a la textvia aquesta torrentalong amb el document real i es pot veure pels errors que et fessin per escoltar amics

Dictanote

Dictanote és una altra aplicació de Chrome que es pot utilitzar amb finalitats de dictat i s'ha mostrat més intuïtiva, però els resultats no eren millors que VoiceNote II.

Només he utilitzat la versió de demostració de Dictanote que evita que creeu nous documents, però us permet parlar sobre text que ja es troba a l'editor. Vaig poder provar el reconeixement de veu, però els resultats no eren millors que VoiceNote II i, per tant, no vaig registrar-me a la versió professional.

Dictat i correu

"Dictation And Mail" és una aplicació d'Android que utilitza l'API de reconeixement de veu natiu de Google.

Els resultats de "Dictation and Mail" van ser molt millors que qualsevol altre programa intentat fins a aquest punt.

hola, benvingut a Linux sobre., avui parlem de convertir el so al text

El truc amb "Dictation and Mail" és parlar lentament i pronunciar-lo tan bé com sigui possible amb un accent uniforme.

Un cop hàgiu acabat de parlar, podeu enviar-vos els resultats per correu electrònic.

Dictation de parlar i parlar

L'altra aplicació d'Android que vaig provar va ser "Talk and Talk dictation".

La interfície d'aquesta aplicació era la millor del grup i el reconeixement de veu funcionava molt bé. Després d'enregistrar el dictat vaig poder compartir els resultats de diverses maneres, fins i tot per correu electrònic.

Benvingut a linux about.com d'avui estem parlant de convertir el discurs al text

Com podeu veure, el text que es mostra a dalt és tan clar com podeu esperar. Parlar lentament és la clau.

Resum

Native Linux té molt a veure amb el reconeixement de veu i el dictat específic. Hi ha algunes aplicacions que utilitzen l'API de Google Voice, però encara no estan incloses a la llista de dipòsits.

Les aplicacions de ChromeOS són una mica millor, però de lluny, els millors resultats s'han aconseguit mitjançant el meu telèfon Android. Potser el telèfon té un millor micròfon i, per tant, el programari de reconeixement de veu representa més possibilitats de conversió.

Perquè el reconeixement de veu sigui realment usable, ha de ser més intuïtiu amb menys configuració requerida. No hauríeu de tenir problemes amb els models d'idiomes i els diccionaris per tal que sigui intel·ligible.

No obstant això, aprecio que tot l'art del reconeixement de la veu és molt desafiador perquè tothom té una veu diferent i hi ha tants dialectes de regió a regió en un país sense preocupar-se mai de les centenars d'idiomes que s'utilitzen arreu del món.

Per tant, la meva anàlisi és que el programari de reconeixement de veu continua treballant.