our friends (ocvirkom prijazne strani)

sreda, 22. oktober 2014

Naprave in govorice, 1.del


vir
Ferdinand de Saussure, oče moderne lingvistike in začetnik t.i. strukturalizma, je študentom humanistike poznan predvsem po delu Predavanja iz splošnega jezikoslovja, v katerem je razložil razliko med jezikom (lingue) in govorom (parole).
Zelo posplošeno je jezik arbitraren sistem znakov, medtem ko je govor v bistvu specifična znakovna raba, v katero spadajo zgodovinske in kulturne lastnosti tako govorice kot pisave. De Saussure je postavil tudi znano shemo znak = ozačevalec + označenec, ki je postala ena bolj vplivnih teorij 20. stoletja, uporabljali pa so jo tako v lingvistiki, literarni teoriji in filozofiji kot v družboslovnih znanostih.

To razlikovanje dobro opiše enega od razlogov, zakaj je računalnike tako kompleksno učiti odgovarjati in odpisovati. Čeprav je jezik sistem in bi ga teoretično lahko uporabljali samo z glasilkami, poznavanjem stavčne strukture in dovolj velikim slovarjem, pa je velik del pomena tvorjen skozi govor - kulturne in družbene povezave, ki jih pomeni. Drugače rečeno, zveze med označevalci in označenci tvorijo arbitrarne pomene, ki informacijo oblikujejo na ravni intonacije, gestike, emocij, besedilnih vrst in žanrov, kulturnega konteksta ter drugih lastnosti govora. To zahteva obdelavo velikega števila podatkov, da računalnik ne bi znal uporabljati le primerov komunikacij glede na vnaprej naučen dogodek (pozdrav, prošnja, slovo itd.), temveč bi situacijo razumel iz govora.

Razlika med pisanjem in branjem je poenostavljeno obraten proces: pisava je zapis govora, branje je dešifriranje alfabetičnega zapisa posameznih fonemov. Večina otrok ta proces po oceni glede na učni načrt (2011) osvoji v tretjini šolskega leta. A preden je računalnik lahko začel glasno brati, je moral poznati slikovni zapis zvoka fonemov in glasovne posebnosti delov stavčne strukture. Izvedba izgovarjanja je potekala od dopolnitve sistema z vokalnim aparatom, ki predstavlja mehanski del govorice.


Anatomija človeka, izvor govora


Med prvimi idejami t.i. sintetičnega govora, kot danes imenujejo računalniško pretvorbo iz pisanega v govorjeno besedilo, je Govoreča naprava, ki jo je zgradil Kempelen tik pred svojo smrtjo. Med svojim dvajsetletnim projektom je zaslovel s Turkom, avtomatiziranim igralcem šaha konec 18. stoletja. Sestavljen je bil na čast takratne habsurške cesarice Marije Terezije, šah pa naj bi Turk igral celo z Napoleonom in Benjaminom Franklinom. Kasneje se je izkazalo, da je bil Turk lutka, ki jo je upravljal človek, skrit med uri podobne mehanizme v ohišju “stroja”. Figure na šahovnici je upravljal z magneti na spodnji strani igralne površine, premikal lutkino roko ter simuliral njen govor.

Turk je bil stranski produkt Kempelenove dejavnosti, ki se je celo življenje ukvarjal s študijem vokalnega trakta. Govoreča naprava je bila sestavljena iz meha in lesenega ohišja. Izpihani zrak skozi pregrade, s katerimi je Kepelen posnemal človeški govorni aparat, je mehansko poustvarjal vokale in konzonante.
Wolfgang von Kepelen, Mehanska govorna naprava (vir)

Elektronski govorni aparat


Od 30. letih prejšnjega stoletja naprej so se v Bellovem laboratoriju ukvarjali z računalniško analizo govora. Prvič so pokazali, kako je glas možno ustvarjati umetno z izumom elektronske naprave VODER (Voice Operating Demonstrator), na katerega je bilo moč zaigrati intonacijo stavka, oponašal je človeško govorico in glasove živali, demonistriral petje in različno višino glasu. VODER ni bil izdelan za komercialno rabo, temveč kot edukativni pripomoček. Za upravljanje je bilo potrebno dobro leto dni vaje na napravi.


Od petdesetih let naprej napreduje razvoj elektronskih naprav, vmesnikov za upravljanje in vedno bolj realistično posnemanje človeškega glasu. Prvič so bili predstavljeni bralniki spektograma, ki so predvajali slikovni zapis frekvenc zvoka.



V istem desetletju so predstavili prve resonančne sintetizatorje, ki so bili kasneje dopolnjeni s fizičnimi enotami za modeliranje nalog govornega aparata pri predvajanju fonemov (samoglasnikov, zvočnikov in nezvočnikov). Sledil je artikulacijski aparat, ki je bral ukaze iz posnetka na traku.


Učenje glasnega branja


Prvič je bila pretvorba iz pisave v govorico umetno simulirana 1968 v Elektrotehničnem laboratoriju na Japonskem, kjer so nadgradili sistem z modulom za analizo sintakse. Edukativni interes za raziskovanje je začel preraščati v realno možnost produkcije v komercialne namene. Pot od mehanskega stroja do naprave za glasno branje digitalnega teksta se je skrajšala, med drugim zaradi specifičnih potreb potrošnikov z okvarami vida. Prvi korak v to smer je bil leta 1976 predstavljen t.i. pisava-v-govor pomočnik z optičnim skenerjem, ki je uspešno izgovarjal tekste v različnih tipografijah, a je bil za množični trg predrag (30 000 $ je stal 11 let po najavi).

V sedemdesetih in osemdesetih se razvijajo programi, ki govorijo natipkan tekst, sinteza govora napreduje sočasno s sistemi za prepoznavo govora, saj ju povezuje razvoj algoritmov in nevronskih mrež.

"TTS System" by Andy0101 (talk)

Delovanje TSS sistema


Obličje
  1. Normalizacija: pretvorba znakov v izpisano besedilo
  2. Konverzija grafem-fonem: dodelitev fonetične transkripcije znakom in razdelitev besedila na osnovne enote besedila (povedi, stavke, podredja). Izpis je simbolična lingvistična reprezentacija pisave.
Zaledje ali sintetizator

Izračun višine glasu in trajanja fonemov je apliciran na pretvorbo simbolične lingvistične reprezentacije v zvok.


Izkušnje uporabnikov


Da se je računalnik naučil glasno brati je potreboval približno 50 let. Uporabniška skupina je od začetkov prerasla iz mladih deklet, ki so jih v Bellovih laboratorijih leto dni učili igrati na elektronsko govorno napravo VODER, v ljudi z motnjami vizualnega aparata ali kompleksnejšemi motoričnimi motnjami, ki jim preprečjejo uporabo glasilk. Dolgoleten in verjetno najbolj slaven uporabnik grafem-fonem aplikacij je Stephen Hawking, ki sintetizator uporablja od sredine 1980, od 1997 pa mu komunikacijski sistem sponzorira Intell Inc.:

“Moj glavni računalniški vmesnik je program EZ Keys (Words Plus Inc.), ki na zaslonu prikazuje tipkovnico. Kazalec po vrsticah in kolonah avtomatsko optično prebira to tipkovnico. Posamezen znak na njej izbiram z gibom lica, ki ustavi kazalec na zaslonu. Ifrardeče stikalo na mojih očalih zaznava gib mojega lica. To stikalo je moj edini vmesnik za sporočanje ukazov računalniku. V EZ Keys je vključen algoritem predvidevanja besedila, zato moram ponavadi natipkati le prvih nekaj črk, da lahko izberem besedo. Ko zgradim stavek, ga posredujem sintetizatorju govora. Uporabljam ločeno strojno opremo - sintetizator, ki ga izdeluje Speech+. Kot sem slišal je najboljši, čeprav zaradi njega govorim v naglasu, včasih označenem kot skandinavskem, drugič ameriškem ali škotskem.”
Stephen Hawking, The Computer (vir)


2 komentarja:

  1. Pozdravljeni, dragi občani
    Ne dovolite, da banke narekujejo obrestne mere. Na voljo smo vam za pogajanja o najnižjih cenah na trgu. Obnovite hipoteko ob pravem času in poiščite najboljšo ponudbo. Optimizirajte svoja sredstva! Na voljo imamo najboljše ponudbe. So vas številne banke zavrnile. Ali potrebujete financiranje za konsolidacijo svojega dolga?
    _ številka WhatsApp: 33 7 55 13 33 12
    _ Tu je naš naslov: pierredubreuil35@gmail.com
    vljudno

    OdgovoriIzbriši