In-numru ta 'applikazzjonijiet u l-importanza ta' interfaces tal-vuċi qed jikbru malajr
Teknoloġija

In-numru ta 'applikazzjonijiet u l-importanza ta' interfaces tal-vuċi qed jikbru malajr

Familja Amerikana f’Portland, Oregon reċentement saret taf li l-assistent tal-vuċi ta’ Alex irrekordja ċ-chats privati ​​tagħhom u bagħathom lil ħabib. Is-sid tad-dar, imsejħa Danielle mill-midja, qalet lill-ġurnalisti li hija “qatt ma terġa’ twaħħal dak l-apparat għax ma tistax tiġi fdata”.

Alexa, ipprovdut minn kelliema Echo (1) u aġġeġġi oħra f'għexieren ta' miljuni ta' djar tal-Istati Uniti, jibda jirreġistra meta jisma' isimha jew "kelma ta' sejħa" mitkellma mill-utent. Dan ifisser li anki jekk il-kelma "Alexa" tissemma f'reklam tat-TV, l-apparat jista' jibda jirreġistra. Dak huwa eżattament dak li ġara f'dan il-każ, tgħid Amazon, id-distributur tal-ħardwer.

"Il-bqija tal-konversazzjoni ġiet interpretata mill-assistent tal-vuċi bħala kmand biex jintbagħat messaġġ," qalet il-kumpanija fi stqarrija. “F’xi punt, Alexa staqsiet b’leħen għoli: “Lil min?” Il-kontinwazzjoni tal-konversazzjoni tal-familja dwar l-art tal-injam iebes kellha tiġi pperċepita mill-magna bħala oġġett fil-lista ta’ kuntatti tal-klijent.” Mill-inqas hekk taħseb Amazon. Għalhekk, it-traduzzjoni hija mnaqqsa għal serje ta 'inċidenti.

L-ansjetà, madankollu, tibqa '. Għax għal xi raġuni, f’dar fejn għadna nħossuna komdi, irridu nidħlu f’xi tip ta’ “voice mode”, naraw x’ngħidu, x’qed ixandar it-TV u, ovvjament, x’inhu dan il-kelliem ġdid fuq sidru. kxaxen jgħid . lilna.

Madankollu, Minkejja l-imperfezzjonijiet tat-teknoloġija u t-tħassib dwar il-privatezza, biż-żieda fil-popolarità ta 'apparati bħall-Amazon Echo, in-nies qed jibdew jidraw l-idea li jinteraġixxu ma' kompjuters bl-użu tal-vuċi tagħhom..

Kif Werner Vogels, CTO tal-Amazon, innota matul is-sessjoni tiegħu AWS re:Invent lejn l-aħħar tal-2017, it-teknoloġija s'issa llimitat il-kapaċità tagħna li jinteraġixxu mal-kompjuters. Aħna ttajpja kliem ewlieni fil-Google billi tuża t-tastiera, peress li dan għadu l-aktar mod komuni u eħfef biex tiddaħħal l-informazzjoni fil-magna.

qal Vogels. -

erbgħa kbar

Meta nużaw il-magna tat-tiftix Google fuq it-telefon, x'aktarx innutajna sinjal tal-mikrofonu b'sejħa biex nitkellmu żmien twil ilu. Dan Google issa (2), li jista 'jintuża biex jiddetta mistoqsija ta' tfittxija, daħħal messaġġ bil-vuċi, eċċ F'dawn l-aħħar snin, Google, Apple, u Amazon tjiebu ħafna teknoloġija ta 'rikonoxximent tal-vuċi. Assistenti tal-vuċi bħal Alexa, Siri u Google Assistant mhux biss jirreġistraw il-vuċi tiegħek, iżda jifhmu wkoll dak li tgħidilhom u jwieġbu l-mistoqsijiet.

Google Now huwa disponibbli b'xejn għall-utenti kollha ta' Android. L-applikazzjoni tista', pereżempju, tissettja allarm, tiċċekkja t-tbassir tat-temp u tiċċekkja r-rotta fuq Google maps. Estensjoni ta 'konversazzjoni ta' Google Now jiddikjara Google Assistant () – assistenza virtwali lill-utent tat-tagħmir. Huwa disponibbli prinċipalment fuq tagħmir tad-dar mobbli u intelliġenti. B'differenza minn Google Now, tista' tipparteċipa fi skambju f'żewġ direzzjonijiet. L-assistent iddebutta f'Mejju 2016 bħala parti mill-app tal-messaġġi ta' Google Allo, kif ukoll fil-kelliem tal-vuċi Google Home (3).

3. Google Home

Is-sistema IOS għandha wkoll l-assistent virtwali tagħha stess, Siri, li huwa programm inkluż mas-sistemi operattivi ta' Apple iOS, watchOS, tvOS homepod, u macOS. Siri iddebutta bl-iOS 5 u l-iPhone 4s f'Ottubru 2011 fil-konferenza Let's Talk iPhone.

Is-softwer huwa bbażat fuq interface ta 'konversazzjoni: jirrikonoxxi d-diskors naturali tal-utent (bl-iOS 11 huwa wkoll possibbli li ddaħħal kmandi manwalment), iwieġeb mistoqsijiet u jlesti l-kompiti. Grazzi għall-introduzzjoni tat-tagħlim tal-magni, assistent matul iż-żmien janalizza l-preferenzi personali l-utent biex jipprovdi riżultati u rakkomandazzjonijiet aktar rilevanti. Siri teħtieġ konnessjoni tal-Internet kostanti - is-sorsi ewlenin ta 'informazzjoni hawnhekk huma Bing u Wolfram Alpha. iOS 10 introduċa appoġġ għal estensjonijiet ta 'partijiet terzi.

Ieħor mill-erba l-kbar Cortana. Huwa assistent personali intelliġenti maħluq minn Microsoft. Huwa appoġġjat fuq pjattaformi Windows 10, Windows 10 Mobile, Windows Phone 8.1, Xbox One, Skype, Microsoft Band, Microsoft Band 2, Android u iOS. Cortana ġiet introdotta għall-ewwel darba fil-Microsoft Build Developer Conference f'April 2014 f'San Francisco. L-isem tal-programm ġej mill-isem ta' karattru mis-serje tal-logħob Halo. Cortana hija disponibbli bl-Ingliż, Taljan, Spanjol, Franċiż, Ġermaniż, Ċiniż u Ġappuniż.

Utenti tal-programm diġà msemmi Alexa iridu jqisu wkoll ir-restrizzjonijiet tal-lingwa - l-assistent diġitali jitkellem biss bl-Ingliż, bil-Ġermaniż, bil-Franċiż u bil-Ġappuniż.

L-Assistent Virtwali tal-Amazon intuża għall-ewwel darba fil-kelliema intelliġenti Amazon Echo u Amazon Echo Dot żviluppati minn Amazon Lab126. Jippermetti interazzjoni bil-vuċi, daqq ta' mużika, ħolqien ta' lista ta' affarijiet, iffissar ta' allarm, strimjar ta' podcasts, daqq ta' awdjo-ktieb, u informazzjoni f'ħin reali dwar temp, traffiku, sports, u informazzjoni oħra ta' aħbarijiet bħal aħbarijiet (4). Alexa tista 'tikkontrolla apparati intelliġenti multipli biex toħloq sistema ta' awtomazzjoni tad-dar. Jista 'jintuża wkoll biex isir xiri konvenjenti fil-maħżen tal-Amazon.

4. Għal xiex Jużaw l-Utenti Echo (Skond ir-Riċerka)

L-utenti jistgħu jtejbu l-esperjenza ta 'Alexa billi jinstallaw "ħiliet" Alexa (), karatteristiċi addizzjonali żviluppati minn partijiet terzi, aktar komunement imsejħa apps bħat-temp u programmi awdjo f'ambjenti oħra. Il-biċċa l-kbira tat-tagħmir Alexa jippermettulek tattiva l-assistent virtwali tiegħek b'password ta' riattivazzjoni, imsejħa .

Amazon definittivament tiddomina s-suq tal-ispikers intelliġenti llum (5). IBM, li introduċiet servizz ġdid f'Marzu 2018, qed tipprova tidħol fl-ewwel erbgħa L-assistent ta’ Watson, iddisinjat għal kumpaniji li jridu joħolqu s-sistemi tagħhom stess ta 'assistenti virtwali b'kontroll tal-vuċi. X'inhu l-vantaġġ tas-soluzzjoni IBM? Skond ir-rappreżentanti tal-kumpanija, l-ewwelnett, fuq opportunitajiet ferm akbar għall-personalizzazzjoni u l-protezzjoni tal-privatezza.

L-ewwel, Watson Assistant mhux tad-ditta. Il-kumpaniji jistgħu joħolqu s-soluzzjonijiet tagħhom stess fuq din il-pjattaforma u jittikkettjawhom bil-marka tagħhom stess.

It-tieni, jistgħu jħarrġu s-sistemi ta 'assistenza tagħhom billi jużaw is-settijiet tad-dejta tagħhom stess, li IBM tgħid jagħmilha aktar faċli biex iżidu karatteristiċi u kmandi ma' dik is-sistema minn teknoloġiji oħra VUI (interface tal-utent tal-vuċi).

It-tielet nett, Watson Assistant ma jipprovdix lill-IBM b'informazzjoni dwar l-attività tal-utent - l-iżviluppaturi ta 'soluzzjonijiet fuq il-pjattaforma jistgħu biss iżommu data ta' valur għalihom infushom. Sadanittant, kull min jibni apparat, pereżempju ma 'Alexa, għandu jkun konxju li d-dejta siewja tiegħu se tispiċċa fuq Amazon.

Watson Assistant diġà għandu diversi implimentazzjonijiet. Is-sistema ntużat, pereżempju, minn Harman, li ħoloq assistent tal-vuċi għall-karozza kunċettwali Maserati (6). Fl-Ajruport ta’ Munich, assistent tal-IBM iħaddem robot Pepper biex jgħin lill-passiġġieri jiċċaqilqu. It-tielet eżempju huwa Chameleon Technologies, fejn it-teknoloġija tal-vuċi tintuża f'miter tad-dar intelliġenti.

6. Watson Assistant f'karozza concept Maserati

Ta 'min iżid li t-teknoloġija sottostanti hawnhekk ukoll mhix ġdida. Watson Assistant jinkludi kapaċitajiet ta' encryption għal prodotti IBM eżistenti, Watson Conversation, u Watson Virtual Agent, kif ukoll APIs għall-analiżi tal-lingwa u ċ-chat.

Amazon mhix biss mexxej fit-teknoloġija tal-vuċi intelliġenti, iżda qed tibdelha f'negozju dirett. Madankollu, xi kumpaniji esperimentaw bl-integrazzjoni Echo ħafna qabel. Sisense, kumpanija fl-industrija tal-BI u l-analitika, introduċiet l-integrazzjoni Echo f'Lulju 2016. Min-naħa tagħha, l-istartjar Roxy iddeċidiet li toħloq is-softwer u l-ħardwer ikkontrollati bil-vuċi tagħha stess għall-industrija tal-ospitalità. Aktar kmieni din is-sena, Synqq introduċa app għat-teħid ta’ noti li tuża l-vuċi u l-ipproċessar tal-lingwa naturali biex iżżid noti u entrati tal-kalendarju mingħajr ma jkollok bżonn ittajpjahom fuq tastiera.

Dawn in-negozji ż-żgħar kollha għandhom ambizzjonijiet għoljin. Fuq kollox, madankollu, tgħallmu li mhux kull utent irid jittrasferixxi d-dejta tagħhom lil Amazon, Google, Apple jew Microsoft, li huma l-aktar atturi importanti fil-bini ta 'pjattaformi ta' komunikazzjoni bil-vuċi.

L-Amerikani jridu jixtru

Fl-2016, it-tfittxija bil-vuċi ammontat għal 20% tat-tfittxijiet kollha fuq il-mowbajl tal-Google. Nies li jużaw din it-teknoloġija fuq bażi ta 'kuljum jikkwotaw il-konvenjenza tagħha u l-multitasking fost l-akbar benefiċċji tagħha. (pereżempju, il-ħila li tuża magna tat-tiftix waqt is-sewqan ta' karozza).

L-analisti ta 'Visiongain jistmaw il-valur tas-suq attwali tal-assistenti diġitali intelliġenti għal $ 1,138 biljun. Hemm aktar u aktar mekkaniżmi bħal dawn. Skont Gartner, sa tmiem l-2018 diġà 30% tal-interazzjonijiet tagħna mat-teknoloġija se jkun permezz ta’ konversazzjonijiet b’sistemi tal-vuċi.

Id-ditta Brittanika tar-riċerka IHS Markit tistma li s-suq għall-assistenti diġitali li jaħdmu bl-AI se jilħaq 4 biljun apparat sal-aħħar ta’ din is-sena, u dak in-numru jista’ jitla’ għal 2020 biljun sal-7.

Skont rapporti minn eMarketer u VoiceLabs, 2017 miljun Amerikan użaw il-kontroll tal-vuċi mill-inqas darba fix-xahar fl-35,6. Dan ifisser żieda ta’ kważi 130% fuq is-sena ta’ qabel. Is-suq tal-assistenti diġitali waħdu mistenni jikber sal-2018% fi 23. Dan ifisser li diġà se tkun qed tużahom. 60,5 miljun Amerikan, li se jirriżultaw fi flus konkreti għall-produtturi tagħhom. RBC Capital Markets jistma li l-interface Alexa se tiġġenera sa $2020 biljun fi dħul għall-Amazon sal-10.

Aħsel, aħmi, naddaf!

L-interfaces tal-vuċi qed jidħlu dejjem aktar b'mod kuraġġuż fis-swieq tal-apparat tad-dar u tal-elettronika tal-konsumatur. Dan diġà jista 'jidher matul il-wirja IFA tas-sena l-oħra 2017. Il-kumpanija Amerikana Neato Robotics introduċiet, pereżempju, robot vacuum cleaner li jgħaqqad ma' waħda minn diversi pjattaformi tad-dar intelliġenti, inkluża s-sistema Amazon Echo. Billi titkellem mal-kelliem intelliġenti Echo, tista 'tagħti struzzjonijiet lill-magna biex tnaddaf id-dar kollha tiegħek f'ħinijiet speċifiċi tal-ġurnata jew tal-lejl.

Fl-ispettaklu ġew murija prodotti oħra attivati ​​bil-vuċi, li jvarjaw minn televiżjonijiet intelliġenti mibjugħa taħt il-marka Toshiba mill-kumpanija Torka Vestel sa kutri msaħħna mill-kumpanija Ġermaniża Beurer. Ħafna minn dawn l-apparati elettroniċi jistgħu wkoll jiġu attivati ​​mill-bogħod bl-użu ta’ smartphones.

Madankollu, skont ir-rappreżentanti ta 'Bosch, għadu kmieni wisq biex wieħed jgħid liema mill-għażliet tal-assistent tad-dar se ssir dominanti. Fl-IFA 2017, grupp tekniku Ġermaniż wera magni tal-ħasil (7), fran u magni tal-kafè li jgħaqqdu ma 'Echo. Bosch trid ukoll li l-apparati tiegħu jkunu kompatibbli mal-pjattaformi tal-vuċi ta’ Google u Apple fil-futur.

7. Magna tal-ħasil Bosch li tgħaqqad ma 'Amazon Echo

Kumpaniji bħal Fujitsu, Sony u Panasonic qed jiżviluppaw is-soluzzjonijiet tagħhom ta’ assistent tal-vuċi bbażati fuq l-AI. Sharp qed iżżid din it-teknoloġija mal-fran u robots żgħar li jidħlu fis-suq. Nippon Telegraph & Telephone qed timpjega ħardwer u produtturi tal-ġugarelli biex jadattaw sistema ta' intelliġenza artifiċjali kkontrollata bil-vuċi.

Kunċett antik. Fl-aħħar wasal iż-żmien tagħha?

Fil-fatt, il-kunċett ta 'Vuice User Interface (VUI) ilu għal għexieren ta' snin. Kull min ra Star Trek jew 2001: A Space Odyssey snin ilu aktarx stenna li madwar is-sena 2000 ilkoll nikkontrollaw il-kompjuters bil-vuċi tagħna. Ukoll, ma kinux biss kittieba tal-fantaxjenza li raw il-potenzjal ta 'dan it-tip ta' interface. Fl-1986, ir-riċerkaturi Nielsen staqsew lill-professjonisti tal-IT x'ħasbu li kienet l-akbar bidla fl-interfaces tal-utent sas-sena 2000. Ħafna drabi huma indikaw l-iżvilupp ta 'interfaces tal-vuċi.

Hemm raġunijiet biex tittama għal soluzzjoni bħal din. Il-komunikazzjoni verbali hija, wara kollox, l-aktar mod naturali biex in-nies jiskambjaw ħsibijiet konxjament, għalhekk l-użu tagħha għall-interazzjoni bejn il-bniedem u l-magna tidher li hija l-aħjar soluzzjoni s'issa.

Wieħed mill-ewwel VUIs, imsejħa kaxxa taż-żraben, inħoloq fil-bidu tas-snin 60 minn IBM. Kienet il-prekursur tas-sistemi ta’ rikonoxximent tal-vuċi tal-lum. Madankollu, l-iżvilupp ta 'apparati VUI kien limitat mil-limiti tal-qawwa tal-kompjuters. L-analiżi u l-interpretazzjoni tad-diskors tal-bniedem f'ħin reali jirrikjedi ħafna sforz, u ħadet aktar minn ħamsin sena biex waslet sal-punt fejn fil-fatt sar possibbli.

Mezzi b'interface tal-vuċi bdew jidhru fil-produzzjoni tal-massa f'nofs is-snin 90, iżda ma kisbux popolarità. L-ewwel telefon bil-kontroll tal-vuċi (li tisselezzjona) kien Philips Sparkrilaxxati fl-1996. Madankollu, dan l-apparat innovattiv u faċli biex jintuża ma kienx ħieles minn limitazzjonijiet teknoloġiċi.

Telefowns oħra mgħammra b'forom ta 'interface tal-vuċi (maħluqa minn kumpaniji bħal RIM, Samsung jew Motorola) regolarment jolqtu s-suq, li jippermettu lill-utenti jċemplu bil-vuċi jew jibagħtu messaġġi. Kollha kemm huma, madankollu, kienu jeħtieġu li jimmemorizzaw kmandi speċifiċi u li jippronunzjawhom f'forma sfurzata, artifiċjali, adattata għall-kapaċitajiet tal-apparati ta 'dak iż-żmien. Dan iġġenera numru kbir ta 'żbalji, li, imbagħad, wasslu għal nuqqas ta' sodisfazzjon tal-utent.

Madankollu, issa qed nidħlu f'era ġdida tal-kompjuters, li fiha l-avvanzi fit-tagħlim tal-magni u l-intelliġenza artifiċjali qed nisfruttaw il-potenzjal tal-konversazzjoni bħala mod ġdid biex jinteraġixxu mat-teknoloġija (8). In-numru ta 'apparat li jappoġġja l-interazzjoni tal-vuċi sar fattur importanti li kellu impatt kbir fuq l-iżvilupp ta' VUI. Illum, kważi 1/3 tal-popolazzjoni tad-dinja diġà għandha smartphones li jistgħu jintużaw għal dan it-tip ta 'mġieba. Jidher li ħafna mill-utenti huma finalment lesti biex jadattaw l-interfaces tal-vuċi tagħhom.

8. Storja moderna tal-iżvilupp tal-interface tal-vuċi

Madankollu, qabel ma nkunu nistgħu nitkellmu b’mod liberu ma’ kompjuter, kif għamlu l-eroj ta’ A Space Odyssey, irridu negħlbu għadd ta’ problemi. Il-magni għadhom mhumiex tajbin ħafna biex jimmaniġġjaw sfumaturi lingwistiċi. Barra minn hekk ħafna nies għadhom iħossuhom skomdi li jagħtu kmandi bil-vuċi lil magna tat-tiftix.

L-istatistika turi li l-assistenti tal-vuċi jintużaw primarjament fid-dar jew fost ħbieb qrib. Ħadd minn dawk intervistati ma ammetta li juża t-tfittxija bil-vuċi f’postijiet pubbliċi. Madankollu, dan l-imblokk x'aktarx li jisparixxi bit-tixrid ta 'din it-teknoloġija.

mistoqsija teknikament diffiċli

Il-problema li jiffaċċjaw is-sistemi (ASR) hija l-estrazzjoni ta 'data utli minn sinjal ta' diskors u jassoċjawha ma 'ċerta kelma li għandha ċertu tifsira għal persuna. Il-ħsejjes prodotti huma differenti kull darba.

Varjabilità tas-sinjal tad-diskors hija l-proprjetà naturali tagħha, li grazzi għaliha aħna, pereżempju, nagħrfu aċċent jew intonazzjoni. Kull element tas-sistema ta' rikonoxximent tad-diskors għandu kompitu speċifiku. Ibbażat fuq is-sinjal ipproċessat u l-parametri tiegħu, jinħoloq mudell akustiku, li huwa assoċjat mal-mudell tal-lingwa. Is-sistema ta 'rikonoxximent tista' taħdem fuq il-bażi ta 'numru żgħir jew kbir ta' mudelli, li jiddetermina d-daqs tal-vokabularju li jaħdem miegħu. Jistgħu jkunu dizzjunarji żgħar fil-każ ta’ sistemi li jirrikonoxxu kliem jew kmandi individwali, kif ukoll databases kbar li jkun fih l-ekwivalenti tas-sett tal-lingwa u li jqis il-mudell tal-lingwa (grammatika).

Problemi ffaċċjati mill-interfaces tal-vuċi fl-ewwel lok tifhem id-diskors b'mod korrett, li fihom, pereżempju, sekwenzi grammatikali sħaħ jitħallew barra, iseħħu żbalji lingwistiċi u fonetiċi, żbalji, ommissjonijiet, difetti fid-diskors, omonimi, ripetizzjonijiet mhux ġustifikati, eċċ.. Dawn is-sistemi ACP kollha għandhom jaħdmu malajr u b'mod affidabbli. Mill-inqas dawk huma l-aspettattivi.

Is-sors tad-diffikultajiet huma wkoll sinjali akustiċi minbarra d-diskors rikonoxxut li jidħlu fid-dħul tas-sistema ta’ rikonoxximent, i.e. kull tip interferenza u storbju. Fl-aktar każ sempliċi, għandek bżonnhom iffiltra barra. Dan il-kompitu jidher ta 'rutina u faċli - wara kollox, diversi sinjali huma ffiltrati u kull inġinier elettroniku jaf x'għandu jagħmel f'sitwazzjoni bħal din. Madankollu, dan għandu jsir bir-reqqa u bir-reqqa jekk ir-riżultat tar-rikonoxximent tad-diskors ikun li jilħaq l-aspettattivi tagħna.

Il-filtrazzjoni użata bħalissa tagħmilha possibbli li jitneħħa, flimkien mas-sinjal tad-diskors, il-ħoss estern miġbur mill-mikrofonu u l-proprjetajiet interni tas-sinjal tad-diskors innifsu, li jagħmluha diffiċli biex tagħrafha. Madankollu, problema teknika ħafna aktar kumplessa tqum meta l-interferenza għas-sinjal tad-diskors analizzat huwa ... sinjal tad-diskors ieħor, jiġifieri, per eżempju, diskussjonijiet qawwija madwar. Din il-mistoqsija hija magħrufa fil-letteratura bħala l-hekk imsejħa . Dan diġà jeħtieġ l-użu ta 'metodi kumplessi, l-hekk imsejħa. dekonvoluzzjoni (jiżvela) is-sinjal.

Il-problemi bir-rikonoxximent tad-diskors ma jispiċċawx hemm. Ta’ min nirrealizzaw li d-diskors iġorr ħafna tipi differenti ta’ informazzjoni. Il-vuċi umana tissuġġerixxi s-sess, l-età, il-karattri differenti tas-sid jew l-istat ta 'saħħa tiegħu. Hemm dipartiment estensiv ta 'inġinerija bijomedika li jittratta d-dijanjosi ta' diversi mard ibbażat fuq il-fenomeni akustiċi karatteristiċi misjuba fis-sinjal tad-diskors.

Hemm ukoll applikazzjonijiet fejn l-iskop ewlieni ta’ analiżi akustika ta’ sinjal ta’ diskors huwa li jiġi identifikat il-kelliem jew li jiġi vverifikat li hu min jgħid li hu (vuċi minflok ċavetta, password jew kodiċi PUK). Dan jista' jkun importanti, speċjalment għat-teknoloġiji tal-bini intelliġenti.

L-ewwel komponent ta 'sistema ta' rikonoxximent tad-diskors huwa микрофон. Madankollu, is-sinjal li jinġabar mill-mikrofonu ġeneralment jibqa 'ta' ftit użu. Studji juru li l-forma u l-kors tal-mewġ tal-ħoss ivarjaw ħafna skont il-persuna, il-veloċità tad-diskors, u parzjalment il-burdata tal-interlokutur - filwaqt li sa ċertu punt jirriflettu l-kontenut stess tal-kmandi mitkellma.

Għalhekk, is-sinjal għandu jiġi pproċessat b'mod korrett. L-akustika moderna, il-fonetika u x-xjenza tal-kompjuter flimkien jipprovdu sett għani ta’ għodod li jistgħu jintużaw biex jipproċessaw, janalizzaw, jagħrfu u jifhmu sinjal tad-diskors. L-ispettru dinamiku tas-sinjal, l-hekk imsejjaħ spettrogrammi dinamiċi. Huma pjuttost faċli biex jinkisbu, u d-diskors, ippreżentat fil-forma ta 'spettrogramma dinamika, huwa relattivament faċli biex jiġi rikonoxxut bl-użu ta' tekniki simili għal dawk użati fir-rikonoxximent tal-immaġni.

Elementi sempliċi ta 'diskors (per eżempju, kmandi) jistgħu jiġu rikonoxxuti mill-xebh sempliċi ta' spettrogrammi sħaħ. Pereżempju, dizzjunarju tal-mowbajl attivat bil-vuċi fih biss minn ftit għexieren sa ftit mijiet ta’ kliem u frażijiet, ġeneralment imqabbda minn qabel sabiex ikunu jistgħu jiġu identifikati faċilment u b’mod effiċjenti. Dan huwa biżżejjed għal kompiti ta 'kontroll sempliċi, iżda jillimita severament l-applikazzjoni ġenerali. Sistemi mibnija skont l-iskema, bħala regola, jappoġġjaw biss kelliema speċifiċi li għalihom il-vuċijiet huma mħarrġa b'mod speċjali. Mela jekk ikun hemm xi ħadd ġdid li jrid juża leħnu biex jikkontrolla s-sistema, x'aktarx ma jiġix aċċettat.

Ir-riżultat ta 'din l-operazzjoni jissejjaħ spettrogramma 2-W, jiġifieri, spettru bidimensjonali. Hemm attività oħra f'dan il-blokk li ta' min joqgħod attent għal - segmentazzjoni. B'mod ġenerali, qed nitkellmu dwar it-tkissir ta 'sinjal ta' diskors kontinwu f'partijiet li jistgħu jiġu rikonoxxuti separatament. Huwa biss minn dawn id-dijanjosi individwali li jsir ir-rikonoxximent tat-totalità. Din il-proċedura hija meħtieġa għaliex mhux possibbli li jiġi identifikat diskors twil u kumpless f'daqqa waħda. Diġà nkitbu volumi sħaħ dwar liema segmenti għandhom jiddistingwu f'sinjal tad-diskors, għalhekk mhux se niddeċiedu issa jekk is-segmenti distinti għandhomx ikunu fonemi (ekwivalenti tal-ħoss), sillabi, jew forsi allofoni.

Il-proċess ta 'rikonoxximent awtomatiku dejjem jirreferi għal xi karatteristiċi ta' oġġetti. Ġew ittestjati mijiet ta' settijiet ta' parametri differenti għas-sinjal tad-diskors. Is-sinjal tad-diskors għandu maqsuma f'frejms rikonoxxuti u li jkollhom karatteristiċi magħżulafejn dawn il-frejms huma ppreżentati fil-proċess ta 'rikonoxximent, nistgħu nwettqu (għal kull frame separatament) kategorizzazzjoni, i.e. jassenja identifikatur għall-qafas, li se jirrappreżentah fil-futur.

L-istadju li jmiss assemblaġġ ta 'frejms fi kliem separat - ħafna drabi bbażati fuq l-hekk imsejħa. mudell ta' mudelli impliċiti ta' Markov (HMM-). Imbagħad jiġi l-muntaġġ tal-kliem sentenzi kompluti.

Issa nistgħu nerġgħu lura għas-sistema Alexa għal mument. L-eżempju tiegħu juri proċess f'diversi stadji ta '"fehim" tal-magna ta' persuna - b'mod aktar preċiż: kmand mogħti minnu jew mistoqsija magħmula.

Il-fehim tal-kliem, il-fehim tat-tifsira, u l-fehim tal-intenzjoni tal-utent huma affarijiet kompletament differenti.

Għalhekk, il-pass li jmiss huwa x-xogħol tal-modulu NLP (), li l-kompitu tiegħu huwa rikonoxximent tal-intenzjoni tal-utent, i.e. it-tifsira tal-kmand/mistoqsija fil-kuntest li fih tkun intqal. Jekk l-intenzjoni hija identifikata, allura assenjazzjoni tal-hekk imsejħa ħiliet u abbiltajiet, jiġifieri l-karatteristika speċifika appoġġjata mill-assistent intelliġenti. Fil-każ ta 'mistoqsija dwar it-temp, jissejħu sorsi tad-dejta tat-temp, li għad irid jiġi pproċessat f'diskors (TTS - mekkaniżmu). Bħala riżultat, l-utent jisma' t-tweġiba għall-mistoqsija li ssir.

Vuċi? Arti grafika? Jew forsi t-tnejn?

Ħafna sistemi ta 'interazzjoni moderni magħrufa huma bbażati fuq intermedjarju msejjaħ interface grafiku għall-utent (interface grafika). Sfortunatament, il-GUI mhix l-aktar mod ovvju biex jinteraġixxu ma 'prodott diġitali. Dan jeħtieġ li l-utenti l-ewwel jitgħallmu kif jużaw l-interface u jiftakru din l-informazzjoni ma 'kull interazzjoni sussegwenti. F'ħafna sitwazzjonijiet, il-vuċi hija ħafna aktar konvenjenti, għaliex tista 'tinteraġixxi mal-VUI sempliċement billi titkellem mal-apparat. Interface li ma jġiegħelx lill-utenti jimmemorizzaw u jimmemorizzaw ċerti kmandi jew metodi ta' interazzjoni jikkawża inqas problemi.

Naturalment, l-espansjoni ta 'VUI ma tfissirx li jiġu abbandunati interfaces aktar tradizzjonali - pjuttost, interfaces ibridi se jkunu disponibbli li jgħaqqdu diversi modi ta' interazzjoni.

L-interface tal-vuċi mhix adattata għall-kompiti kollha f'kuntest mobbli. Magħha, insejħu ħabib li jsuq karozza, u anke nibagħtulu SMS, iżda l-iċċekkjar tal-aħħar trasferimenti jista 'jkun diffiċli wisq - minħabba l-ammont ta' informazzjoni trażmessa lis-sistema () u ġġenerata mis-sistema (sistema). Kif tissuġġerixxi Rachel Hinman fil-ktieb tagħha Mobile Frontier, l-użu tal-VUI isir l-aktar effettiv meta twettaq kompiti fejn l-ammont ta 'informazzjoni ta' input u output huwa żgħir.

Smartphone konness mal-Internet huwa konvenjenti iżda wkoll inkonvenjenti (9). Kull darba li utent irid jixtri xi ħaġa jew juża servizz ġdid, irid tniżżel app oħra u joħloq kont ġdid. Hawnhekk inħoloq qasam għall-użu u l-iżvilupp tal-interfaces tal-vuċi. Minflok ma ġġiegħel lill-utenti jinstallaw ħafna apps differenti jew joħolqu kontijiet separati għal kull servizz, l-esperti jgħidu li VUI se ċċaqlaq il-piż ta 'dawn il-kompiti ingombranti għal assistent tal-vuċi li jaħdem bl-AI. Ikun konvenjenti għalih li jwettaq attivitajiet strapazz. Aħna se nagħtuh ordnijiet biss.

9. Interface tal-vuċi permezz tat-telefon intelliġenti

Illum, aktar minn sempliċiment telefon u kompjuter huma konnessi mal-Internet. Termostati intelliġenti, dwal, ktieli u ħafna apparat ieħor integrat fl-IoT huma wkoll konnessi man-netwerk (10). Għalhekk, hemm apparati bla fili madwarna kollha li jimlew ħajjitna, iżda mhux kollha jidħlu b'mod naturali fl-interface tal-utent grafika. L-użu tal-VUI jgħinek tintegrahom faċilment fl-ambjent tagħna.

10. Interfaċċja tal-vuċi mal-Internet tal-Oġġetti

Il-ħolqien ta' interface għall-utent tal-vuċi dalwaqt se jsir ħila ewlenija tad-disinjatur. Din hija problema reali - il-ħtieġa li timplimenta sistemi tal-vuċi se tħeġġeġ biex tiffoka aktar fuq disinn proattiv, jiġifieri, tipprova tifhem l-intenzjonijiet inizjali tal-utent, tantiċipa l-ħtiġijiet u l-aspettattivi tagħhom f'kull stadju tal-konversazzjoni.

Il-vuċi hija mod effiċjenti biex tidħol id-dejta—jippermetti lill-utenti joħorġu kmandi malajr lis-sistema skont it-termini tagħhom stess. Min-naħa l-oħra, l-iskrin jipprovdi mod effiċjenti biex juri l-informazzjoni: jippermetti li s-sistemi juru ammont kbir ta 'informazzjoni fl-istess ħin, u jnaqqas il-piż fuq il-memorja tal-utenti. Huwa loġiku li tgħaqqadhom f'sistema waħda tinstema' inkoraġġanti.

Kelliema intelliġenti bħall-Amazon Echo u Google Home ma joffru xejn viżiv. Li jtejbu b'mod sinifikanti l-eżattezza tar-rikonoxximent tal-vuċi f'distanzi moderati, jippermettu tħaddim mingħajr idejn, li mbagħad iżid il-flessibbiltà u l-effiċjenza tagħhom - huma mixtieqa anke għal utenti li diġà għandhom smartphones b'kontroll tal-vuċi. Madankollu, in-nuqqas ta 'skrin huwa limitazzjoni enormi.

Jistgħu jintużaw biss beeps biex jinfurmaw lill-utenti dwar kmandi possibbli, u l-qari tal-output b'leħen għoli jsir tedjanti ħlief għall-kompiti l-aktar bażiċi. L-issettjar ta’ tajmer bi kmand tal-vuċi waqt it-tisjir huwa tajjeb ħafna, iżda li jġiegħlek tistaqsi kemm fadal ħin mhux meħtieġ. Il-ksib ta' tbassir tat-temp regolari jsir test ta' memorja għall-utent, li jrid jisma' u jassorbi serje ta' fatti tul il-ġimgħa kollha, aktar milli jiġborhom mill-iskrin f'daqqa t'għajn.

Id-disinjaturi diġà soluzzjoni ibrida, Echo Show (11), li żied skrin tal-wiri mal-kelliem intelliġenti bażiku Echo. Dan jespandi ħafna l-funzjonalità tat-tagħmir. Madankollu, l-Echo Show għadu ħafna inqas kapaċi jwettaq il-funzjonijiet bażiċi li ilhom disponibbli fuq smartphones u tablets. Ma tistax (għadha) tisserfja l-web, turi reviżjonijiet, jew turi l-kontenut ta 'shopping cart tal-Amazon, pereżempju.

Wirja viżwali hija intrinsikament mod aktar effettiv biex tipprovdi lin-nies b'ħafna informazzjoni milli sempliċiment ħoss. Id-disinn bi prijorità tal-vuċi jista 'jtejjeb ħafna l-interazzjoni tal-vuċi, iżda fit-tul, arbitrarjament ma tużax il-menu viżwali għall-fini tal-interazzjoni tkun bħal ġlied b'id waħda marbuta wara dahrek. Minħabba l-kumplessità imminenti tal-vuċi intelliġenti u l-interfaces tal-wiri minn tarf sa tarf, l-iżviluppaturi għandhom jikkunsidraw bis-serjetà approċċ ibridu għall-interfaces.

Iż-żieda fl-effiċjenza u l-veloċità tas-sistemi ta' ġenerazzjoni u rikonoxximent tad-diskors għamilha possibbli li jintużaw f'dawn l-applikazzjonijiet u oqsma bħal, pereżempju:

• militari (kmandi bil-vuċi f'ajruplani jew ħelikopters, pereżempju, F16 VISTA),

• traskrizzjoni awtomatika tat-test (diskors għal test),

• sistemi ta' informazzjoni interattivi (Prime Speech, portali tal-vuċi),

• apparat mobbli (telefowns, smartphones, tablets),

• robotika (Cleverbot - sistemi ASR flimkien ma' intelliġenza artifiċjali),

• karozzi (kontroll mingħajr idejn tal-komponenti tal-karozzi, bħal Blue & Me),

• applikazzjonijiet tad-dar (sistemi tad-dar intelliġenti).

Oqgħod attent għas-sigurtà!

Automotive, apparat tad-dar, sistemi ta 'tisħin/tkessiħ u sigurtà tad-dar, u għadd ta' apparat tad-dar qed jibdew jużaw interfaces tal-vuċi, ħafna drabi bbażati fuq l-AI. F'dan l-istadju, id-dejta miksuba minn miljuni ta 'konversazzjonijiet ma' magni tintbagħat lil sħab tal-kompjuters. Huwa ċar li l-kummerċjanti huma interessati fihom. U mhux huma biss.

Rapport reċenti mill-esperti tas-sigurtà ta’ Symantec jirrakkomanda li l-utenti tal-kmand tal-vuċi ma jikkontrollawx karatteristiċi tas-sigurtà bħal serraturi tal-bibien, aħseb u ara s-sistemi tas-sigurtà tad-dar. L-istess jgħodd għall-ħażna ta' passwords jew informazzjoni kunfidenzjali. Is-sigurtà tal-intelliġenza artifiċjali u l-prodotti intelliġenti għadha ma ġietx studjata biżżejjed.

Meta l-apparati madwar id-dar jisimgħu kull kelma, ir-riskju ta 'hacking tas-sistema u użu ħażin isir tħassib kbir. Jekk attakkant jikseb aċċess għan-netwerk lokali jew l-indirizzi tal-email assoċjati tiegħu, is-settings tal-apparat intelliġenti jistgħu jinbidlu jew jerġgħu jiġu ssettjati għall-issettjar tal-fabbrika, li jwassal għat-telf ta 'informazzjoni siewja u t-tħassir tal-istorja tal-utent.

Fi kliem ieħor, il-professjonisti tas-sigurtà jibżgħu li l-AI u l-VUI mmexxija mill-vuċi għadhom mhumiex intelliġenti biżżejjed biex jipproteġuna minn theddid potenzjali u jżommu ħalqna magħluq meta barrani jitlob xi ħaġa.

Żid kumment