హోమ్ హాలు మరియు కారిడార్ స్వయంచాలక ప్రసంగ గుర్తింపు వ్యవస్థలు. ఓపెన్ సోర్స్ స్పీచ్ రికగ్నిషన్ సిస్టమ్స్ యొక్క తులనాత్మక విశ్లేషణ

స్వయంచాలక ప్రసంగ గుర్తింపు వ్యవస్థలు. ఓపెన్ సోర్స్ స్పీచ్ రికగ్నిషన్ సిస్టమ్స్ యొక్క తులనాత్మక విశ్లేషణ

ఎన్సైక్లోపెడిక్ YouTube

1 / 5

స్పీచ్ రికగ్నిషన్ పరిచయం

LANGMaster ప్రసంగ గుర్తింపు

ఉపశీర్షికలు

కథ

మొదటి స్పీచ్ రికగ్నిషన్ పరికరం 1952లో కనిపించింది, ఇది ఒక వ్యక్తి మాట్లాడే సంఖ్యలను గుర్తించగలదు. 1962లో, న్యూయార్క్ కంప్యూటర్ ఫెయిర్‌లో IBM షూబాక్స్ పరిచయం చేయబడింది.

తొంభైల ప్రారంభంలో వాణిజ్య ప్రసంగ గుర్తింపు కార్యక్రమాలు కనిపించాయి. చేతికి గాయం కారణంగా పెద్ద మొత్తంలో వచనాన్ని టైప్ చేయలేని వ్యక్తులు వీటిని సాధారణంగా ఉపయోగిస్తారు. ఈ కార్యక్రమాలు (ఉదాహరణకు, డ్రాగన్ సహజంగా మాట్లాడటం (ఆంగ్లం)రష్యన్,వాయిస్ నావిగేటర్ (ఆంగ్లం)రష్యన్) వినియోగదారు స్వరాన్ని టెక్స్ట్‌లోకి అనువదించండి, తద్వారా అతని చేతులకు ఉపశమనం లభిస్తుంది. అటువంటి కార్యక్రమాల అనువాద విశ్వసనీయత చాలా ఎక్కువగా లేదు, కానీ సంవత్సరాలుగా అది క్రమంగా మెరుగుపడింది.

మొబైల్ పరికరాల యొక్క కంప్యూటింగ్ శక్తి పెరుగుదల స్పీచ్ రికగ్నిషన్ ఫంక్షన్లతో వాటి కోసం ప్రోగ్రామ్‌లను రూపొందించడం సాధ్యం చేసింది. అటువంటి ప్రోగ్రామ్‌లలో, మైక్రోసాఫ్ట్ వాయిస్ కమాండ్ అప్లికేషన్‌ను గమనించడం విలువ, ఇది మీ వాయిస్‌ని ఉపయోగించి అనేక అప్లికేషన్‌లతో పని చేయడానికి మిమ్మల్ని అనుమతిస్తుంది. ఉదాహరణకు, మీరు మీ ప్లేయర్‌లో సంగీతాన్ని ప్లే చేయవచ్చు లేదా కొత్త పత్రాన్ని సృష్టించవచ్చు.

స్పీచ్ రికగ్నిషన్ యొక్క ఉపయోగం వ్యాపారం యొక్క వివిధ రంగాలలో బాగా ప్రాచుర్యం పొందింది, ఉదాహరణకు, క్లినిక్‌లోని వైద్యుడు రోగ నిర్ధారణలను ఉచ్చరించగలడు, అది వెంటనే ఎలక్ట్రానిక్ కార్డ్‌లో నమోదు చేయబడుతుంది. లేదా మరొక ఉదాహరణ. ఖచ్చితంగా ప్రతి ఒక్కరూ తమ జీవితంలో ఒక్కసారైనా లైట్ ఆఫ్ చేయడానికి లేదా కిటికీని తెరవడానికి వారి వాయిస్‌ని ఉపయోగించాలని కలలు కన్నారు. ఇటీవల, ఇంటరాక్టివ్ టెలిఫోన్ అప్లికేషన్‌లలో ఆటోమేటిక్ స్పీచ్ రికగ్నిషన్ మరియు సింథసిస్ సిస్టమ్‌లు ఎక్కువగా ఉపయోగించబడుతున్నాయి. ఈ సందర్భంలో, వాయిస్ పోర్టల్‌తో కమ్యూనికేషన్ మరింత సహజంగా మారుతుంది, ఎందుకంటే దానిలో ఎంపిక టోన్ డయలింగ్‌ను మాత్రమే కాకుండా, వాయిస్ ఆదేశాలను కూడా ఉపయోగించవచ్చు. అదే సమయంలో, గుర్తింపు వ్యవస్థలు మాట్లాడేవారి నుండి స్వతంత్రంగా ఉంటాయి, అనగా అవి ఏ వ్యక్తి యొక్క స్వరాన్ని గుర్తిస్తాయి.

స్పీచ్ రికగ్నిషన్ టెక్నాలజీలలో తదుపరి దశ నిశ్శబ్ద ప్రసంగ ఇంటర్‌ఫేస్‌లు (SSI) అని పిలవబడే అభివృద్ధిని పరిగణించవచ్చు. ఈ స్పీచ్ ప్రాసెసింగ్ సిస్టమ్‌లు ఉచ్చారణ ప్రారంభ దశలో ప్రసంగ సంకేతాలను స్వీకరించడం మరియు ప్రాసెస్ చేయడంపై ఆధారపడి ఉంటాయి. ప్రసంగ గుర్తింపు అభివృద్ధిలో ఈ దశ ఆధునిక గుర్తింపు వ్యవస్థల యొక్క రెండు ముఖ్యమైన లోపాల వల్ల సంభవిస్తుంది: శబ్దానికి అధిక సున్నితత్వం, అలాగే గుర్తింపు వ్యవస్థను యాక్సెస్ చేసేటప్పుడు స్పష్టమైన మరియు స్పష్టమైన ప్రసంగం అవసరం. SSI విధానం ఏమిటంటే, ప్రాసెస్ చేయబడిన అకౌస్టిక్ సిగ్నల్‌లకు పూరకంగా శబ్దం ద్వారా ప్రభావితం కాని కొత్త సెన్సార్‌లను ఉపయోగించడం.

స్పీచ్ రికగ్నిషన్ సిస్టమ్స్ వర్గీకరణ

స్పీచ్ రికగ్నిషన్ సిస్టమ్స్ వర్గీకరించబడ్డాయి:

నిఘంటువు పరిమాణం ద్వారా (పరిమిత పదాల సెట్, పెద్ద నిఘంటువు);
స్పీకర్‌పై ఆధారపడి (స్పీకర్-ఆధారిత మరియు స్పీకర్-స్వతంత్ర వ్యవస్థలు);
ప్రసంగం రకం ద్వారా (నిరంతర లేదా ప్రత్యేక ప్రసంగం);
ప్రయోజనం ద్వారా (డిక్టేషన్ సిస్టమ్స్, కమాండ్ సిస్టమ్స్);
ఉపయోగించిన అల్గోరిథం ప్రకారం (న్యూరల్ నెట్‌వర్క్‌లు, దాచిన మార్కోవ్ నమూనాలు, డైనమిక్ ప్రోగ్రామింగ్);
స్ట్రక్చరల్ యూనిట్ రకం ద్వారా (పదబంధాలు, పదాలు, ఫోన్‌మేస్, డైఫోన్‌లు, అలోఫోన్‌లు);
నిర్మాణాత్మక యూనిట్లను గుర్తించే సూత్రం ఆధారంగా (నమూనా ద్వారా గుర్తింపు, లెక్సికల్ అంశాల ఎంపిక).

ఆటోమేటిక్ స్పీచ్ రికగ్నిషన్ సిస్టమ్స్ కోసం, నాయిస్ ఇమ్యూనిటీ ప్రధానంగా రెండు మెకానిజమ్‌లను ఉపయోగించడం ద్వారా నిర్ధారిస్తుంది:

ఎకౌస్టిక్ సిగ్నల్ యొక్క విశ్లేషణ ఆధారంగా స్పీచ్ సిగ్నల్ యొక్క ఒకే మూలకాలను గుర్తించడానికి అనేక సమాంతర పని పద్ధతులను ఉపయోగించడం;
స్పీచ్ స్ట్రీమ్‌లో సెగ్మెంటల్ (ఫోనెమిక్) మరియు పదాల సంపూర్ణ అవగాహన యొక్క సమాంతర స్వతంత్ర ఉపయోగం.

స్పీచ్ రికగ్నిషన్ పద్ధతులు మరియు అల్గోరిథంలు

"... స్పీచ్ పర్సెప్షన్ మోడల్‌లోని స్పీచ్ సిగ్నల్ ప్రాసెసింగ్ అల్గారిథమ్‌లు ఒక వ్యక్తి ఉపయోగించే భావనలు మరియు సంబంధాల యొక్క అదే వ్యవస్థను తప్పనిసరిగా ఉపయోగించాలి."

నేడు, స్పీచ్ రికగ్నిషన్ సిస్టమ్స్ గుర్తింపు సూత్రాలపై నిర్మించబడ్డాయి [ ఎవరి ద్వారా?] గుర్తింపు రూపాలు [తెలియని పదం ] . ఇప్పటివరకు ఉపయోగించిన పద్ధతులు మరియు అల్గోరిథంలను క్రింది పెద్ద తరగతులుగా విభజించవచ్చు:

ప్రమాణంతో పోలిక ఆధారంగా ప్రసంగ గుర్తింపు పద్ధతుల వర్గీకరణ.

డైనమిక్ ప్రోగ్రామింగ్ - తాత్కాలిక డైనమిక్ అల్గోరిథంలు (డైనమిక్ టైమ్ వార్పింగ్).

సందర్భ-సెన్సిటివ్ వర్గీకరణ. ఇది అమలు చేయబడినప్పుడు, వ్యక్తిగత లెక్సికల్ అంశాలు ప్రసంగం యొక్క స్ట్రీమ్ నుండి వేరుచేయబడతాయి - ఫోనెమ్‌లు మరియు అలోఫోన్‌లు, తరువాత వాటిని అక్షరాలు మరియు మార్ఫిమ్‌లుగా కలుపుతారు.

బయేసియన్ వివక్ష ఆధారంగా వివక్షత విశ్లేషణ పద్ధతులు;
దాచిన మార్కోవ్ మోడల్;
న్యూరల్ నెట్‌వర్క్‌లు.

గుర్తింపు వ్యవస్థల నిర్మాణం

సాధారణ [ ] ఆటోమేటిక్ స్పీచ్ ప్రాసెసింగ్ కోసం స్టాటిస్టికల్ సిస్టమ్స్ ఆర్కిటెక్చర్.

నాయిస్ తగ్గింపు మాడ్యూల్ మరియు ఉపయోగకరమైన సిగ్నల్ యొక్క విభజన.
ఎకౌస్టిక్ మోడల్ - ధ్వని స్థాయిలో సారూప్యత పరంగా ప్రసంగ విభాగం యొక్క గుర్తింపును అంచనా వేయడానికి మిమ్మల్ని అనుమతిస్తుంది. ప్రతి ధ్వని కోసం, ప్రసంగంలో ఈ ధ్వని యొక్క ఉచ్చారణను వివరించే సంక్లిష్ట గణాంక నమూనా ప్రారంభంలో నిర్మించబడింది.
భాషా నమూనా - చాలా మటుకు మౌఖిక సన్నివేశాలను నిర్ణయించడానికి మిమ్మల్ని అనుమతిస్తుంది. భాషా నమూనాను నిర్మించే సంక్లిష్టత నిర్దిష్ట భాషపై ఎక్కువగా ఆధారపడి ఉంటుంది. కాబట్టి, ఆంగ్ల భాష కోసం, గణాంక నమూనాలను (N- గ్రాములు అని పిలవబడేవి) ఉపయోగించడం సరిపోతుంది. రష్యన్‌ను కలిగి ఉన్న అత్యంత ప్రేరేపిత భాషలకు (ఒకే పదం యొక్క అనేక రూపాలు ఉన్న భాషలు), గణాంకాలను ఉపయోగించి మాత్రమే నిర్మించిన భాషా నమూనాలు ఇకపై అటువంటి ప్రభావాన్ని ఇవ్వవు - గణాంక సంబంధాలను విశ్వసనీయంగా అంచనా వేయడానికి చాలా డేటా అవసరం. పదాల మధ్య. అందువల్ల, హైబ్రిడ్ భాషా నమూనాలు ఉపయోగించబడతాయి, ఇవి రష్యన్ భాష యొక్క నియమాలు, ప్రసంగం మరియు పద రూపం యొక్క భాగం గురించి సమాచారం మరియు శాస్త్రీయ గణాంక నమూనాను ఉపయోగిస్తాయి.
డీకోడర్ అనేది రికగ్నిషన్ సిస్టమ్ యొక్క సాఫ్ట్‌వేర్ భాగం, ఇది ధ్వని మరియు భాషా నమూనాల నుండి గుర్తింపు సమయంలో పొందిన డేటాను మిళితం చేస్తుంది మరియు వాటి కలయిక ఆధారంగా, పదాల క్రమాన్ని ఎక్కువగా నిర్ణయిస్తుంది, ఇది నిరంతర ప్రసంగ గుర్తింపు యొక్క చివరి ఫలితం.

స్పీచ్ సిగ్నల్ నాణ్యతను అంచనా వేయడంతో స్పీచ్ ప్రాసెసింగ్ ప్రారంభమవుతుంది. ఈ దశలో, జోక్యం మరియు వక్రీకరణ స్థాయి నిర్ణయించబడుతుంది.
మూల్యాంకన ఫలితం అకౌస్టిక్ అడాప్టేషన్ మాడ్యూల్‌కి వెళుతుంది, ఇది గుర్తింపు కోసం అవసరమైన ప్రసంగ పారామితులను లెక్కించడానికి మాడ్యూల్‌ను నియంత్రిస్తుంది.
ప్రసంగం ఉన్న ప్రాంతాలు సిగ్నల్‌లో గుర్తించబడతాయి మరియు ప్రసంగ పారామితులు అంచనా వేయబడతాయి. సింటాక్టిక్, సెమాంటిక్ మరియు ప్రాగ్మాటిక్ విశ్లేషణ కోసం ఫొనెటిక్ మరియు ప్రోసోడిక్ ప్రాబబిలిస్టిక్ లక్షణాలు గుర్తించబడతాయి. (మాటలో భాగం, పద రూపం మరియు పదాల మధ్య గణాంక సంబంధాల గురించి సమాచారాన్ని అంచనా వేయండి.)
తరువాత, ప్రసంగ పారామితులు గుర్తింపు వ్యవస్థ యొక్క ప్రధాన బ్లాక్కు పంపబడతాయి - డీకోడర్. ఇది ధ్వని మరియు భాషా నమూనాలలో నిల్వ చేయబడిన సమాచారంతో ఇన్‌పుట్ స్పీచ్ స్ట్రీమ్‌తో సరిపోలుతుంది మరియు తుది గుర్తింపు ఫలితం అయిన పదాల క్రమాన్ని ఎక్కువగా నిర్ణయిస్తుంది.

గుర్తింపు వ్యవస్థలలో భావోద్వేగపూరిత ప్రసంగం యొక్క సంకేతాలు

స్పెక్ట్రల్-తాత్కాలిక లక్షణాలు

వర్ణపట లక్షణాలు:

విశ్లేషించబడిన స్పీచ్ సిగ్నల్ యొక్క స్పెక్ట్రం యొక్క సగటు విలువ;
సాధారణీకరించిన స్పెక్ట్రం సగటులు;
స్పెక్ట్రమ్ బ్యాండ్‌లలో సిగ్నల్ యొక్క సాపేక్ష నివాస సమయం;
స్పెక్ట్రమ్ బ్యాండ్‌లలో సిగ్నల్ యొక్క సాధారణ నివాస సమయం;
బ్యాండ్‌లలో మధ్యస్థ స్పీచ్ స్పెక్ట్రమ్ విలువ;
బ్యాండ్‌లలో రిలేటివ్ స్పీచ్ స్పెక్ట్రమ్ పవర్;
స్పీచ్ స్పెక్ట్రమ్ ఎన్వలప్‌ల వైవిధ్యం;
స్పీచ్ స్పెక్ట్రమ్ ఎన్వలప్‌ల వైవిధ్యం యొక్క సాధారణీకరించిన విలువలు;
స్పెక్ట్రల్ బ్యాండ్‌ల మధ్య స్పెక్ట్రల్ ఎన్వలప్‌ల క్రాస్ కోరిలేషన్ కోఎఫీషియంట్స్.

తాత్కాలిక సంకేతాలు:

సెగ్మెంట్ వ్యవధి, ఫోన్‌మేస్;
సెగ్మెంట్ ఎత్తు;
సెగ్మెంట్ ఆకార కారకం.

స్పెక్ట్రల్-టెంపోరల్ లక్షణాలు మూడు రకాల భాగాల ఉనికి ఆధారంగా దాని భౌతిక మరియు గణిత సారాంశంలో ప్రసంగ సంకేతాన్ని వర్గీకరిస్తాయి:

ధ్వని తరంగం యొక్క ఆవర్తన (టోనల్) విభాగాలు;
ధ్వని తరంగం యొక్క నాన్-ఆవర్తన విభాగాలు (శబ్దం, పేలుడు);
ప్రసంగ విరామాలు లేని ప్రాంతాలు.

వర్ణపట-తాత్కాలిక లక్షణాలు వేర్వేరు వ్యక్తులలో స్వర ప్రేరణల సమయ శ్రేణి మరియు స్పెక్ట్రం యొక్క ఆకృతి యొక్క వాస్తవికతను మరియు వారి స్వర మార్గాల యొక్క వడపోత ఫంక్షన్ల లక్షణాలను ప్రతిబింబించేలా చేస్తాయి. స్పీకర్ యొక్క ఉచ్చారణ అవయవాల పునర్నిర్మాణం యొక్క డైనమిక్స్‌తో అనుబంధించబడిన ప్రసంగ ప్రవాహం యొక్క లక్షణాలను అవి వర్గీకరిస్తాయి మరియు ప్రసంగ ప్రవాహం యొక్క సమగ్ర లక్షణాలు, ఇది సంబంధం యొక్క వాస్తవికతను లేదా స్పీకర్ యొక్క ఉచ్చారణ అవయవాల కదలిక యొక్క సమకాలీకరణను ప్రతిబింబిస్తుంది.

సెప్స్ట్రాల్ సంకేతాలు

మెల్-ఫ్రీక్వెన్సీ సెప్స్ట్రాల్ కోఎఫీషియంట్స్;
మానవ చెవి యొక్క అసమాన సున్నితత్వం కోసం సరిదిద్దబడిన లీనియర్ ప్రిడిక్షన్ కోఎఫీషియంట్స్;
రికార్డింగ్ ఫ్రీక్వెన్సీ పవర్ కారకాలు;
లీనియర్ ప్రిడిక్షన్ స్పెక్ట్రమ్ కోఎఫీషియంట్స్;
లీనియర్ ప్రిడిక్షన్ సెప్స్ట్రమ్ కోఎఫీషియంట్స్.

చాలా ఆధునిక ఆటోమేటిక్ స్పీచ్ రికగ్నిషన్ సిస్టమ్‌లు మానవ స్వర వాహిక యొక్క ఫ్రీక్వెన్సీ సంతకాన్ని సంగ్రహించడంపై దృష్టి పెడతాయి, అయితే ఉత్తేజిత సిగ్నల్ లక్షణాలను విస్మరిస్తాయి. మొదటి మోడల్ యొక్క గుణకాలు మెరుగైన ధ్వని విభజనను అందిస్తాయనే వాస్తవం ఇది వివరించబడింది. స్వర ట్రాక్ట్ సిగ్నల్ నుండి ఉత్తేజిత సంకేతాన్ని వేరు చేయడానికి, సెప్స్ట్రాల్ విశ్లేషణ ఉపయోగించబడుతుంది.

వ్యాప్తి-ఫ్రీక్వెన్సీ లక్షణాలు

తీవ్రత, వ్యాప్తి
శక్తి
పిచ్ ఫ్రీక్వెన్సీ (FFR)
ఫార్మాట్ ఫ్రీక్వెన్సీలు
జిట్టర్ - ఫండమెంటల్ టోన్ (శబ్దం పరామితి) యొక్క జిట్టర్ ఫ్రీక్వెన్సీ మాడ్యులేషన్;
షిమ్మర్ - ప్రధాన టోన్ (శబ్దం పరామితి) పై యాంప్లిట్యూడ్ మాడ్యులేషన్;
రేడియల్ బేస్ కెర్నల్ ఫంక్షన్
నాన్ లీనియర్ ఆపరేటర్ టైగర్

యాంప్లిట్యూడ్-ఫ్రీక్వెన్సీ లక్షణాలు అంచనాలను పొందడం సాధ్యం చేస్తాయి, వీటి విలువలు వివిక్త ఫోరియర్ పరివర్తన (విండో రకం మరియు వెడల్పు) యొక్క పారామితులపై ఆధారపడి ఉంటాయి, అలాగే నమూనా అంతటా విండో యొక్క స్వల్ప మార్పులతో మారవచ్చు. స్పీచ్ సిగ్నల్ గాలిలో ప్రచారం చేయబడిన సంక్లిష్ట నిర్మాణం యొక్క ధ్వని కంపనాల ద్వారా ధ్వనిపరంగా ప్రాతినిధ్యం వహిస్తుంది, అవి వాటి ఫ్రీక్వెన్సీ (సెకనుకు కంపనాల సంఖ్య), తీవ్రత (కంపనాల వ్యాప్తి) మరియు వ్యవధి పరంగా వర్గీకరించబడతాయి. యాంప్లిట్యూడ్-ఫ్రీక్వెన్సీ ఫీచర్లు కనీస అవగాహన సమయంతో స్పీచ్ సిగ్నల్ నుండి ఒక వ్యక్తికి అవసరమైన మరియు తగినంత సమాచారాన్ని కలిగి ఉంటాయి. కానీ ఈ లక్షణాల ఉపయోగం భావోద్వేగపూరిత ప్రసంగాన్ని గుర్తించే సాధనంగా పూర్తిగా ఉపయోగించబడదు.

నాన్ లీనియర్ డైనమిక్స్ సంకేతాలు

నాన్ లీనియర్ డైనమిక్స్ సంకేతాల సమూహం కోసం, స్పీచ్ సిగ్నల్ మానవ స్వర వాహిక వ్యవస్థలో గమనించిన స్కేలార్ పరిమాణంగా పరిగణించబడుతుంది. ప్రసంగ ఉత్పత్తి ప్రక్రియను నాన్ లీనియర్‌గా పరిగణించవచ్చు మరియు నాన్ లీనియర్ డైనమిక్స్ పద్ధతుల ద్వారా విశ్లేషించవచ్చు. నాన్ లీనియర్ డైనమిక్స్ యొక్క పని ఏమిటంటే, సిస్టమ్‌ను రూపొందించే వ్యక్తిగత మూలకాల యొక్క లక్షణాలు మరియు వాటి మధ్య పరస్పర చట్టాల గురించి అత్యంత విలక్షణమైన ప్రతిపాదనల నుండి కొనసాగే ప్రాథమిక గణిత నమూనాలు మరియు వాస్తవ వ్యవస్థల యొక్క వివరణాత్మక అధ్యయనాన్ని కనుగొనడం మరియు నిర్వహించడం. ప్రస్తుతం, నాన్ లీనియర్ డైనమిక్స్ పద్ధతులు ప్రాథమిక గణిత సిద్ధాంతంపై ఆధారపడి ఉన్నాయి, ఇది టేకెన్స్ సిద్ధాంతంపై ఆధారపడి ఉంటుంది. (ఆంగ్లం)రష్యన్, ఇది నాన్ లీనియర్ ఆటోరిగ్రెషన్ యొక్క ఆలోచనలకు కఠినమైన గణిత ఆధారాన్ని అందిస్తుంది మరియు సమయ శ్రేణి నుండి లేదా దాని కోఆర్డినేట్‌లలో ఒకదాని నుండి అట్రాక్టర్ యొక్క ఫేజ్ పోర్ట్రెయిట్‌ను పునరుద్ధరించే అవకాశాన్ని రుజువు చేస్తుంది. (ట్రాన్సియెంట్‌ల క్షయం తర్వాత దశ పథం చేరుకునే దశ స్థలంలో పాయింట్‌ల సమితి లేదా సబ్‌స్పేస్‌గా అట్రాక్టర్ అర్థం అవుతుంది.) పునర్నిర్మించిన ప్రసంగ పథాల నుండి సిగ్నల్ లక్షణాల అంచనాలు నాన్‌లీనియర్ డిటర్మినిస్టిక్ ఫేజ్-స్పేస్ మోడల్‌ల నిర్మాణంలో ఉపయోగించబడతాయి. గమనించిన సమయ శ్రేణి. ఆకర్షణీయుల ఆకృతిలో గుర్తించబడిన వ్యత్యాసాలను రోగనిర్ధారణ నియమాలు మరియు సంకేతాల కోసం ఉపయోగించవచ్చు, ఇది భావోద్వేగంగా ఛార్జ్ చేయబడిన ప్రసంగ సిగ్నల్‌లో వివిధ భావోద్వేగాలను గుర్తించడం మరియు సరిగ్గా గుర్తించడం సాధ్యం చేస్తుంది.

ప్రసంగ నాణ్యత ఎంపికలు

డిజిటల్ ఛానెల్‌లలో ప్రసంగ నాణ్యత పారామితులు:

అక్షర స్పీచ్ ఇంటెలిజిబిలిటీ;
ప్రసంగం యొక్క పదబంధాన్ని అర్థం చేసుకోవడం;
సూచన మార్గం యొక్క ప్రసంగ నాణ్యతతో పోలిస్తే ప్రసంగ నాణ్యత;
నిజమైన పని పరిస్థితుల్లో ప్రసంగ నాణ్యత.

ప్రాథమిక భావనలు

స్పీచ్ ఇంటెలిజిబిలిటీ అనేది సరిగ్గా స్వీకరించబడిన ప్రసంగ మూలకాల యొక్క సాపేక్ష సంఖ్య (ధ్వనులు, అక్షరాలు, పదాలు, పదబంధాలు), మొత్తం ప్రసారం చేయబడిన మూలకాల సంఖ్య యొక్క శాతంగా వ్యక్తీకరించబడింది.
స్పీచ్ క్వాలిటీ అనేది పరీక్షిస్తున్న స్పీచ్ ట్రాన్స్‌మిషన్ సిస్టమ్‌లో ప్రసంగం యొక్క ధ్వని యొక్క ఆత్మాశ్రయ అంచనాను వర్గీకరించే ఒక పరామితి.
సాధారణ ప్రసంగ రేటు అనేది నియంత్రణ పదబంధం యొక్క సగటు వ్యవధి 2.4 సెకన్ల వేగంతో మాట్లాడుతుంది.
వేగవంతమైన ప్రసంగ రేటు - నియంత్రణ పదబంధం యొక్క సగటు వ్యవధి 1.5-1.6 సెకన్ల వేగంతో మాట్లాడటం.
స్పీకర్ స్వరం యొక్క గుర్తింపు అనేది శ్రోతలకు గతంలో తెలిసిన నిర్దిష్ట వ్యక్తితో స్వరం యొక్క ధ్వనిని గుర్తించగల సామర్థ్యం.
సెమాంటిక్ ఇంటెలిజిబిలిటీ అనేది ప్రసంగం యొక్క సమాచార కంటెంట్ యొక్క సరైన పునరుత్పత్తి స్థాయికి సూచిక.
సమగ్ర నాణ్యత అనేది స్వీకరించిన ప్రసంగంపై శ్రోత యొక్క మొత్తం అభిప్రాయాన్ని వర్ణించే సూచిక.

అప్లికేషన్

వాయిస్ సిస్టమ్స్ యొక్క ప్రధాన ప్రయోజనం యూజర్ ఫ్రెండ్లీగా ప్రకటించబడింది. స్పీచ్ ఆదేశాలు తుది వినియోగదారు టచ్ మరియు ఇతర ఇన్‌పుట్ పద్ధతులు మరియు ఆదేశాలను ఉపయోగించాల్సిన అవసరాన్ని తొలగించడానికి ఉద్దేశించబడ్డాయి.

వాయిస్ ఆదేశాలు
వాయిస్ టెక్స్ట్ ఇన్‌పుట్

మొబైల్ అప్లికేషన్‌లలో స్పీచ్ రికగ్నిషన్ టెక్నాలజీని ఉపయోగించడం యొక్క విజయవంతమైన ఉదాహరణలు: Yandex.Navigator, Google Now వాయిస్ శోధనలో వాయిస్ ద్వారా చిరునామాను నమోదు చేయడం.

మొబైల్ పరికరాలతో పాటు, స్పీచ్ రికగ్నిషన్ టెక్నాలజీ వ్యాపారంలోని వివిధ రంగాలలో విస్తృతంగా ఉపయోగించబడుతుంది:

టెలిఫోనీ: స్వీయ-సేవ వాయిస్ సిస్టమ్‌లను సృష్టించడం ద్వారా ఇన్‌కమింగ్ మరియు అవుట్‌గోయింగ్ కాల్‌లను ప్రాసెస్ చేసే ఆటోమేషన్, ప్రత్యేకించి: రిఫరెన్స్ సమాచారాన్ని పొందడం మరియు సంప్రదింపులు, సేవలు/ఉత్పత్తులను ఆర్డర్ చేయడం, ఇప్పటికే ఉన్న సేవల యొక్క పారామితులను మార్చడం, సర్వేలు నిర్వహించడం, ప్రశ్నపత్రాలు, సమాచారం సేకరించడం, తెలియజేయడం మరియు ఏదైనా ఇతర దృశ్యాలు;
స్మార్ట్ హోమ్ పరిష్కారాలు: స్మార్ట్ హోమ్ సిస్టమ్‌లను నియంత్రించడానికి వాయిస్ ఇంటర్‌ఫేస్;
గృహోపకరణాలు మరియు రోబోట్లు: ఎలక్ట్రానిక్ రోబోట్‌ల వాయిస్ ఇంటర్‌ఫేస్; గృహోపకరణాల వాయిస్ నియంత్రణ, మొదలైనవి;
డెస్క్‌టాప్‌లు మరియు ల్యాప్‌టాప్‌లు: కంప్యూటర్ గేమ్‌లు మరియు అప్లికేషన్‌లలో వాయిస్ ఇన్‌పుట్;
కార్లు: కారు లోపలి భాగంలో వాయిస్ నియంత్రణ - ఉదాహరణకు, నావిగేషన్ సిస్టమ్;
వికలాంగులకు సామాజిక సేవలు.

ఇది కూడా చూడండి

డిజిటల్ సిగ్నల్ ప్రాసెసింగ్

గమనికలు

డేవిస్, K.H., Biddulph, R. మరియు Balashek, S. (1952) మాట్లాడే అంకెల స్వయంచాలక ప్రసంగ గుర్తింపు, J. అకౌస్ట్. Soc. అం. 24 (6) పేజీలు. 637-642
ఖాతా సస్పెండ్ చేయబడింది
ప్రసంగం-గుర్తింపు రంగంలో ఆధునిక సమస్యలు.
http://phonoscopic.rf/articles_and_publications/Lobanova_Search_of_identical_fragments.pdf
http://booksshare.net/books/med/chistovich-la/1976/files/fizrech1976.djvu
http://revistaie.ase.ro/content/46/s%20-%20furtuna.pdf
http://www.ccas.ru/frc/papers/mestetskii04course.pdf
స్పీచ్ రికగ్నిషన్|
సెంటర్ ఫర్ స్పీచ్ టెక్నాలజీస్ |
MDGలు. ఏప్రిల్ 20, 2013న పునరుద్ధరించబడింది. ఏప్రిల్ 28, 2013న ఆర్కైవ్ చేయబడింది.
http://pawlin.ru/materials/neiro/sistemy_raspoznavaniya.pdf
http://intsys.msu.ru/magazine/archive/v3(1-2)/mazurenko.pdf
http://eprints.tstu.tver.ru/69/1/3.pdf
http://www.terrahumana.ru/arhiv/10_04/10_04_25.pdf

హయ్యర్ అటెస్టేషన్ కమీషన్ 05.11.17, 05.13.01 ప్రత్యేకతలో “ఉద్వేగభరితమైన ప్రసంగ సంకేతాల ఆధారంగా ఒక వ్యక్తి యొక్క సైకోఫిజియోలాజికల్ స్థితి యొక్క పరిశోధన” అనే అంశంపై ప్రవచనం - పరికరం...

GOST R 51061-97.
స్పీచ్ క్వాలిటీ పారామితులు. డిజిటల్ ఛానెల్‌ల ద్వారా తక్కువ-స్పీడ్ స్పీచ్ ట్రాన్స్‌మిషన్ సిస్టమ్‌లు. . మూలం నుండి ఏప్రిల్ 30, 2013 న ఆర్కైవు చేసారు.
లింకులు
స్పీచ్ రికగ్నిషన్ టెక్నాలజీస్, www.xakep.ru


I. A. షాలిమోవ్, M. A. బెస్సోనోవ్.

రాష్ట్రం యొక్క విశ్లేషణ మరియు ఆడియో సందేశం యొక్క భాషను నిర్ణయించడానికి సాంకేతికతల అభివృద్ధికి అవకాశాలు.

Yandex నుండి స్పీచ్ రికగ్నిషన్ టెక్నాలజీ Yandex స్పీచ్ కిట్ ఎలా పనిచేస్తుంది |

హబ్రహబ్ర్

Yandex నుండి స్పీచ్-రికగ్నిషన్-టెక్నాలజీ-Yandex-SpeechKit

సాధారణ నిర్వచనాలు

YaC 2013

ఎకౌస్టిక్ మోడల్

Yandex నుండి స్పీచ్ రికగ్నిషన్ టెక్నాలజీ Yandex స్పీచ్ కిట్ ఎలా పనిచేస్తుంది |

మీరు వాయిస్ శోధనకు "లెవ్ టాల్‌స్టాయ్" అని చెబితే, స్మార్ట్‌ఫోన్ మొదటి మరియు చివరి పేరును వినదు, రెండు పదాలు కాదు, కానీ స్పష్టమైన సరిహద్దులు లేకుండా శబ్దాలు సజావుగా ఒకదానికొకటి ప్రవహించే సౌండ్ సిగ్నల్. స్పీచ్ రికగ్నిషన్ సిస్టమ్ యొక్క పని ఏమిటంటే ఈ సిగ్నల్ నుండి చెప్పబడిన వాటిని పునర్నిర్మించడం. వేర్వేరు పరిస్థితులలో వేర్వేరు వ్యక్తులు పలికిన ఒకే పదబంధం పూర్తిగా భిన్నమైన సంకేతాలను ఇస్తుంది అనే వాస్తవంతో పరిస్థితి క్లిష్టంగా ఉంటుంది. శబ్ద మోడలింగ్ వ్యవస్థ వాటిని సరిగ్గా అర్థం చేసుకోవడానికి సహాయపడుతుంది.

మీరు వాయిస్ అభ్యర్థనను చేసినప్పుడు, ఉదాహరణకు, Yandex.Navigator లో, స్మార్ట్ఫోన్ దానిని రికార్డ్ చేస్తుంది మరియు Yandex సర్వర్కు పంపుతుంది. సర్వర్‌లో, రికార్డింగ్ 25 మిల్లీసెకన్ల పొడవు, అతివ్యాప్తి, 10 మిల్లీసెకన్ల దశతో అనేక చిన్న శకలాలు (ఫ్రేమ్‌లు)గా విభజించబడింది. అంటే, మీ ప్రసంగంలో ఒక సెకను వంద ఫ్రేమ్‌లుగా మారుతుంది.

అప్పుడు వాటిలో ప్రతి ఒక్కటి అకౌస్టిక్ మోడల్ ద్వారా పంపబడుతుంది - మీరు చేసిన శబ్దాలను నిర్ణయించే ఫంక్షన్. ఈ డేటా ఆధారంగా, యంత్ర అభ్యాస పద్ధతులను ఉపయోగించి శిక్షణ పొందిన సిస్టమ్, శోధన ఫలితాల్లో మీరు చూసే పదాల వైవిధ్యాలను నిర్ణయిస్తుంది. మొబైల్ బ్రౌజర్, "లియో టాల్‌స్టాయ్" అభ్యర్థనకు ప్రతిస్పందనగా, గొప్ప రచయిత గురించి సైట్‌లను కనుగొంటుంది మరియు నావిగేటర్ మరియు మ్యాప్స్ లియో టాల్‌స్టాయ్ స్ట్రీట్‌ను అందిస్తాయి.

సిస్టమ్ మాట్లాడే శబ్దాలను ఎంత బాగా గుర్తిస్తుందనే దానిపై ఫలితాల ఖచ్చితత్వం నేరుగా ఆధారపడి ఉంటుంది. దీన్ని చేయడానికి, అది పనిచేసే ఫొనెటిక్ వర్ణమాల తగినంత ఖచ్చితమైనది మరియు పూర్తిగా ఉండాలి.

హబ్రహబ్ర్

రష్యన్ భాషలో, వివిధ సిద్ధాంతాల ప్రకారం, సుమారు 40 ఫోనెమ్స్ (ధ్వని యూనిట్లు) ఉన్నాయి. మా స్పీచ్ రికగ్నిషన్ సిస్టమ్ ఇన్‌కమింగ్ స్పీచ్ సిగ్నల్‌తో ఫోన్‌మేస్‌తో సరిపోలుతుంది, ఆపై వాటి నుండి పదాలను సమీకరిస్తుంది. ఉదాహరణకు, "Yandex" అనే పదం ఏడు ఫోన్‌మేలను కలిగి ఉంటుంది - [th][a][n][d][e][k][s]. ఫోన్‌మేలు వేర్వేరు వ్యవధులను కలిగి ఉండవచ్చు మరియు ఫ్రేమ్ ద్వారా విభజించబడినప్పుడు, “Yandex” పదం ఇలా కనిపిస్తుంది, ఉదాహరణకు, ఇలా - [th][th][a][a][a][a][a][a ][a][a][a][a][n][n][d][d][e][k][s]. ఏదైనా ఫోనెమ్ యొక్క ఉచ్చారణ దాని పొరుగువారిపై మరియు పదంలోని స్థానంపై ఆధారపడి ఉంటుంది. అంటే, ఒక పదం ప్రారంభంలో, మధ్యలో మరియు చివరిలో ఉన్న ధ్వని [a] మూడు వేర్వేరుగా ఉంటుంది [a] మరియు “ఆడియో రికార్డింగ్‌లో” కలయికలో రెండు అచ్చుల మధ్య ధ్వని [a] భిన్నంగా ఉంటుంది. "బాక్" అనే పదంలోని హల్లుల మధ్య ఉన్న [a]. అందువల్ల, మంచి గుర్తింపు కోసం ఫోనెమ్ చాలా ముతక యూనిట్.

ఫోనెమ్ యొక్క ఉచ్చారణను మరింత ఖచ్చితంగా రూపొందించడానికి, మేము మొదట ప్రతి ఫోన్‌మేని మూడు భాగాలుగా విభజిస్తాము: సంప్రదాయ ప్రారంభం, మధ్య మరియు ముగింపు. రెండవది, మేము మా స్వంత ఫొనెటిక్ ఆల్ఫాబెట్‌ను అభివృద్ధి చేసాము, ఇది ఫోన్‌మేస్ యొక్క స్థానం మరియు సందర్భాన్ని పరిగణనలోకి తీసుకుంటుంది. సందర్భ-ఆధారిత ఫోనెమ్‌ల యొక్క సాధ్యమైన అన్ని రూపాంతరాలను పరిగణనలోకి తీసుకోవడం అవివేకం, ఎందుకంటే వాటిలో చాలా వరకు నిజ జీవితంలో జరగవు. అందువల్ల, ఒకే విధమైన శబ్దాలను కలిసి పరిగణించమని మేము మా ప్రోగ్రామ్‌కు నేర్పించాము. ఫలితంగా, మేము 4000 ప్రాథమిక యూనిట్ల సమితిని అందుకున్నాము - సెనోన్స్. ఇది మా స్పీచ్ రికగ్నిషన్ టెక్నాలజీ పనిచేసే Yandex ఫొనెటిక్ ఆల్ఫాబెట్.

Yandex నుండి స్పీచ్-రికగ్నిషన్-టెక్నాలజీ-Yandex-SpeechKit

ఆదర్శవంతమైన ప్రపంచంలో, వాయిస్ అభ్యర్థనలోని ప్రతి భాగానికి ఏ ఫోన్‌మే సరిపోతుందో ప్రోగ్రామ్ ఖచ్చితంగా నిర్ధారిస్తుంది. కానీ ఒక వ్యక్తి కూడా కొన్నిసార్లు అన్ని శబ్దాలను అర్థం చేసుకోకపోవచ్చు లేదా వినకపోవచ్చు మరియు సందర్భం ఆధారంగా పదాన్ని పూర్తి చేస్తాడు. మరియు ఒక వ్యక్తి తన స్వంత ప్రసంగ అనుభవంపై ఆధారపడినట్లయితే, మా సిస్టమ్ సంభావ్యతతో పనిచేస్తుంది.

ముందుగా, వాయిస్ అభ్యర్థన (ఫ్రేమ్) యొక్క ప్రతి భాగాన్ని ఒక ఫోన్‌మేతో కాకుండా, అనేక స్థాయిల సంభావ్యతతో సరిపోల్చవచ్చు. రెండవది, పరివర్తన సంభావ్యత యొక్క పట్టిక ఉంది, ఇది “a” తర్వాత ఒక సంభావ్యతతో “a”, మరొక దానితో “b” మరియు మొదలైనవి కూడా ఉంటుందని సూచిస్తుంది. ఇది ఫోన్‌మేస్ క్రమం యొక్క వైవిధ్యాలను గుర్తించడానికి మిమ్మల్ని అనుమతిస్తుంది, ఆపై, ఉచ్చారణ, పదనిర్మాణం మరియు అర్థశాస్త్రం, మీరు చెప్పగలిగే పదాల వైవిధ్యాల గురించి ప్రోగ్రామ్‌కు అందుబాటులో ఉన్న డేటా ఆధారంగా.

ప్రోగ్రామ్ పదాలను వాటి అర్థం ప్రకారం పునరుద్ధరించగలదు. మీరు ధ్వనించే ప్రదేశంలో ఉంటే, స్పష్టంగా మాట్లాడకండి లేదా అస్పష్టమైన పదాలను ఉపయోగించకండి, సందర్భం మరియు గణాంకాల ఆధారంగా ఆమె మీ అభ్యర్థనను పూర్తి చేస్తుంది. ఉదాహరణకు, ప్రోగ్రామ్‌లో "అమ్మ కడిగింది..." అనే పదబంధాన్ని "అమ్మ గాయం కడిగింది" అని కాకుండా "అమ్మ ఫ్రేమ్ కడిగింది" అనే పదబంధాన్ని కొనసాగించే అవకాశం ఉంది. విభిన్న డేటాపై మెషిన్ లెర్నింగ్‌కు ధన్యవాదాలు, మా ప్రోగ్రామ్ శబ్దానికి నిరోధకతను కలిగి ఉంది, ఉచ్చారణ ప్రసంగాన్ని బాగా గుర్తిస్తుంది మరియు స్పీకర్ యొక్క లింగం మరియు వయస్సుతో సంబంధం లేకుండా గుర్తింపు నాణ్యత ఆచరణాత్మకంగా స్వతంత్రంగా ఉంటుంది.

ప్రస్తుతం, మా స్పీచ్ రికగ్నిషన్ టెక్నాలజీ నావిగేటర్ మరియు మొబైల్ మ్యాప్స్‌లోని 94% పదాలను మరియు మొబైల్ బ్రౌజర్‌లోని 84% పదాలను సరిగ్గా గుర్తిస్తుంది. ఈ సందర్భంలో, గుర్తింపు ఒక సెకను పడుతుంది. ఇది ఇప్పటికే చాలా విలువైన ఫలితం, మరియు మేము దీన్ని మెరుగుపరచడానికి చురుకుగా పని చేస్తున్నాము. కొన్ని సంవత్సరాలలో వాయిస్ ఇన్‌పుట్ ఇంటర్‌ఫేస్ క్లాసిక్ మెథడ్‌ల వలె మెరుగ్గా ఉంటుందని మేము నమ్ముతున్నాము.

సాధారణ నిర్వచనాలుసాంకేతికతతో పాటుగా, మేము YaC 2013లో స్పీచ్ రికగ్నిషన్ కోసం పబ్లిక్ APIని అందించాము - స్పీచ్‌కిట్. దాని సహాయంతో, డెవలపర్లు Android మరియు iOS కోసం వారి అనువర్తనాలకు Yandex వాయిస్ శోధనను జోడించవచ్చు. మీరు స్పీచ్‌కిట్‌ని డౌన్‌లోడ్ చేసుకోవచ్చు మరియు డాక్యుమెంటేషన్‌ను కూడా చదవవచ్చు.

","contentType":"text/html"),"proposedBody":("source":"

YaC 2013

ఎకౌస్టిక్ మోడల్

Yandex నుండి స్పీచ్ రికగ్నిషన్ టెక్నాలజీ Yandex స్పీచ్ కిట్ ఎలా పనిచేస్తుంది |

హబ్రహబ్ర్

Yandex నుండి స్పీచ్-రికగ్నిషన్-టెక్నాలజీ-Yandex-SpeechKit

YaC 2013

ఎకౌస్టిక్ మోడల్

Yandex నుండి స్పీచ్ రికగ్నిషన్ టెక్నాలజీ Yandex స్పీచ్ కిట్ ఎలా పనిచేస్తుంది |

హబ్రహబ్ర్

Yandex నుండి స్పీచ్-రికగ్నిషన్-టెక్నాలజీ-Yandex-SpeechKit

","contentType":"text/html"),"authorId":"5105614","slug":"72171","Edit":false,"canComment":false,"isBanned":false,"Publish" :false,"viewType":"old","isDraft":false,"isSubscriber":false,"commentsCount":13,"modificationDate":"Fri Nov 22 2013 16:24:00 GMT+0000 (UTC)" ,"showPreview":true,"approvedPreview":("source":"ఈరోజు, చాలా మంది వ్యక్తులు ప్రయాణంలో - వారి ఫోన్‌ల నుండి రోజువారీ సమస్యలను పరిష్కరిస్తారు. మీరు మీ ఇమెయిల్‌ను తనిఖీ చేయడానికి, పత్రాలు మరియు ఫోటోలను పంపడానికి, సమీపంలోని ATMని కనుగొనడానికి దీన్ని ఉపయోగించవచ్చు. లేదా అటువంటి పనులన్నింటికీ కారు మార్గాన్ని నిర్మించడం కాదు, ఇది కీబోర్డ్‌ను ఉపయోగించడం సౌకర్యంగా ఉంటుంది, కాబట్టి ఇప్పుడు మొబైల్ డెవలప్‌మెంట్ యొక్క అత్యంత సంబంధిత రంగాలలో ఒకటి వాయిస్ నియంత్రణ.","html":"ఈరోజు చాలా మంది ప్రయాణంలో రోజువారీ పనులను పరిష్కరించుకుంటారు. - మీరు ఇమెయిల్‌ను తనిఖీ చేయడానికి, పత్రాలు మరియు ఫోటోలను పంపడానికి, సమీపంలోని ATMని కనుగొనడానికి లేదా అటువంటి అన్ని పనుల కోసం ఒక కీబోర్డ్‌ను ఉపయోగించడం సౌకర్యంగా ఉండదు మొబైల్ డెవలప్‌మెంట్ అనేది వాయిస్ కంట్రోల్.","contentType":"text/html"),"proposedPreview" :("source":"ఈరోజు, చాలా మంది వ్యక్తులు ప్రయాణంలో - వారి ఫోన్‌ల నుండి రోజువారీ సమస్యలను పరిష్కరిస్తారు. దానితో, మీరు మీ ఇమెయిల్‌ను తనిఖీ చేయవచ్చు, పత్రాలు మరియు ఫోటోలను పంపవచ్చు, సమీపంలోని ATMని కనుగొనవచ్చు లేదా డ్రైవింగ్ మార్గాన్ని రూపొందించవచ్చు. అటువంటి పనులన్నింటికీ కీబోర్డ్‌ను ఉపయోగించడం సౌకర్యంగా ఉండదు, కాబట్టి ఇప్పుడు మొబైల్ డెవలప్‌మెంట్ యొక్క అత్యంత సంబంధిత రంగాలలో ఒకటి వాయిస్ నియంత్రణ.","html":"ఈరోజు, చాలా మంది వ్యక్తులు ప్రయాణంలో రోజువారీ పనులను - వారి ఫోన్ నుండి పరిష్కరించుకుంటారు. దానితో, మీరు మీ ఇమెయిల్‌ను తనిఖీ చేయవచ్చు, పత్రాలు మరియు ఫోటోలను పంపవచ్చు, సమీపంలోని ATMని కనుగొనవచ్చు లేదా డ్రైవింగ్ మార్గాన్ని రూపొందించవచ్చు. అటువంటి పనులన్నింటికీ కీబోర్డును ఉపయోగించడం సౌకర్యంగా ఉండదు, కాబట్టి ఇప్పుడు మొబైల్ డెవలప్‌మెంట్ యొక్క అత్యంత సంబంధిత రంగాలలో ఒకటి వాయిస్ నియంత్రణ.","contentType":"text/html"),"titleImage":null,"tags" :[("displayName ":"Yandex technologies","slug":"tekhnologii-yandeksa","categoryId":"150002777","url":"/blog/company??tag=tekhnologii-yandeksa"),( "displayName":" ఇది ఎలా పని చేస్తుంది?","స్లగ్":"kak-eto-rabotaet","categoryId":"150006149","url":"/blog/company??tag=kak-eto-rabotaet ")],"isModerator ":false,"commentsEnabled":true,"url":"/blog/company/72171","urlTemplate":"/blog/company/%slug%","fullBlogUrl":"https ://yandex.ru /blog/company","addCommentUrl":"/blog/createComment/company/72171","updateCommentUrl":"/blog/updateComment/company/72171","addCommentWithCaptcha/" createWithCaptcha/company/72171" ,"changeCaptchaUrl":"/blog/api/captcha/new","putImageUrl":"/blog/image/put","urlBlog":"/blog/company","urlEditPost": "/blog/562886797eba6ef16f805641/ సవరించు","urlSlug":"/blog/post/generateSlug","urlPublishPost":"/blog/562886797eba6ef16f805641,"publish"publish 86797eba6ef16f805641/అన్‌పబ్లిష్","urlRemovePost ":"/blog/ 562886797eba6ef16f805641/removePost","urlDraft":"/blog/company/72171/draft","urlDraftTemplate":"/blog/company/%slug%/draft"/Dblog"/draft"," /562886797eba6ef16f805641/తీసివేయబడిన తెప్ప", "urlTagSuggest":"/blog/api/suggest/company","urlAfterDelete":"/blog/company","isAuthor":false,"subscribe/subscribeUrblog/subscribeUrl /562886797eba6ef16f805641","unsubscribeUrl" :"/blog/api/unsubscribe/562886797eba6ef16f805641","urlEditPostPage":"/blog/company,8608 urlForTranslate":"/బ్లాగ్/పోస్ట్/అనువాదం","urlRelateIssue" :"/blog/post/ updateIssue","urlUpdateTranslate":"/blog/post/updateTranslate","urlLoadTranslate":"/blog/post/loadTranslate","urlTranslationStatus":"/blog/company1/721In"/721 ,"urlRelatedArticles":"/ blog/api/relatedArticles/company/72171","author":("id":"5105614","uid":("value":"5105614","lite":false, "హోస్ట్ చేయబడింది":తప్పు), "అలియాసెస్":("13":"కడనర్"),"లాగిన్":"మినుషుమన్","డిస్‌ప్లే_పేరు":("పేరు":"అలెక్సీ","అవతార్":("డిఫాల్ట్" :"21377/5105614-16014116 ","ఖాళీ":తప్పు)),"చిరునామా":" [ఇమెయిల్ రక్షించబడింది]","defaultAvatar":"21377/5105614-16014116","imageSrc":"https://avatars.mds.yandex.net/get-yapic/21377/5105614-16014116/ద్వీపాలు,"మధ్య" నిజం),"originalModificationDate":"2013-11-22T12:24:47.000Z","socialImage":("orig":("fullPath":"https://avatars.mds.yandex.net/get-yablogs /49865/file_1465551301378/orig"))))">

ఇది ఎలా పని చేస్తుంది? ప్రసంగ గుర్తింపు

YaC 2013

వాయిస్ నియంత్రణ అనేది స్పీచ్ రికగ్నిషన్ టెక్నాలజీపై ఆధారపడి ఉంటుంది. ఇది వివిధ రంగాలలో సాధించిన విజయాలను కలిగి ఉంటుంది: గణన భాషాశాస్త్రం నుండి డిజిటల్ సిగ్నల్ ప్రాసెసింగ్ వరకు. అక్టోబర్ ప్రారంభంలో జరిగిన ఒక సమావేశంలో, Yandex దాని ప్రసంగ గుర్తింపు సాంకేతికతను అందించింది మరియు ఈ రోజు మనం అది ఎలా పని చేస్తుందనే దాని గురించి మాట్లాడాలనుకుంటున్నాము.

Yandex నుండి స్పీచ్ రికగ్నిషన్ టెక్నాలజీ Yandex స్పీచ్ కిట్ ఎలా పనిచేస్తుంది |

హబ్రహబ్ర్

Yandex నుండి స్పీచ్-రికగ్నిషన్-టెక్నాలజీ-Yandex-SpeechKit

శాస్త్రవేత్తలు ఈ సమస్యను సుమారు 70 సంవత్సరాలుగా అధ్యయనం చేస్తున్నారు, 80 ల రెండవ భాగంలో జపాన్‌లో మొదటి పారిశ్రామిక వ్యవస్థ సృష్టించబడింది, దీనిని PC (డిక్టోగ్రాఫ్‌లు) లో వచనాన్ని నిర్దేశించే వ్యవస్థ అని పిలుస్తారు, ఈ వ్యవస్థకు ఇరుకైన స్పెషలైజేషన్ ఉంది.

PC స్పీచ్ రికగ్నిషన్ ద్వారా మేము అలాంటి గుర్తింపును అర్థం చేసుకున్నాము, ఇది ఒక వ్యక్తి యొక్క ప్రసంగం యొక్క అవగాహనలో, ఏ పరిస్థితుల్లోనైనా మరియు ఏ వ్యక్తితోనైనా కమ్యూనికేట్ చేసేటప్పుడు వివరించబడుతుంది.

సమస్య పరిష్కారం దీని ద్వారా అడ్డుకుంటుంది:

1) ప్రసంగ సంకేతాలను ప్రాసెస్ చేసేటప్పుడు నాడీ వ్యవస్థ ద్వారా నిర్వహించబడే పరివర్తనల యొక్క మొత్తం సంక్లిష్టతను వివరించే స్పష్టమైన సైద్ధాంతిక ఆలోచనలు లేకపోవడం;

2) అనర్గళమైన ప్రసంగం కలిగి ఉండటం:

3) అస్పష్టమైన పద సరిహద్దులు:

4) పొరుగు శబ్దాల ప్రభావం ఒకదానిపై ఒకటి;

5) అస్పష్టమైన ఉచ్చారణ మరియు ఫంక్షనల్ పదాల అదృశ్యం;

7) మౌఖిక సంభాషణ ప్రక్రియలో చాలా ముఖ్యమైనవి పరభాషా కమ్యూనికేషన్ మార్గాలు:

a) కైనెసిక్స్ (ముఖ కవళికలు, సంజ్ఞలు);

సి) ప్రాక్సెమిక్స్ (ప్రజల మధ్య దూరం).

కాబట్టి, ఈ రోజు ARR కొన్ని పరిమితుల క్రింద మాత్రమే నిర్వహించబడుతుంది:

1) ఒంటరిగా మాట్లాడే పదాలను గుర్తించడం;

3) చిన్న, ముందే నిర్వచించిన నిఘంటువు ఆధారంగా గుర్తింపు.

ViaVoice (నిమిషానికి 140 పదాలు)తో ఈ రకమైన ఉత్పత్తిలో IBM అగ్రగామిగా ఉంది. ఒక ప్రసిద్ధ డిక్టేషన్ సిస్టమ్ డ్రాగన్‌సిస్టమ్.

గుర్తింపు అల్గోరిథం:

1. స్పోకెన్ స్పీచ్ ఇన్‌పుట్, డేటా ప్రాసెసింగ్ (నాయిస్ రిమూవల్);

2. సౌండ్ స్ట్రీమ్‌ను విభాగాలుగా విభజించడం;

3. కనీస ధ్వని యూనిట్ యొక్క ప్రతి విభాగంలో ఐసోలేషన్ - పదం;

4. ప్రమాణాలతో ఎంచుకున్న యూనిట్ల పోలిక.

పారిశ్రామిక ప్రసంగ గుర్తింపు వ్యవస్థలు సాంప్రదాయకంగా 4 సమూహాలుగా విభజించబడ్డాయి:

1. వాయిస్ నియంత్రణ సాధనాలు (PC, టెలిఫోన్);

2. టెక్స్ట్ డిక్టేషన్ సాధనాలు;

3. సమాధానమిచ్చే యంత్రం వలె ఇంటరాక్టివ్ మోడ్‌లో సమాచారం మరియు సూచన వ్యవస్థలు;

4. ప్రసంగ నమూనా ఆధారంగా వ్యక్తిని గుర్తించే సాధనాలు.

ప్రశ్న 27.

స్వయంచాలక ప్రసంగ సంశ్లేషణ వ్యవస్థలు

పద్ధతులు:

1) కోడింగ్ (బైనరీ సిస్టమ్‌లో స్పీచ్ సిగ్నల్‌లను వాటి తదుపరి పునరుద్ధరణతో రికార్డ్ చేయడం)

a) ముఖ్యంగా, ఇక్కడ PC పదాలు మరియు పదబంధాలను రికార్డ్ చేయడానికి ఒక పరికరంగా పనిచేస్తుంది మరియు ఆదేశాలను ఉపయోగించి సరైన సమయంలో పునరుత్పత్తి చేయబడుతుంది);

బి) ప్రతికూలత:

మెమరీలోకి ప్రవేశించని పదబంధాన్ని చెప్పడం అసాధ్యం;

ప్రత్యక్ష రూపంలో ప్రసంగ సంకేతాలను నిల్వ చేయడానికి పెద్ద మొత్తంలో మెమరీ అవసరం;

సి) ప్రయోజనాలు:

ప్రసంగం యొక్క సహజ ధ్వని;

ప్రసంగ నాణ్యత మానవ ప్రసంగాన్ని చేరుకుంటుంది;

2) ఫొనెటిక్ స్పీచ్ సింథసిస్ (మానవ స్వర వాహిక యొక్క శబ్ద నమూనా)

ఎ) ఈ పద్ధతిని ఉపయోగించే సింథసైజర్ మొదటి పద్ధతిని ఉపయోగించి సింథసైజర్ నుండి ప్రాథమికంగా భిన్నంగా ఉంటుంది - ఇది అసహజ ధ్వనిని కలిగి ఉంటుంది, రోబోట్ వాయిస్‌తో మాట్లాడుతుంది;

బి) సాధారణంగా ఒక వ్యక్తి వ్రాసిన ఆర్థోగ్రాఫిక్ వచనాన్ని ఉపయోగించి నిర్వహిస్తారు, దానిలోని PC అక్షరాలను ఫోన్‌మేస్‌గా, ఫోనెమ్‌లను అలోఫోన్‌లుగా మార్చగలదు మరియు స్పీకర్ యొక్క అలోఫోన్‌లు, ఎంచుకోదగినవి మరియు డేటాబేస్ ఉపయోగించి నిరంతర ప్రసంగ సిగ్నల్‌ను సంశ్లేషణ చేయగలదు;

సి) చాలా ఆశాజనకంగా ఉంది, ఎందుకంటే ప్రసంగం వాస్తవానికి PC ద్వారానే రూపొందించబడింది.

ఎ) ఈ రకమైన సింథసైజర్‌లోని నిఘంటువు, మొదటి పద్ధతిలో వలె, ఒక వ్యక్తి భాగస్వామ్యంతో సృష్టించబడింది, కానీ ఇక్కడ ఇది మెమరీలో వ్రాయబడిన పదాలు మరియు పదబంధాలు కాదు, కానీ ప్రసంగ శబ్దాల సంఖ్యా లక్షణాలు మరియు శబ్దాలు పదబంధాలు వేరుచేయబడ్డాయి, ఇది అవసరమైన మెమరీని తగ్గించడం సాధ్యం చేస్తుంది.

బి) స్పీచ్ సహజమైనది, దానిని రూపొందించడానికి, సంఖ్యా లక్షణాలు ప్రత్యేక ఆదేశాలను ఉపయోగించి ధ్వని సంకేతాలుగా మార్చబడతాయి.

ప్రస్తుతం, సంశ్లేషణ చేయబడిన ప్రసంగం సజీవంగా, భావోద్వేగంగా మరియు సహజంగా ఉండేలా అభివృద్ధి జరుగుతోంది. ఈ సమస్యను పరిష్కరించడం వలన ఏకకాల అనువాద వ్యవస్థలను సృష్టించడం, భాషా అభ్యాసంలో PCలను మరింత చురుకుగా ఉపయోగించడం మరియు దృష్టి లోపం ఉన్న వ్యక్తుల కోసం కూడా సాధ్యమవుతుంది.

ప్రశ్న 28.

డేటాబేస్‌లు (DB) మరియు భాషా సమాచార వనరులు (LIR)

DB- ఒక నిర్దిష్ట మార్గంలో ఆర్డర్ చేయబడిన కొన్ని వస్తువుల గురించి సమాచార సమితి.

వస్తువులు- ఇది సమాచారం, వాస్తవాలు, సంఘటనలు, ప్రక్రియలు. ఒక వస్తువు పదార్థం (విద్యార్థి, ఉత్పత్తి, కారు) మరియు కనిపించని (ఈవెంట్ - సర్కస్‌కు వెళ్లడం, ప్రక్రియ - టెక్స్ట్ అనువాదం, వాస్తవం - విశ్వవిద్యాలయంలో ప్రవేశం) కావచ్చు. జీవితంలో, ప్రతి వస్తువుకు కొన్ని లక్షణాలు లేదా గుణాలు (బరువు, వేగం, రంగు) ఉన్నాయి, వాటికి కొన్ని విలువలు కేటాయించబడతాయి: రొట్టె బరువు 400 గ్రాములు, కారు వేగం గంటకు 90 కిమీ.

డేటాబేస్లో, గుణాలు డేటా మూలకాలు లేదా కేవలం డేటా ద్వారా సూచించబడతాయి మరియు వాటి విలువలు డేటా విలువలు.

అందువలన, ఇచ్చారు- ఇది ఇచ్చిన వస్తువును వర్ణించే కొన్ని సూచిక మరియు వస్తువు యొక్క నిర్దిష్ట మూలకం కోసం నిర్దిష్ట విలువను తీసుకుంటుంది. ఒక వరుసను రూపొందించే డేటా సమూహాన్ని రికార్డ్ అంటారు. అనేక రికార్డులు ఒకే రకమైన సమాచారంతో ఒకే రకమైన డేటాను కలిగి ఉంటే, ఈ రికార్డులు ఒకే ఆకృతిని కలిగి ఉంటాయి. ఒకే ఫార్మాట్‌తో ఉన్న అనేక రికార్డులను ఫైల్ అంటారు. మరియు అనేక ఫైల్‌లు డేటాబేస్‌ను ఏర్పరుస్తాయి.

డేటాబేస్ యొక్క ప్రాథమిక విధులు

1) డేటాబేస్లో సమాచారం కోసం శోధించడం

ఎ) అదనంగా;

బి) తొలగింపు

సి) సవరణ

డేటాబేస్ మేనేజ్‌మెంట్ సిస్టమ్స్ (DBMS)

DBMS- డేటాబేస్ యొక్క సృష్టి మరియు నిర్వహణను అనుమతించే సాఫ్ట్‌వేర్ సాధనాల సమితి.

DBMS రకాలు:

1. డెస్క్‌టాప్ DBMSలు సంక్లిష్టత స్థాయిని బట్టి విభజించబడ్డాయి:

ఎ) చిన్న మొత్తంలో సమాచారాన్ని ప్రాసెస్ చేయడానికి DBMS (MS అవుట్‌లుక్)

బి) DBMS ఎలా ప్రోగ్రామ్ చేయాలో తెలియని వినియోగదారులను లక్ష్యంగా చేసుకుంది (EXCEL, LOTUS)

సి) అప్లికేషన్ డెవలప్‌మెంట్‌పై దృష్టి కేంద్రీకరించిన కాంప్లెక్స్ DBMSలు (ఫాక్స్ బేస్, MS యాక్సెస్)

2. సర్వర్ DBMS - "క్లయింట్-సర్వర్" నిర్మాణాన్ని ఉపయోగించండి, అనగా. డేటా యొక్క కేంద్రీకృత నిల్వ మరియు ప్రాసెసింగ్ (ఇన్ఫార్మిక్స్, MS SQL సర్వర్) నిర్వహించండి.

DBMS యొక్క ప్రాథమిక విధులు

1) డేటాబేస్ నిర్మాణం యొక్క సృష్టిని నిర్ధారించుకోండి (ఏ సమాచారం నిల్వ చేయబడుతుందో, ఏ లక్షణాలు, డేటా రకాలను నిర్ణయించండి)

2) డేటాబేస్లో ఉన్న సమాచారం యొక్క మార్పు:

ఎ) అదనంగా;

బి) తొలగింపు

సి) సవరణ

3) సమాచారం కోసం శోధించండి

ప్రశ్న 29.

LIR -

చురుకుగా రూపాలు

అత్యంత సాధారణ పరంగా LIR

నిష్క్రియ భాషా సమాచార వనరులు:

1) వ్రాతపూర్వక నిఘంటువు ఏకభాష మరియు బహుభాషా నిఘంటువులచే సూచించబడుతుంది. సాధారణ అర్థంలో నిఘంటువు - ఇది ఒక నిర్దిష్ట క్రమంలో (వివిధ రకాల నిఘంటువులలో వేర్వేరుగా) అమర్చబడిన పదాలను (మార్ఫిమ్‌లు, పదబంధాలు, ఇడియమ్స్ మొదలైనవి) కలిగి ఉన్న సూచన పుస్తకం. ఇది వివరించిన యూనిట్ల అర్థం, అలాగే వివిధ సమాచారాన్ని కలిగి ఉండవచ్చు ఓవాటిని. ఏదైనా నిఘంటువు రిలేషనల్ డేటాబేస్‌గా సూచించబడుతుంది

ఎ) పద రూపాల ఫ్రీక్వెన్సీ-ఆల్ఫాబెటిక్ నిఘంటువుఏదైనా టెక్స్ట్ - సరళమైన భాషా డేటాబేస్;

బి) పద సూచిక – మరింత క్లిష్టమైన డేటాబేస్. అందులో, టెక్స్ట్‌లో పద రూపం యొక్క ఉపయోగం యొక్క సంపూర్ణ ఫ్రీక్వెన్సీతో పాటు, ఈ పద రూపం కనుగొనబడిన పేజీలోని పేజీలు మరియు పంక్తుల సంఖ్యలు సూచించబడతాయి.

V) సమన్వయాలు – మరింత క్లిష్టమైన డేటాబేస్ రకం . వాటిలో, టెక్స్ట్ యొక్క ప్రతి పద రూపం సంఖ్యా సూచికల (ఫ్రీక్వెన్సీ, పేజీ సంఖ్య, లైన్ నంబర్ మొదలైనవి) మాత్రమే కాకుండా, కొన్ని సందర్భం ద్వారా కూడా వర్గీకరించబడుతుంది. , దీనిలో ఇది ఉపయోగించబడుతుంది. నియమం ప్రకారం, ఈ సందర్భం 3 వాక్యాలను కలిగి ఉంటుంది: పద రూపం సంభవించే వాక్యం, ప్రధాన వాక్యానికి ముందు వాక్యం మరియు దాని తర్వాత వాక్యం.

జి) ఎన్సైక్లోపీడియాస్ – డిక్షనరీలు పదం యొక్క లక్షణాలను కలిగి ఉండవు, కానీ అది సూచించిన వస్తువు, వాస్తవం లేదా దృగ్విషయం. కంప్యూటర్ స్టోరేజ్ మీడియాలో చాలా పెద్ద సంఖ్యలో వివిధ ఎన్సైక్లోపీడియాలు ఉన్నాయి. వాటిలో అత్యంత ప్రసిద్ధమైనది ఎన్సైక్లోపీడియా "బ్రిటానికా". ఇందులో 1768 నుండి ప్రచురించబడిన 82,000 వ్యాసాలు మరియు 700 అదనపు మెటీరియల్‌లు ఉన్నాయి. ఫ్రెంచ్ ఎన్‌సైక్లోపీడియాస్ “టన్స్ లెస్ సవోయిర్ డు మోండే”, “లే మోండే సుర్ CD-ROM”, “వెర్సైల్లెస్” మొదలైనవి తక్కువ ప్రసిద్ధమైనవి. “గ్రేట్ ఎన్‌సైక్లోపీడియా ఆఫ్ సిరిల్ అండ్ మెథోడియస్” రష్యన్ భాషలో ప్రచురించబడింది.

d) థెసారస్- ప్రాథమికంగా భిన్నమైన నిఘంటువు. ఇది దాని లెక్సికల్ యూనిట్లలో కొంత భాగం మధ్య అర్థసంబంధమైన కనెక్షన్‌లను స్పష్టంగా సూచిస్తుంది. నియమం ప్రకారం, ఇటువంటి నిఘంటువులు చాలా ఇరుకైన సమస్య ప్రాంతంలో పాఠాల కోసం నిర్మించబడ్డాయి: కంప్యూటర్ టెక్నాలజీ, సంగీతం, నౌకానిర్మాణం, వ్యవసాయం మొదలైనవి.

ఇ) పరిభాష నిఘంటువు(TS) - ఒక నిఘంటువు, దీని ప్రధాన యూనిట్ పదం .
పదం - ఇది ఒక ప్రత్యేక అర్ధాన్ని కలిగి ఉన్న పదం లేదా అధీన పదబంధం, ఇది వృత్తిపరమైన భావనను వ్యక్తపరుస్తుంది మరియు ఏర్పరుస్తుంది మరియు శాస్త్రీయ మరియు వృత్తి-సాంకేతిక వస్తువులు మరియు వాటి మధ్య సంబంధాల యొక్క జ్ఞానం మరియు అభివృద్ధి ప్రక్రియలో ఉపయోగించబడుతుంది.

ప్రశ్న 30.

LIR - PCలో నిల్వ చేయబడిన డేటా సేకరణ.

భాషా సమాచార వనరులు- సమాచార వనరు యొక్క భాగాలలో ఒకటి కొంత మేధో వనరుగా, సామూహిక సృజనాత్మకత యొక్క ఫలితం

సమాచార వనరుల యొక్క నిష్క్రియ రూపాలలో పుస్తకాలు, మ్యాగజైన్‌లు, వార్తాపత్రికలు, నిఘంటువులు, ఎన్‌సైక్లోపీడియాలు, పేటెంట్లు, డేటాబేస్‌లు మరియు డేటా బ్యాంకులు మొదలైనవి ఉన్నాయి.

చురుకుగా రూపాలుఅల్గారిథమ్‌లు, మోడల్‌లు, ప్రోగ్రామ్‌లు, నాలెడ్జ్ బేస్‌లు ఉన్నాయి

అత్యంత సాధారణ పరంగా LIR- ఇది ఒక రకమైన భాషా డేటాబేస్, ఇది నవీకరించబడుతుంది మరియు దీనిలో మీరు ఈ లేదా ఆ సమాచారం కోసం శోధించవచ్చు. PC వినియోగదారులకు మరియు స్పీచ్ టెక్స్ట్ ప్రాసెసింగ్‌కు సంబంధించిన వివిధ కంప్యూటర్ సిస్టమ్‌లకు భాషా వనరులు అవసరం: టెక్స్ట్‌లను సంగ్రహించడం, ఉల్లేఖించడం మరియు అనువదించడం, ఆటోమేటిక్ టెక్స్ట్ విశ్లేషణ, ప్రసంగం మరియు వచన సంశ్లేషణ.

2) వ్రాసిన వచన శ్రేణి ( శరీర వచనం లో, అనగా. భాష, మాండలికం లేదా భాష యొక్క ఇతర ఉపసమితి గురించి నమ్మదగిన శాస్త్రీయ అనుమతులను అందించడానికి సరిపోయే గ్రంథాల భాగం).

a) ఉపయోగించవచ్చు:

లెక్సికోగ్రఫీ మరియు లెక్సికాలజీలో (వివిధ నిఘంటువులను కంపైల్ చేయడం, పాలీసెమాంటిక్ పదాల అర్థాలను నిర్ణయించడం, టెక్స్ట్‌లోని పదాల అనుబంధ కనెక్షన్‌లను గుర్తించడం, నిబంధనలు మరియు పదబంధాలను హైలైట్ చేయడం మొదలైనవి).

వ్యాకరణంలో (వివిధ రకాల పాఠాలలో వ్యాకరణ మార్ఫిమ్‌ల వాడకం యొక్క ఫ్రీక్వెన్సీని నిర్ణయించడానికి, సాధారణంగా ఉపయోగించే పదబంధాలు మరియు వాక్యాల రకాలను గుర్తించండి, పర్యాయపద పదనిర్మాణ యూనిట్ల అర్థాలను నిర్ణయించండి, పద తరగతుల వాడకం యొక్క ఫ్రీక్వెన్సీ మొదలైనవి).

టెక్స్ట్ భాషాశాస్త్రంలో (టెక్స్ట్ రకాలను వేరు చేయడానికి, సమన్వయాలను రూపొందించడానికి, పేరాల్లోని వాక్యాల మధ్య మరియు పేరాగ్రాఫ్‌ల మధ్య కనెక్షన్‌లను గుర్తించడం మొదలైనవి).

పాఠాలను స్వయంచాలకంగా అనువదిస్తున్నప్పుడు (అనేక అనువాద సమానమైన పదాల సందర్భాల కోసం శోధించడం, సమాంతర టెక్స్ట్‌లలో పరిభాష మరియు పదజాల పదబంధాల అనువాద సమానమైన వాటి కోసం శోధించడం మొదలైనవి).

విద్యా ప్రయోజనాల కోసం (కోట్‌లను ఎంచుకోవడానికి, రచనల యొక్క వ్యక్తిగత శకలాలు, పాఠ్యపుస్తకాలు మరియు బోధనా సహాయాలను రూపొందించే ప్రక్రియలో ఉపయోగించే ఉదాహరణలు.

బి) టెక్స్ట్ కార్పోరా ట్యాగ్ చేయబడింది(ఇంగ్లీష్ నుండి, ట్యాగ్ -"సూచిక, లిట్టర్"). అటువంటి కార్పస్‌లోని అన్ని పదాలు వాటి వ్యాకరణ, లెక్సికల్, సెమాంటిక్ లేదా స్ట్రక్చరల్ లక్షణాలను సూచించే కొన్ని అక్షరాలు లేదా సంఖ్యా సూచికలను అందుకుంటాయి. ఇటువంటి అనేక సూచికలు ఉండవచ్చు.

3) ఫొనెటిక్ భాషా వనరులు
మెషిన్-రీడబుల్ ఫోనెటిక్ కార్పోరాను రూపొందించడానికి, ట్రాన్స్‌క్రిప్షన్ ధ్వని ప్రసంగం యొక్క ఆర్థోగ్రాఫిక్ ప్రాతినిధ్యం ఆధారంగా (అవసరమైతే) ప్రోసోడిక్, పారాలింగ్విస్టిక్ మరియు ఉచ్చారణ యొక్క ఇతర లక్షణాలను తెలియజేసే అదనపు అక్షరాలతో ఉపయోగించబడుతుంది.

a) కింది సమస్యలను పరిష్కరించడానికి టెక్స్ట్‌ల ఫొనెటిక్ కార్పోరా విస్తృతంగా ఉపయోగించబడుతుంది:

భాష యొక్క మౌఖిక మరియు వ్రాతపూర్వక రూపాల తులనాత్మక అధ్యయనం;

నోటి ప్రసంగం యొక్క వ్యాకరణ మరియు లెక్సికల్ లక్షణాలను అధ్యయనం చేయడం;

మాండలికాల యొక్క ఫొనెటిక్ లక్షణాల పరిశోధన;

ఫోన్‌మేస్ మరియు వాటి కలయికల ఫ్రీక్వెన్సీ జాబితాలను రూపొందించడం;

స్పీచ్ యూనిట్ల శబ్ద లక్షణాలను అధ్యయనం చేయడం మరియు సైకోలింగ్విస్టిక్ మరియు భాషా ప్రయోగాలలో వాటి ఉపయోగం;

కంప్యూటర్ సిస్టమ్స్ యొక్క సృష్టి, నోటి ప్రసంగం యొక్క గుర్తింపు మరియు సంశ్లేషణ.

పరికరం పేరు (కంపెనీ, దేశం)	విశ్లేషణ మరియు గుర్తింపు పద్ధతి	గుర్తించబడిన ప్రసంగం రకం	నిఘంటువు వాల్యూమ్, పదాలు	గుర్తింపు విశ్వసనీయత, %	ఆమోదయోగ్యమైన జోక్యం స్థాయి	దర్శకుడికి అనుసరణ పద్ధతి	టెలిఫోన్ ఇంటర్‌ఫేస్ లభ్యత	స్పీచ్ సింథసైజర్ లభ్యత	అప్లికేషన్ యొక్క పరిధి
RECH-121 (USSR)	స్ట్రిప్, DP	వివిక్త పదాలు (నిరంతర ప్రసంగం)		99 (200 పదాలకు 93)		(1-10) సార్లు ప్రసారం చేయబడింది	తినండి	తినండి	CAD, ACS, ASUPT
బార్లు (USSR)	అదే	వివిక్త పదాలు				ఒక సారి తారాగణం	అదే	అదే	CAD
సైబీరియా-1 (USSR)	»	అదే				అదే	నం	»	డిస్పాచ్ సిస్టమ్స్
సిరియస్-1 (USSR)	క్లిప్డ్ సిగ్నల్, DP	»				»	అదే	»	ప్రత్యేకం

4.4 విదేశీ వ్యవస్థలను వాగ్దానం చేస్తోంది
మౌఖిక కమ్యూనికేషన్

వివిధ రకాల విదేశీ పారిశ్రామిక SROలలో, కొత్త సైద్ధాంతిక నమూనాలు మరియు ప్రసంగ సంశ్లేషణ మరియు గుర్తింపు యొక్క సాధించిన నాణ్యత సూచికలు రెండింటినీ అమలు చేయడంలో మా అభిప్రాయం ప్రకారం, అత్యంత ఆశాజనకంగా ఉన్న వ్యవస్థలను మేము పరిశీలిస్తాము.

అపరిమిత నిఘంటువు యొక్క టెక్స్ట్ నుండి నేరుగా వివిధ టెంపోలు మరియు షేడ్స్ యొక్క సహజ-సహజ ప్రసంగాన్ని పునరుత్పత్తి చేయడానికి ఉపయోగించే అధిక-నాణ్యత సింథసైజర్‌కు ఉదాహరణ DES-టాక్ పరికరం. DES-టాక్ పరికరం (టేబుల్ 1.1 చూడండి) అనేది 10 ´ 45 ´ 30 సెం.మీ కొలత గల బ్లాక్, దీని వెనుక ప్యానెల్‌లో కంప్యూటర్, వీడియో టెర్మినల్ మరియు ప్రింటింగ్ పరికరాన్ని కనెక్ట్ చేయడానికి కనెక్టర్‌లు ఉన్నాయి, వివిధ సమాచార అవుట్‌పుట్ పరికరాలు. టెలిఫోన్, మరియు LED సూచిక , వాల్యూమ్ నియంత్రణ. DES-టాక్ సింథసైజర్ యొక్క అధిక నాణ్యత నియమాల యొక్క పెద్ద లైబ్రరీ కారణంగా, వినియోగదారు అభ్యర్థన మేరకు నిఘంటువును ఎంచుకోగల సామర్థ్యం మరియు ప్రసంగ మార్పిడి కోసం హార్డ్‌వేర్ నాణ్యత. వినియోగదారు ప్రామాణికమైన స్త్రీ, పురుషుడు, పిల్లతనం, అలాగే లోతైన పురుషుడు మరియు వృద్ధ స్వరంతో సహా ఏడు విభిన్న స్వరాలను ఎంచుకోవచ్చు.

DES- చర్చ పరికరంలో, టెక్స్ట్ సమాచారాన్ని ప్రసంగంగా మార్చే ప్రక్రియ మూడు స్థాయిలుగా విభజించబడింది. మొదటిది, పదాలు ASCII కోడ్ ప్రకారం డిజిటల్ రూపంలోకి మార్చబడతాయి మరియు ఫోనెమ్‌లుగా విభజించబడ్డాయి. ఇది అక్షరాలను శబ్దాలు మరియు రెండు నిఘంటువులుగా మార్చడానికి నియమాల సమితిని ఉపయోగిస్తుంది. ఒకటి 6,000 పదాలను కలిగి ఉంటుంది, మరొకటి వినియోగదారు నమోదు చేసిన 150 నిర్దిష్ట పదాలు, విదేశీ పదాలు మరియు సంక్షిప్తాలను కలిగి ఉంటుంది. పెద్ద డిక్షనరీలోని ఇన్‌పుట్ ఆర్థోగ్రాఫిక్ టెక్స్ట్‌తో సరిపోలే సూచన పదాల కోసం శోధించడంతో మొదటి-స్థాయి పరివర్తనలు ప్రారంభమవుతాయి. ప్రమాణాలు కనుగొనబడితే, టెక్స్ట్, ఫోనెమిక్ రూపంలోకి మార్చబడుతుంది, వెంటనే రెండవ ప్రాసెసింగ్ స్థాయికి బదిలీ చేయబడుతుంది. ఏదైనా నిఘంటువులలో ప్రమాణాలు కనుగొనబడకపోతే, ఇన్‌పుట్ వచనం అక్షరాలను శబ్దాలుగా మార్చడానికి నియమాలకు అనుగుణంగా ప్రాసెస్ చేయబడుతుంది మరియు తరువాత రెండవ స్థాయికి బదిలీ చేయబడుతుంది. రెండవ స్థాయిలో, ఫోనెమ్‌లు చదవబడతాయి, వాక్యనిర్మాణ విశ్లేషణ నిర్వహించబడతాయి, పదాలలో శబ్దం, వ్యవధి మరియు ఒత్తిడి నిర్ణయించబడతాయి మరియు శబ్ద గణనలు నిర్వహించబడతాయి. మూడవ స్థాయిలో, ఇన్‌పుట్ టెక్స్ట్ సమాచారం మరియు స్పీచ్ సింథసిస్ యొక్క తుది రూపాంతరాలు నిర్వహించబడతాయి. సింథసైజ్ చేయబడిన డిజిటల్ సిగ్నల్స్ కనీసం 120 Kbps వేగంతో ప్రామాణిక డిజిటల్-టు-అనలాగ్ కన్వర్టర్ (DAC)కి ప్రసారం చేయబడతాయి. DES-టాక్ సింథసైజర్ ఇచ్చిన పదం యొక్క ఉచ్చారణ, స్వరం, వ్యవధి మరియు ఒత్తిడిపై పరిసర పదాల ప్రభావాన్ని అంచనా వేయడానికి హ్యూరిస్టిక్ నియమాలను ఉపయోగిస్తుంది.

DES-టాక్ సింథసైజర్ సాఫ్ట్‌వేర్ ASCII స్టాండర్డ్‌లో పనిచేస్తున్న ఆల్ఫాన్యూమరిక్ టెర్మినల్స్ సాఫ్ట్‌వేర్‌తో దాదాపు సమానంగా ఉంటుంది, డేటా ఆకృతిని నిర్వచించే మాడ్యూల్స్ మినహా. అందువల్ల, సాఫ్ట్‌వేర్‌ను సృష్టించడం సులభం, ఇది DES-టాక్ సింథసైజర్ కోసం అప్లికేషన్ యొక్క విస్తృత ప్రాంతాలను తెరుస్తుంది.

నిరంతర ఉచ్చారణ మోడ్‌లో పెద్ద నిఘంటువులతో (1000 పదాలకు పైగా) పనిచేసేటప్పుడు అధిక విశ్వసనీయతను సాధించాలనే కోరికతో మంచి ప్రసంగ గుర్తింపు నమూనాల సృష్టి అనుబంధించబడింది. KVS-3000 సిస్టమ్ ఈ ఆదర్శానికి దగ్గరగా ఉంటుంది, దాని నిఘంటువులో 10,000 పదాలు ఉన్నాయి మరియు గుర్తింపు ఖచ్చితత్వం 95%. ఆపరేషన్ కోసం పరికరాన్ని సిద్ధం చేయడానికి, రిఫరెన్స్ పదాల మొత్తం సెట్ మూడు సార్లు మాట్లాడాలి, కాబట్టి KVS-30,000 పరికరం యొక్క మెమరీ 30,000 పదాలను నిల్వ చేయడానికి రూపొందించబడింది. సగటు గుర్తింపు సమయం సుమారు 500 ms.

Verbex కంపెనీ (USA) శక్తివంతమైన నిరంతర ప్రసంగ గుర్తింపు వ్యవస్థను అభివృద్ధి చేసింది - Verbex-30,000 మోడల్, ఇది వ్యక్తిగత లేదా నిరంతరం మాట్లాడే పదాలను కలిగి ఉన్న ఏదైనా పొడవు వాక్యాలను గుర్తించడానికి మిమ్మల్ని అనుమతిస్తుంది. ఈ సిస్టమ్ ఒక స్పీకర్ యొక్క వాయిస్‌పై దృష్టి సారిస్తుంది; స్పీకర్ మారినప్పుడు, పద ప్రమాణాలను నిల్వ చేయడానికి RAMలో తిరిగి వ్రాయడం అవసరం. వెర్బెక్స్-30,000 మోడల్, "స్టార్" ఆర్కిటెక్చర్‌పై నిర్మించబడింది, అటువంటి 2-4 స్పీచ్ ప్రాసెసర్‌లను కలిగి ఉంటుంది మరియు 120-360 పదాలతో పనిచేయగలదు. ప్రతి ప్రాసెసర్ డేటా నిల్వ కోసం 0.25 MB మెమరీని కలిగి ఉంటుంది, అలాగే 4000 మైక్రోకోడ్ సూచనలను నిల్వ చేయడానికి మెమరీని కలిగి ఉంటుంది, ప్రతి ఒక్కటి 64 బిట్స్ పొడవు ఉంటుంది. అదనంగా, ఇంటర్ఫేస్ మూలకాల యొక్క అభివృద్ధి చెందిన నిర్మాణం ద్వారా అందించబడిన సిస్టమ్ డిజైన్ యొక్క వశ్యత, సెంట్రల్ కంప్యూటర్ యొక్క మెమరీని ఉపయోగించడానికి అనుమతిస్తుంది. స్పీచ్ ప్రాసెసర్ వేగం 5 మిలియన్ ఆపరేషన్లు/సె.

సిస్టమ్ యొక్క మైక్రోప్రాసెసర్ ఆర్కిటెక్చర్ హై-స్పీడ్ కార్యకలాపాలను అనుమతిస్తుంది, ఇది నిరంతర ప్రసంగ గుర్తింపు అల్గోరిథం అమలుకు అవసరమైన పరిస్థితి. గుర్తింపు ప్రక్రియ, వినియోగదారు మాట్లాడే పదాలకు ఉత్తమంగా సరిపోయే ప్రామాణిక పదాల క్రమాన్ని ఎంచుకోవడంలో DP పద్ధతిని ఉపయోగించి నిర్వహించబడుతుంది. ఇన్‌పుట్ స్పీచ్ సిగ్నల్‌లు ఆడియో ప్రాసెసర్ ద్వారా విస్తరించబడతాయి, ఫిల్టర్ చేయబడతాయి మరియు ఎన్‌కోడ్ చేయబడతాయి, ఆపై 10 μs వ్యవధిలో కంట్రోల్ ప్రాసెసర్‌కి ప్రసారం చేయబడతాయి. కంట్రోల్ ప్రాసెసర్ స్పీచ్ ప్రాసెసర్‌ల మధ్య సిగ్నల్‌ను పంపిణీ చేస్తుంది, ఇది దాని ఫొనెటిక్ లక్షణాలను హైలైట్ చేస్తుంది. 99% గుర్తింపు ఖచ్చితత్వాన్ని నిర్ధారించడానికి అటువంటి 16 లక్షణాలు సరిపోతాయని సిస్టమ్ డెవలపర్‌లు నిర్ధారించారు. నియంత్రణ ప్రాసెసర్‌లో గుర్తింపు ప్రక్రియ మరియు ప్రమాణం కోసం శోధన ఏకకాలంలో నిర్వహించబడతాయి, అంటే, ప్రాసెసర్ ప్రసంగం ముగింపును "క్యాచ్" చేసినప్పుడు.

తుది ఫలితాన్ని ప్రభావితం చేసే మొదటి దశలో సాధ్యమయ్యే లోపాలను గుర్తించకుండా ఉండటానికి, సిస్టమ్ నిరంతరం అనేక సమాంతర పరికల్పనలను తనిఖీ చేస్తుంది, ఇన్‌పుట్ డేటాను అన్ని సాధారణ ఉచ్చారణల యొక్క వ్యాకరణపరంగా నియమించబడిన సెట్‌తో పోల్చి చూస్తుంది. అన్ని పరికల్పనలు తనిఖీ చేయబడి, చెప్పబడినది ప్రమాణానికి సరిపోయే వరకు సమాధానం ఆలస్యం అవుతుంది.

4.5 ఉత్పత్తి వినియోగంలో పోకడలు
మౌఖిక కమ్యూనికేషన్

ఇటీవలి వరకు, SRO యొక్క సృష్టికి సంబంధించిన చాలా పని వివిధ స్థాయిల (ఫోనెమ్‌లు, అక్షరాలు, పదాలు) ప్రసంగ అంశాల యొక్క శబ్ద ప్రమాణాలను రూపొందించే ఆలోచనపై ఆధారపడింది. ఈ సందర్భంలో, స్పీచ్ స్ట్రీమ్‌లో ఈ శబ్ద ప్రమాణాల గుర్తింపు మరియు గుర్తింపుగా గుర్తింపు అమలు చేయబడింది. భాషాపరమైన (కోర్టిక్యులేషన్, రిడక్షన్, అసిమిలేషన్ ఎఫెక్ట్స్) మరియు ఎక్స్‌ట్రా-లింగ్విస్టిక్ కారకాలు (వక్తల స్వరాల వ్యక్తిగత లక్షణాలు, వ్యత్యాసాలు) రెండింటితో అనుబంధించబడిన స్పీచ్ సిగ్నల్ యొక్క ధ్వని లక్షణాలలో గణనీయమైన వైవిధ్యం కారణంగా ఈ విధానం అనూహ్యమైనది అని ఇప్పుడు స్పష్టమైంది. వారి ఉచ్చారణ నైపుణ్యాలు, వాహక మాధ్యమం యొక్క స్థితి మొదలైనవి). ఫోనెమ్‌ల శబ్ద లక్షణాలు ప్రత్యేకించి గొప్ప వైవిధ్యాన్ని కలిగి ఉంటాయి. అందువల్ల, చాలా పారిశ్రామిక స్పీచ్ రికగ్నిషన్ సిస్టమ్‌లు ఫోనెమిక్ విశ్లేషణను వదిలివేసి, పదాన్ని కనీస గుర్తింపు పొందిన అంశంగా అంగీకరించాయి. ఈ విధానం, ప్రసంగ పరిశోధన యొక్క నిర్దిష్ట దశలో కనిపించే ఫలితాలను ఇచ్చినప్పటికీ, స్పీకర్ కోసం సర్దుబాటు చేయకుండా లేదా పెద్ద నిఘంటువులతో సిస్టమ్‌లను సృష్టించకుండా ప్రసంగ గుర్తింపు వంటి సంక్లిష్ట గుర్తింపు సమస్యలను పరిష్కరించేటప్పుడు ఫలించలేదు. ఇది కొత్త గుణాత్మక స్థాయిలో ప్రసంగం యొక్క ఫోనెమిక్ విశ్లేషణ ఆలోచనకు తిరిగి రావాలని బలవంతం చేసింది, ఇది భాషా శాస్త్రం, అవగాహన సిద్ధాంతం మరియు మనస్తత్వశాస్త్రంలో సేకరించిన జ్ఞానాన్ని ఉపయోగించి, ప్రసంగ అవగాహన సమయంలో మానవ సమాచార ప్రాసెసింగ్ ప్రక్రియ యొక్క వివిధ అంశాలను మోడలింగ్ చేస్తుంది. ఈ విధానంతో, స్పీచ్ రికగ్నిషన్ యొక్క కార్డినల్ టాస్క్‌లలో ఒకటి మానవ ప్రసంగ అవగాహన యొక్క యంత్రాంగాలను గుర్తించడం మరియు మోడలింగ్ చేయడం, ఇది వారి అపారమైన శబ్ద వైవిధ్యం యొక్క పరిస్థితులలో గ్రహించిన ప్రసంగ మూలకాల యొక్క స్థిరత్వం మరియు స్థిరత్వాన్ని నిర్ధారిస్తుంది.

స్పీచ్ రికగ్నిషన్ సమస్యను పరిష్కరించడానికి ఒక నిపుణుడైన ఫొనెటిషియన్ ద్వారా తెలియని స్పీచ్ సిగ్నల్ యొక్క డైనమిక్ స్పెక్ట్రోగ్రామ్‌లను చదవడం చాలా విస్తృతంగా మారింది. స్పెక్ట్రోగ్రామ్ పఠన ప్రయోగాలపై ఆసక్తికి కారణం, మొదటిది, స్పీచ్ సిగ్నల్‌లో ఉన్న ఫొనెటిక్ సమాచారం యొక్క సంపదను అవి త్రిమితీయ (ఫ్రీక్వెన్సీ - టైమ్ - ఇంటెన్సిటీ) స్పెక్ట్రల్ నమూనాగా సూచిస్తాయి మరియు రెండవది వాస్తవం. వారు నిపుణుడి యొక్క జ్ఞానం మరియు విధానపరమైన నైపుణ్యాలను ప్రసంగ గుర్తింపు వ్యవస్థల్లోకి అనువదించడానికి అనుమతిస్తారు. స్పెక్ట్రోగ్రామ్ పఠనంపై పరిశోధన వివిధ దేశాలలో నిర్వహించబడుతోంది మరియు ప్రస్తుతం ఈ అధ్యయనాలలో ప్రధాన సమస్య జ్ఞానాన్ని గుర్తించడం మరియు అధికారికీకరించడం.
మరియు నిపుణుల విధానపరమైన నైపుణ్యాలు. స్పీచ్ స్పెక్ట్రోగ్రామ్‌ల శబ్ద-ఫొనెటిక్ డీకోడింగ్ సమయంలో నిపుణులు ఎల్లప్పుడూ వారికి మార్గనిర్దేశం చేసే సూత్రాలు మరియు నియమాలను వ్యక్తీకరించలేరు కాబట్టి ఇది చాలా క్లిష్టమైన ప్రక్రియ అని తేలింది. నిపుణుడికి స్పష్టంగా కనిపించే నియమాలు మరియు జ్ఞానం యొక్క అల్గారిథమ్‌లో అమలు చేయడం ముఖ్యమైన సమస్యల్లో ఒకటి (ఉదాహరణకు, F 420 2500 Hz కంటే ఎక్కువగా ఉండకూడదు) లేదా రూపొందించడం కష్టం (ఉదాహరణకు, కాంపాక్ట్‌నెస్‌ని నిర్ణయించే నియమం స్టాప్‌ల పేలుడు). నిపుణుల పరిజ్ఞానాన్ని సంగ్రహించడం మరియు రికార్డ్ చేయడంతో సంబంధం ఉన్న ఈ ఇబ్బందులను అధిగమించడానికి, నిపుణుల వ్యవస్థలు ఉపయోగించబడతాయి. నిపుణుల వ్యవస్థలు సాధారణ కంప్యూటర్ ప్రోగ్రామ్‌ల నుండి విభిన్నంగా ఉంటాయి, అవి దృఢమైన అల్గారిథమిక్ సొల్యూషన్స్ లేని సమస్యలను పరిష్కరించగలవు మరియు అసంపూర్ణ లేదా నమ్మదగని సమాచారం ఆధారంగా తీర్మానాలు చేయగలవు. అందువల్ల, అవి అనువైన మానవ కార్యకలాపాలను మోడలింగ్ చేయడానికి చాలా అనుకూలంగా ఉంటాయి, ఇది ప్రసంగ పరిశోధనలో ఉపయోగించబడింది. ఈ అధ్యయనాలలో ES వ్యవస్థ మరియు నిపుణుడి మధ్య పరస్పర చర్య ప్రక్రియలో జ్ఞాన స్థావరాన్ని సేకరించేందుకు ఒక విశ్లేషణ సాధనంగా ఖచ్చితంగా ఉపయోగించబడుతుందని నొక్కి చెప్పాలి. గుర్తింపు వ్యవస్థగా ESని ఉపయోగించడం అసమర్థమైనది.

నిపుణుడు ఫొనెటిషియన్ యొక్క కార్యాచరణను మోడలింగ్ చేయడంలో రెండవ ముఖ్యమైన ఇబ్బంది ఏమిటంటే, స్పెక్ట్రోగ్రామ్‌ల యొక్క దృశ్య విశ్లేషణ, నిపుణుల డీకోడింగ్ చర్యలకు లోబడి ఉంటుంది, ఇది స్పీచ్ సిగ్నల్ యొక్క శ్రవణ ప్రాసెసింగ్ కంటే తక్కువ సంక్లిష్టంగా ఉండదు. స్పెక్ట్రోగ్రామ్‌ల పఠనాన్ని అధికారికీకరించేటప్పుడు, మానవ దృశ్య వ్యవస్థ ద్వారా సులభంగా గుర్తించబడే శబ్ద లక్షణాలను సంగ్రహించడంలో కష్టమైన సమస్య తలెత్తుతుంది. ES ను అభివృద్ధి చేస్తున్నప్పుడు, చాలా మంది పరిశోధకులు ఈ కష్టాన్ని దాటవేస్తారు. ఏదేమైనా, ఉత్పన్నమైన పరిస్థితిని పరిగణనలోకి తీసుకున్నప్పటి నుండి, స్పెక్ట్రం యొక్క పారామెట్రిక్ వివరణ నుండి దాని ఫొనెటిక్ వివరణకు పరివర్తన సమయంలో ప్రసంగ సమాచారం యొక్క కొన్ని ఇంటర్మీడియట్ స్థాయి కోడింగ్ ఉనికి యొక్క ఆలోచన తార్కికంగా అనుసరిస్తుంది. అంతేకాకుండా, స్పీచ్ సిగ్నల్స్ యొక్క ఇంటర్మీడియట్ వివరణ కోసం సూత్రాలను అభివృద్ధి చేయవలసిన అవసరం ఆటోమేటిక్ స్పీచ్ రికగ్నిషన్‌లో ప్రధాన సమస్యగా హైలైట్ చేయబడింది. ఒక ఇంటర్మీడియట్ వివరణ మాత్రమే నేరుగా గమనించిన నిరంతర శబ్ద సంకేతం మరియు వివిక్త భాషా వివరణ మధ్య వంతెనను నిర్మించడానికి అనుమతిస్తుంది. ఇంటర్మీడియట్ ప్రాతినిధ్యం ధ్వని లక్షణాల యొక్క "ప్రవర్తన"ను వివరిస్తుంది, ఇది స్పీకర్ నుండి స్పీకర్‌కు చాలా వరకు మారదు మరియు ప్రధానంగా ఫొనెటిక్ యూనిట్‌ల సందర్భోచిత పరస్పర చర్యపై ఆధారపడి ఉంటుంది. ఈ సందర్భంలో, ఇంటర్మీడియట్ ప్రాతినిధ్యం, ఒక నియమం వలె, గుణాత్మక రూపంలో వ్యక్తీకరించబడుతుంది మరియు ఉనికిని - కొన్ని శబ్ద వస్తువులు లేకపోవడం, స్పెక్ట్రంలో అధిక - తక్కువ స్థానం లేదా బలమైన - ఒకటి లేదా మరొకటి బలహీనమైన అభివ్యక్తి. శక్తి భాగం.

ఈ విధంగా, ధ్వని-ధ్వని డీకోడింగ్ ప్రక్రియలో, మొదట పరిమాణాత్మక మార్పుల నుండి గుణాత్మక వివరణకు, ఆపై గుణాత్మక వివరణల నుండి ఫోన్‌మేస్‌ల లక్షణాలకు మార్పు ఉంటుంది. నియమం ప్రకారం, స్పీచ్ ఇన్ఫర్మేషన్ ప్రాతినిధ్యం యొక్క ఇంటర్మీడియట్ స్థాయి యూనిట్లను శబ్ద కీలు, శబ్ద సంకేతాలు లేదా డిస్క్రిప్టర్లు అంటారు.

రష్యాలో, ఫొనెటిక్ నిపుణులచే స్పెక్ట్రోగ్రామ్‌లను చదవడం మరియు వారి ఫోనెమిక్ మరియు మౌఖిక వివరణ కోసం నియమాలను అభివృద్ధి చేయడం 1980 నుండి నిర్వహించబడింది. పొందిన ఫలితాలు స్పీచ్ విశ్లేషణ కోసం హార్డ్‌వేర్-సాఫ్ట్‌వేర్ మోడల్‌ను రూపొందించడం ప్రారంభించేందుకు మాకు అనుమతినిచ్చాయి, ఇది స్పెక్ట్రోగ్రామ్‌లను చదవడానికి అల్గారిథమ్‌లపై ఆధారపడి ఉంటుంది.

ఇంతకు ముందు ఎంత బాగుండేది! హెల్ప్ డెస్క్‌కి కాల్ చేయడం ద్వారా, మీరు గర్ల్ ఆపరేటర్‌తో మాట్లాడవచ్చు మరియు ఆమెతో అపాయింట్‌మెంట్ కూడా తీసుకోవచ్చు. ఇప్పుడు, లైన్ యొక్క మరొక చివరలో, ఆహ్లాదకరమైన కానీ నిర్జీవమైన స్త్రీ స్వరం వినబడుతుంది, అటువంటి మరియు అటువంటి సమాచారాన్ని స్వీకరించడానికి 1 డయల్ చేయమని, 2 అటువంటి మరియు అలాంటివారిని సంప్రదించడానికి, 3 మెనుకి వెళ్లడానికి మొదలైనవి. ఎక్కువగా, సమాచారానికి ప్రాప్యత వ్యవస్థచే నియంత్రించబడుతుంది, వ్యక్తి కాదు. దీనికి దాని స్వంత తర్కం ఉంది: మార్పులేని, రసహీనమైన పని ఒక వ్యక్తి ద్వారా కాదు, యంత్రం ద్వారా జరుగుతుంది. మరియు వినియోగదారు కోసం, సమాచారాన్ని పొందే విధానం సరళీకృతం చేయబడింది: అతను నిర్దిష్ట సంఖ్యల సమితికి పేరు పెట్టాడు మరియు అవసరమైన సమాచారాన్ని అందుకున్నాడు.

అటువంటి వ్యవస్థ ఎలా పని చేస్తుంది?

దాన్ని గుర్తించడానికి ప్రయత్నిద్దాం.

స్పీచ్ రికగ్నిషన్ సాఫ్ట్‌వేర్ యొక్క రెండు ప్రధాన రకాలు:

టెక్స్ట్ మరియు డిజిటల్ డేటాను నమోదు చేసే డిక్టేషన్ ప్రోగ్రామ్‌లు.

మేము టెక్స్ట్-టు-స్పీచ్ మరియు స్పీచ్-టు-టెక్స్ట్ సిస్టమ్‌లను పరిగణించబోమని వెంటనే రిజర్వేషన్ చేద్దాం, అంటే వచనాన్ని మౌఖిక ప్రసంగంలోకి అనువదించేవి మరియు వైస్ వెర్సా. మేము ఆటోమేటిక్ కమాండ్ రికగ్నిషన్ సిస్టమ్‌లు లేదా వాయిస్ నావిగేటర్‌లకు మాత్రమే పరిమితం చేస్తాము.

SAPP అంటే ఏమిటి?

ఆటోమేటిక్ స్పీచ్ రికగ్నిషన్ సిస్టమ్స్ (ASRR) అనేది స్పీచ్ ప్రాసెసింగ్ ప్రాసెస్‌లో ఒక మూలకం, దీని ఉద్దేశ్యం యూజర్ మరియు మెషీన్ మధ్య అనుకూలమైన సంభాషణను అందించడం. విస్తృత కోణంలో, మేము డిక్షనరీ వాల్యూమ్‌పై సమస్య ధోరణి మరియు పరిమితులను పరిగణనలోకి తీసుకోకుండా, ఏకపక్ష స్పీకర్ ద్వారా ఉచిత శైలిలో ప్రసంగ సందేశాలను ఉచ్చరించేటప్పుడు స్పీచ్ ఎకౌస్టిక్ సిగ్నల్ యొక్క ఫోనెమిక్ డీకోడింగ్ చేసే సిస్టమ్‌ల గురించి మాట్లాడుతున్నాము. సంకుచిత కోణంలో, CAPP లు నిర్దిష్ట సమస్యల పరిష్కారాన్ని సులభతరం చేస్తాయి, దాని శాస్త్రీయ కోణంలో సహజంగా ధ్వనించే ప్రసంగాన్ని గుర్తించే అవసరాలపై కొన్ని పరిమితులను విధిస్తాయి. ఈ విధంగా, CAPP రకాల శ్రేణి సాధారణ స్వతంత్ర పరికరాలు మరియు పిల్లల బొమ్మల నుండి విడిగా ఉచ్ఛరించే పదాలు, సంఖ్యలు, నగరాలు, పేర్లు మొదలైనవాటిని గుర్తించడం లేదా సంశ్లేషణ చేయగల సామర్థ్యం కలిగి ఉంటుంది. ఉపయోగం కోసం, ఉదాహరణకు, అసిస్టెంట్ సెక్రటరీగా (IBM వాయిస్ టైప్ సింప్లీ స్పీకింగ్ గోల్డ్).

రికార్డ్ చేయబడిన ఆడియో మరియు వీడియో డేటాను శోధించడానికి మరియు క్రమబద్ధీకరించడానికి CAPP చాలా ఉపయోగకరంగా ఉంటుంది.

సమాచారాన్ని నమోదు చేసేటప్పుడు ప్రసంగ గుర్తింపు కూడా ఉపయోగించబడుతుంది, ఇది ఒక వ్యక్తి యొక్క కళ్ళు లేదా చేతులు బిజీగా ఉన్నప్పుడు ప్రత్యేకంగా ఉపయోగపడుతుంది. CAPP ఒత్తిడితో కూడిన వాతావరణంలో పనిచేసే వ్యక్తులు (ఆసుపత్రులలో వైద్యులు, పారిశ్రామిక కార్మికులు, డ్రైవర్లు) అవసరమైన సమాచారాన్ని స్వీకరించడానికి లేదా నమోదు చేయడానికి కంప్యూటర్‌ను ఉపయోగించడానికి అనుమతిస్తుంది.

CAPP సాధారణంగా టెలిఫోన్ అప్లికేషన్‌లు, ఎంబెడెడ్ సిస్టమ్‌లు (డయలింగ్ సిస్టమ్‌లు, PDA ఆపరేషన్, డ్రైవింగ్, మొదలైనవి), మల్టీమీడియా అప్లికేషన్‌లు (భాషా అభ్యాస వ్యవస్థలు) వంటి సిస్టమ్‌లలో ఉపయోగించబడుతుంది.

వాయిస్ కీలు

వాయిస్ కీలను కొన్నిసార్లు ప్రసంగం ఆధారంగా ఆటోమేటిక్ పర్సనాలిటీ రికగ్నిషన్ సిస్టమ్స్ అంటారు. సాధారణంగా ఇవి సమాచారానికి అధీకృత యాక్సెస్ లేదా వస్తువులకు భౌతిక ప్రాప్యత కోసం బయోమెట్రిక్ సిస్టమ్‌లు. అటువంటి రెండు రకాల వ్యవస్థల మధ్య తేడాను గుర్తించడం అవసరం: ధృవీకరణ వ్యవస్థలు మరియు గుర్తింపు వ్యవస్థలు. ధృవీకరణ సమయంలో, వినియోగదారు మొదట తన కోడ్‌ను ప్రదర్శిస్తాడు, అనగా, తనను తాను ఒక విధంగా లేదా మరొక విధంగా ప్రకటించుకుంటాడు, ఆపై పాస్‌వర్డ్ లేదా కొన్ని ఏకపక్ష పదబంధాన్ని బిగ్గరగా చెబుతాడు. అందించిన కోడ్‌ని ఉపయోగించి కంప్యూటర్ మెమరీ నుండి రీకాల్ చేయబడిన ప్రమాణాలకు ఇచ్చిన వాయిస్ అనుగుణంగా ఉందో లేదో సిస్టమ్ తనిఖీ చేస్తుంది.

గుర్తించేటప్పుడు, వినియోగదారు గురించి ముందస్తు ప్రకటన చేయబడలేదు. ఈ సందర్భంలో, అన్ని ప్రమాణాలతో ఈ వాయిస్ యొక్క పోలిక నిర్వహించబడుతుంది మరియు ఆపై వాయిస్ ద్వారా గుర్తించబడిన వ్యక్తి ఎవరో ప్రత్యేకంగా నిర్ణయించబడుతుంది. నేడు, అనేక విధానాలు మరియు పద్ధతులు అటువంటి వ్యవస్థలను అమలు చేయడానికి ప్రసిద్ధి చెందాయి మరియు అవన్నీ, ఒక నియమం వలె, ఒకదానికొకటి భిన్నంగా ఉంటాయి - అనేక రకాలైన డెవలపర్లు. స్పీచ్ రికగ్నిషన్ సిస్టమ్స్ గురించి కూడా అదే చెప్పవచ్చు. అందువల్ల, ప్రత్యేక పరీక్ష డేటాబేస్‌లను ఉపయోగించి ప్రసంగాన్ని ఉపయోగించి నిర్దిష్ట ప్రసంగ గుర్తింపు మరియు వ్యక్తిత్వ గుర్తింపు వ్యవస్థల లక్షణాలను నిర్ధారించడం మాత్రమే అనుమతించబడుతుంది.

ఒక చిన్న చరిత్ర

స్పీచ్ రికగ్నిషన్‌లో ప్రారంభ పరిణామాలు 1920ల నాటివే అయినప్పటికీ, మొదటి వ్యవస్థను 1952లో బెల్ లాబొరేటరీస్ (ఈరోజు లూసెంట్ టెక్నాలజీస్‌లో భాగం) రూపొందించింది. మరియు మొదటి వాణిజ్య వ్యవస్థ తరువాత కూడా సృష్టించబడింది: 1960లో, IBM అటువంటి వ్యవస్థ యొక్క అభివృద్ధిని ప్రకటించింది, కానీ ప్రోగ్రామ్ ఎప్పుడూ మార్కెట్లోకి ప్రవేశించలేదు.

తర్వాత, 1970లలో, యునైటెడ్ స్టేట్స్‌లోని ఈస్టర్న్ ఎయిర్‌లైన్స్ అనౌన్సర్-ఆధారిత బ్యాగేజీ డిస్పాచ్ సిస్టమ్‌ను ఇన్‌స్టాల్ చేసింది: ఒక ఆపరేటర్ డెస్టినేషన్ అని పిలిచారు మరియు సామాను దాని మార్గంలో పంపబడింది. అయినప్పటికీ, చేసిన లోపాల కారణంగా, సిస్టమ్ ట్రయల్ వ్యవధిని ఎప్పుడూ దాటలేదు.

దీని తరువాత, ఈ ప్రాంతంలో అభివృద్ధి, ఏదైనా ఉంటే, మందకొడిగా నిర్వహించబడింది. 1980లలో కూడా, స్పీచ్ రికగ్నిషన్ సిస్టమ్‌లను ఉపయోగించే వాస్తవ వాణిజ్య అనువర్తనాలు చాలా తక్కువగా ఉన్నాయి.

నేడు, డజన్ల కొద్దీ కాదు, శాస్త్రీయ మరియు విద్యా సంస్థలలో, అలాగే పెద్ద సంస్థలలో వందలాది పరిశోధనా బృందాలు ఈ దిశలో పనిచేస్తున్నాయి. ICASSP, EuroSpeech, ICPHS మొదలైన స్పీచ్ టెక్నాలజీల రంగంలోని శాస్త్రవేత్తలు మరియు నిపుణుల అంతర్జాతీయ ఫోరమ్‌ల ద్వారా దీనిని నిర్ధారించవచ్చు. పని యొక్క ఫలితాలు, మనం అలంకారికంగా చెప్పినట్లు, "మొత్తం ప్రపంచం ద్వారా కురిపించింది" అతిగా అంచనా వేయలేము.

అనేక సంవత్సరాలుగా, వాయిస్ నావిగేటర్‌లు లేదా కమాండ్ రికగ్నిషన్ సిస్టమ్‌లు వివిధ కార్యకలాపాల రంగాలలో విజయవంతంగా ఉపయోగించబడుతున్నాయి. ఉదాహరణకు, అల్కాటెల్ ద్వారా వాటికన్‌కు సరఫరా చేయబడిన OmniTouch కాల్ సెంటర్‌ను క్రీస్తు 2000వ వార్షికోత్సవ వేడుకల్లో భాగంగా నిర్వహించే సేవా కార్యక్రమాలకు ఉపయోగించారు. కాల్ సెంటర్‌కు కాల్ చేస్తున్న యాత్రికుడు తన ప్రశ్నను చెప్పాడు మరియు ఆటోమేటిక్ స్పీచ్ రికగ్నిషన్ సిస్టమ్ అతనిని "వినింది". ఈవెంట్ షెడ్యూల్‌లు లేదా హోటల్ చిరునామాలు వంటి తరచుగా ఎదురయ్యే అంశం గురించి ప్రశ్న అడిగారని సిస్టమ్ నిర్ధారిస్తే, ముందుగా రికార్డ్ చేసిన నమోదు చేర్చబడుతుంది. ప్రశ్నను స్పష్టం చేయడానికి అవసరమైతే, స్పీచ్ మెను అందించబడింది, దీనిలో ఒక అంశం వాయిస్ ద్వారా సూచించబడాలి. అడిగే ప్రశ్నకు ముందస్తుగా నమోదు చేయబడిన సమాధానం లేదని గుర్తింపు వ్యవస్థ నిర్ధారించినట్లయితే, యాత్రికుడు మానవ ఆపరేటర్‌కు కనెక్ట్ చేయబడ్డాడు.

స్వీడన్ ఇటీవల ఫిలిప్స్ స్పీచ్ రికగ్నిషన్ సాఫ్ట్‌వేర్‌ను ఉపయోగించి ఆటోమేటెడ్ టెలిఫోన్ హెల్ప్‌లైన్‌ను ప్రారంభించింది. అధికారిక ప్రకటన లేకుండా పనిచేయడం ప్రారంభించిన ఆటోస్వర్ సేవ యొక్క మొదటి నెలలో, 200 వేల మంది క్లయింట్లు దాని సేవలను ఉపయోగించారు. ఒక వ్యక్తి తప్పనిసరిగా నిర్దిష్ట నంబర్‌ను డయల్ చేయాలి మరియు ఆటోమేటిక్ అసిస్టెంట్ సమాధానాలు ఇచ్చిన తర్వాత, అతనికి ఆసక్తి ఉన్న సమాచార డైరెక్టరీ విభాగానికి పేరు పెట్టాలి.

కొత్త సేవ ప్రధానంగా ప్రైవేట్ క్లయింట్‌ల కోసం ఉద్దేశించబడింది, వారు సేవల యొక్క తక్కువ ధర కారణంగా దీన్ని ఇష్టపడతారు. Autosvar సేవ యూరోప్‌లో ఈ రకమైన మొదటి సిస్టమ్ (USలో, AT&T గత సంవత్సరం డిసెంబర్‌లో ఇదే విధమైన సేవను పరీక్షించడం ప్రారంభించింది).

యుఎస్‌లో ఈ సాంకేతికతను ఉపయోగిస్తున్న కొన్ని ఉదాహరణలు ఇక్కడ ఉన్నాయి.

రియల్టర్లు తమ సేవల కోసం తరచుగా న్యూపోర్ట్ వైర్‌లెస్‌ను ఆశ్రయిస్తారు. ఒక రియల్టర్ వీధిలో డ్రైవింగ్ చేసి, ఒక ఇంటి పక్కన "అమ్మకానికి" అనే బోర్డుని చూసినప్పుడు, అతను న్యూపోర్ట్ వైర్‌లెస్‌కి కాల్ చేసి, అలాంటి వీధిలో ఉన్న ఇంటి నంబర్ గురించి సమాచారం కోసం అడుగుతాడు. సమాధానం ఇచ్చే యంత్రం, ఆహ్లాదకరమైన స్త్రీ స్వరంతో, ఇంటి చదరపు ఫుటేజీ, నిర్మాణ తేదీ మరియు యజమానుల గురించి అతనికి చెబుతుంది. ఈ సమాచారం అంతా న్యూపోర్ట్ వైర్‌లెస్ డేటాబేస్‌లో ఉంది. రియల్టర్లు క్లయింట్‌కు సందేశాన్ని మాత్రమే జారీ చేయగలరు.

చందా రుసుము నెలకు సుమారు $30.

జూలీ, అమ్‌ట్రాక్ వర్చువల్ ఏజెంట్, అక్టోబర్ 2001 నుండి రైలు ప్రయాణీకులకు సేవలు అందిస్తోంది. రైలు షెడ్యూల్‌లు, వాటి రాకపోకలు మరియు నిష్క్రమణల గురించి ఆమె మీకు ఫోన్ ద్వారా తెలియజేస్తుంది మరియు టిక్కెట్ రిజర్వేషన్‌లను కూడా చేస్తుంది. జూలీ అనేది స్పీచ్‌వర్క్స్ సాఫ్ట్‌వేర్ మరియు ఇంటర్‌వాయిస్ హార్డ్‌వేర్ ఉత్పత్తి. ఇది ఇప్పటికే ప్రయాణీకుల సంతృప్తిని 45% పెంచింది; 50 మంది క్లయింట్‌లలో 13 మంది జూలీ నోటి నుండి తమకు అవసరమైన మొత్తం సమాచారాన్ని పొందుతారు. ఆమ్‌ట్రాక్ గతంలో టోన్-ఆధారిత సమాచార వ్యవస్థను ఉపయోగించింది, కానీ సంతృప్తి రేటు తక్కువగా ఉంది: 50 మంది కస్టమర్‌లలో 9 మంది మాత్రమే.

12-18 నెలల్లో జూలీ తన ధరను ($4 మిలియన్లు) తిరిగి పొందిందని అమ్‌ట్రాక్ అంగీకరించాడు.

ఇన్ఫినిటీ మరియు జాగ్వార్ వంటి ఖరీదైన కార్లు చాలా సంవత్సరాలుగా కంట్రోల్ ప్యానెల్‌పై మౌఖిక నియంత్రణను ఉపయోగిస్తున్నాయి: రేడియో, ఉష్ణోగ్రత నియంత్రణ మరియు నావిగేషన్ సిస్టమ్ కారు యజమాని యొక్క స్వరాన్ని అర్థం చేసుకుంటాయి మరియు నిస్సందేహంగా యజమానికి కట్టుబడి ఉంటాయి.

అయితే ఇప్పుడు మధ్యతరగతి కార్లలో వాయిస్ రికగ్నిషన్ టెక్నాలజీని ఉపయోగించడం ప్రారంభించారు. కాబట్టి, 2003 నుండి, హోండా అకార్డ్ IBM నుండి అంతర్నిర్మిత వాయిస్ ఐడెంటిఫైయర్‌ను కలిగి ఉంది. ఇది వయావాయిస్ అని పిలువబడుతుంది మరియు ఇది $2,000 నావిగేషన్ సిస్టమ్‌లో భాగం, ఇది హోండా అకార్డ్ కొనుగోలుదారులలో ఐదవ వంతు వాయిస్-యాక్టివేటెడ్ నావిగేషన్ సిస్టమ్‌తో కూడిన మోడల్‌ను ఎంచుకున్నారు.

వైద్యరంగంలో కూడా వాయిస్ రికగ్నిషన్ టెక్నాలజీ తన స్థానాన్ని సంపాదించుకుంది. డాక్టర్ స్వరాన్ని పాటించే కడుపు పరీక్ష పరికరాలు ఇప్పటికే అభివృద్ధి చేయబడ్డాయి. నిజమే, ఈ పరికరాలు, నిపుణుల అభిప్రాయం ప్రకారం, ఇప్పటికీ అసంపూర్ణంగా ఉన్నాయి: అవి వైద్యుని ఆదేశాలకు నెమ్మదిగా ప్రతిచర్యను కలిగి ఉంటాయి.

అయితే ఇంకా రావాల్సి ఉంది. మెంఫిస్‌లో, VA మెడికల్ సెంటర్ డ్రాగన్ సాఫ్ట్‌వేర్‌లో $277,000 పెట్టుబడి పెట్టింది, ఇది కంప్యూటర్ డేటాబేస్‌లోకి సమాచారాన్ని నిర్దేశించడానికి వైద్యులు మరియు నర్సులను అనుమతిస్తుంది. బహుశా, త్వరలో మీరు వైద్య రికార్డులో డాక్టర్ చేతివ్రాతను తయారు చేయడానికి కష్టపడాల్సిన అవసరం లేదు.

వందలాది పెద్ద కంపెనీలు ఇప్పటికే తమ ఉత్పత్తులు లేదా సేవల్లో వాయిస్ రికగ్నిషన్ టెక్నాలజీని ఉపయోగిస్తున్నాయి; వీటిలో AOL, FedEx, హోండా, సోనీ, స్ప్రింట్, T. రోవ్ ప్రైస్, యునైటెడ్ ఎయిర్‌లైన్స్ మరియు వెరిజో ఉన్నాయి. నిపుణుల అభిప్రాయం ప్రకారం, వాయిస్ టెక్నాలజీ మార్కెట్ 2002లో సుమారు $695 మిలియన్లకు చేరుకుంది, ఇది 2001 కంటే 10% ఎక్కువ.

నేడు, స్పీచ్ రికగ్నిషన్ టెక్నాలజీలు ప్రపంచంలో అత్యంత ఆశాజనకంగా పరిగణించబడుతున్నాయి. ఈ విధంగా, అమెరికన్ పరిశోధన సంస్థ కాహ్నర్స్ ఇన్-స్టాట్ యొక్క అంచనాల ప్రకారం, స్పీచ్ రికగ్నిషన్ సాఫ్ట్‌వేర్ కోసం ప్రపంచ మార్కెట్ 2005 నాటికి 200 మిలియన్ల నుండి 2.7 బిలియన్ డాలర్లకు పెరుగుతుంది. కంపెనీ డేటామానిటర్ ప్రకారం, వాయిస్ టెక్నాలజీ మార్కెట్ పరిమాణం పెరుగుతుంది. సంవత్సరానికి సగటున 43%: 2000లో 650 మిలియన్ డాలర్ల నుండి 2006లో 5.6 బిలియన్ డాలర్లకు (Fig. 1).

CNN మీడియా కార్పొరేషన్‌తో సహకరిస్తున్న నిపుణులు ఈ సంవత్సరం అత్యంత ఆశాజనకంగా ఉన్న ఎనిమిది సాంకేతికతల్లో స్పీచ్ రికగ్నిషన్‌ను ఒకటిగా పేర్కొన్నారు. మరియు IDC నుండి విశ్లేషకులు 2005 నాటికి, స్పీచ్ రికగ్నిషన్ అనేది మార్కెట్ నుండి అన్ని ఇతర ప్రసంగ సాంకేతికతలను పూర్తిగా స్థానభ్రంశం చేస్తుంది (Fig. 2).

ప్రధాన ఇబ్బందులు

CAPPని అభివృద్ధి చేస్తున్నప్పుడు ఉత్పన్నమయ్యే ప్రధాన సమస్య ఏమిటంటే, ఒకే పదాన్ని వేర్వేరు వ్యక్తులు మరియు ఒకే వ్యక్తి వేర్వేరు పరిస్థితుల్లో వేరియబుల్ ఉచ్చారణ.

ఇది ఒక వ్యక్తిని ఇబ్బంది పెట్టదు, కానీ కంప్యూటర్ ఉండవచ్చు. అదనంగా, ఇన్‌కమింగ్ సిగ్నల్ పరిసర శబ్దం, ప్రతిబింబం, ప్రతిధ్వని మరియు ఛానెల్ జోక్యం వంటి అనేక కారకాలచే ప్రభావితమవుతుంది. శబ్దం మరియు వక్రీకరణ ముందుగానే తెలియకపోవడం వలన ఇది సంక్లిష్టంగా ఉంటుంది, అనగా, పనిని ప్రారంభించే ముందు సిస్టమ్ వాటిని సర్దుబాటు చేయలేము.

రెండవది, వ్యవస్థలు వివిక్త ఆదేశాలతో మాత్రమే పనిచేసేవి మరియు పొందికైన ప్రసంగాన్ని గుర్తించగల సామర్థ్యం కలిగినవిగా విభజించబడ్డాయి. వ్యక్తిగతంగా మాట్లాడే పదాలను గుర్తించడం కంటే ప్రసంగ గుర్తింపు చాలా క్లిష్టమైన పని. ఉదాహరణకు, 1000 పదాల నిఘంటువుతో వివిక్త పద గుర్తింపు నుండి ప్రసంగ గుర్తింపుకు మారినప్పుడు, లోపం రేటు 3.1 నుండి 8.7 వరకు పెరుగుతుంది, అదనంగా, ప్రసంగ ప్రాసెసింగ్ మూడు రెట్లు ఎక్కువ సమయం పడుతుంది.

వివిక్త కమాండ్ ఉచ్చారణ మోడ్ సరళమైనది మరియు తక్కువ వనరు-ఇంటెన్సివ్.

ఈ మోడ్‌లో పని చేస్తున్నప్పుడు, ప్రతి పదం తర్వాత వినియోగదారు పాజ్ చేస్తాడు, అంటే, అతను పదాల సరిహద్దులను స్పష్టంగా గుర్తిస్తాడు. ఒక పదబంధంలో పదం యొక్క ప్రారంభం మరియు ముగింపు కోసం సిస్టమ్ వెతకవలసిన అవసరం లేదు. సిస్టమ్ గుర్తించబడిన పదాన్ని డిక్షనరీలోని ఉదాహరణలతో పోల్చి చూస్తుంది మరియు చాలా మటుకు మోడల్ సిస్టమ్ ద్వారా ఆమోదించబడుతుంది. సాంప్రదాయ DTMF పద్ధతులకు బదులుగా టెలిఫోనీలో ఈ రకమైన గుర్తింపు విస్తృతంగా ఉపయోగించబడుతుంది.

ఏకపక్ష శబ్దాలు, ఒత్తిడి, వదులుగా ఉండే పదబంధ నిర్మాణం, పాజ్‌లు, పునరావృత్తులు మొదలైన వాటి వల్ల కూడా ప్రసంగంలో అదనపు వైవిధ్యాలు తలెత్తుతాయి.

పదాల నిరంతర మరియు ప్రత్యేక ఉచ్చారణ యొక్క జంక్షన్ వద్ద, కీలక పదాల కోసం శోధన మోడ్ ఏర్పడింది. ఈ మోడ్‌లో, సాధారణ ప్రసంగ స్ట్రీమ్‌లో CAPP ముందే నిర్వచించిన పదం లేదా పదాల సమూహాన్ని కనుగొంటుంది. దీన్ని ఎక్కడ ఉపయోగించవచ్చు? ఉదాహరణకు, స్పీచ్‌లో లేదా ఎలక్ట్రానిక్ రిఫరెన్స్ బుక్‌లలో కొన్ని పదాలు కనిపించినప్పుడు ఆన్ చేసి రికార్డింగ్ ప్రారంభించే లిజనింగ్ పరికరాలలో. ఏదైనా రూపంలో అభ్యర్థనను స్వీకరించిన తర్వాత, సిస్టమ్ అర్థ పదాలను గుర్తిస్తుంది మరియు వాటిని గుర్తించి, అవసరమైన సమాచారాన్ని అందిస్తుంది.

ఉపయోగించిన పదజాలం పరిమాణం CAPP యొక్క ముఖ్యమైన భాగం. సహజంగానే, పెద్ద నిఘంటువు, సిస్టమ్ తప్పులు చేసే అవకాశం ఎక్కువ. అనేక ఆధునిక వ్యవస్థలలో, అవసరమైన విధంగా కొత్త పదాలతో నిఘంటువులను అనుబంధించడం లేదా కొత్త నిఘంటువులను లోడ్ చేయడం సాధ్యమవుతుంది. వివిక్త కమాండ్ ఉచ్చారణతో స్పీకర్-స్వతంత్ర సిస్టమ్ కోసం సాధారణ ఎర్రర్ రేట్లు 100-పదాల నిఘంటువు కోసం 1%, 600-పదాల నిఘంటువు కోసం 3% మరియు 8,000-పదాల నిఘంటువు కోసం 10%.

ఆధునిక CAPP మార్కెట్ ఆఫర్‌లు

మరియు వివిధ కంపెనీల నుండి CAPPలు ఈరోజు మార్కెట్లో ప్రాతినిధ్యం వహిస్తున్నాయి. వాటిలో కొన్నింటిని చూద్దాం.

అకులాబ్

గుర్తింపు ఖచ్చితత్వం 97%.

ఉచ్చారణ మరియు స్వరాలు యొక్క ప్రత్యేకతలను పరిగణనలోకి తీసుకునే అదనపు నిఘంటువులను సృష్టించే సామర్థ్యానికి సిస్టమ్ మద్దతు ఇస్తుంది. సాధారణంగా ఆమోదించబడిన దానికి భిన్నంగా ఉచ్చారణ ఉన్న వ్యక్తులు సిస్టమ్‌ని ఉపయోగించే సందర్భాల్లో ఇది ప్రత్యేకంగా ఉపయోగపడుతుంది.

సిస్టమ్ బ్రిటిష్ మరియు అమెరికన్ ఇంగ్లీష్, ఫ్రెంచ్, జర్మన్, ఇటాలియన్, నార్త్ అమెరికన్ స్పానిష్ వంటి అత్యంత సాధారణ భాషలకు మద్దతు ఇస్తుంది. ఈ భాషలలో దేనికైనా నిఘంటువును కాన్ఫిగర్ చేయవచ్చు, కానీ ఒక నిఘంటువులో బహుళ భాషలను ఏకకాలంలో ఉపయోగించడం సాధ్యం కాదు.

ఉత్పత్తి Windows NT/2000, Linux మరియు Sun SPARC సోలారిస్‌లో అందుబాటులో ఉంది.

Babear SDK వెర్షన్ 3.0

నిర్దిష్ట వినియోగదారుకు శిక్షణ అవసరం లేని స్పీకర్-స్వతంత్ర వ్యవస్థ.

వినియోగదారుకు అనుకూలత ఆపరేషన్ సమయంలో జరుగుతుంది మరియు ఉత్తమ గుర్తింపు ఫలితాన్ని అందిస్తుంది. వాయిస్ యాక్టివిటీకి స్వయంచాలకంగా సర్దుబాటు చేయడం వలన కారు లోపల వంటి చాలా ధ్వనించే వాతావరణంలో ప్రసంగాన్ని గుర్తించడానికి మిమ్మల్ని అనుమతిస్తుంది.

డిక్షనరీలో చేర్చని పదాలను సిస్టమ్ గుర్తించదు. కీలక పదాల కోసం వెతకడం సాధ్యమవుతుంది. సిస్టమ్‌ను చిన్న నిఘంటువు (కమాండ్‌ల వివిక్త ఉచ్చారణ) మరియు పెద్ద నిఘంటువు (ప్రసంగం) రెండింటితో పని చేసేలా కాన్ఫిగర్ చేయవచ్చు.

సిస్టమ్ క్రింది భాషలకు మద్దతు ఇస్తుంది: బ్రిటిష్ మరియు అమెరికన్ ఇంగ్లీష్, స్పానిష్ జర్మన్, ఫ్రెంచ్, డానిష్, స్వీడిష్, టర్కిష్, గ్రీక్, ఐస్లాండిక్ మరియు అరబిక్.

సిస్టమ్ Windows 98 (SE)/NT 4.0/2000/CE, Mac OS X మరియు Linuxలో నడుస్తుంది.

లోక్వెండో ASR

స్పీకర్-ఇండిపెండెంట్ సిస్టమ్ టెలిఫోనీలో ఉపయోగించడానికి ఆప్టిమైజ్ చేయబడింది.

వ్యక్తిగత పదాలు మరియు ప్రసంగాన్ని గుర్తించడం, కీలకపదాల కోసం శోధించడం (500 పదాల వరకు నిఘంటువు) సాధ్యమవుతుంది. పెద్ద పదజాలం మరియు సిస్టమ్ సౌలభ్యం కారణంగా వినియోగదారు-స్నేహపూర్వక అప్లికేషన్‌లను సృష్టించడానికి మిమ్మల్ని అనుమతిస్తుంది.

అత్యంత సాధారణ యూరోపియన్ భాషలతో సహా 12 భాషలకు మద్దతు ఇస్తుంది (ఇటాలియన్, స్పానిష్, బ్రిటిష్ మరియు అమెరికన్ ఇంగ్లీష్, ఫ్రెంచ్, జర్మన్, గ్రీక్, స్వీడిష్ మొదలైనవి).

లోక్వెండో స్పీచ్ సూట్‌లో టెక్స్ట్-టు-స్పీచ్ మరియు లోక్వెండో వాయిస్‌ఎక్స్‌ఎమ్‌ఎల్ ఇంటర్‌ప్రెటర్‌తో పాటు బహుళ వాయిస్‌లు మరియు భాషలకు మద్దతు ఇస్తుంది.

వివిధ ఆడియో ఫైల్ ఫార్మాట్‌లకు మద్దతు ఇస్తుంది: (u-law 8 kHz, PCM 8 kHz, PCM 16 kHz). హార్డ్‌వేర్ వనరుల కోసం కఠినమైన అవసరాలు లేవు. Windows NT/2000/XP మరియు Linuxలో నడుస్తుంది.

సిస్టమ్ అవసరాలు (Windows ఆధారిత):

సర్వీస్ ప్యాక్ 6a, Windows 2000 లేదా Windows XP ప్రోతో Windows NT 4.0;

కనీస మెమరీ పరిమాణం 512 MB.

సిస్టమ్ అవసరాలు (Red Hat Linux ఆధారంగా):

Red Hat Linux 7.2;

ఇంటెల్ పెంటియమ్ III 800 MHz లేదా అంతకంటే ఎక్కువ;

మెమరీ సామర్థ్యం 256 MB;

డిస్క్ పరిమాణం 17 MB (డికంప్రెషన్ తర్వాత).

స్వల్పభేదాన్ని

తయారీదారుల ప్రకారం, సిస్టమ్ మెమరీ మరియు ఇతర సిస్టమ్ వనరుల అత్యల్ప వినియోగం కోసం ఆప్టిమైజ్ చేయబడింది. గుర్తింపు ఖచ్చితత్వం 96% వరకు ఉంటుంది మరియు ధ్వనించే గదిలో కూడా ఎక్కువగా ఉంటుంది.

సిస్టమ్ స్వీయ-నేర్చుకోవడం మరియు ప్రతి వినియోగదారుకు సర్దుబాటు చేయడం సాధ్యమవుతుంది.

Windows 2000 మరియు Linuxలో నడుస్తుంది.

ఆత్మ

భాష ఏదైనా కావచ్చు (క్లయింట్ యొక్క నిర్దిష్ట అవసరాలకు అనుగుణంగా నిఘంటువు సంకలనం చేయబడింది మరియు సిస్టమ్ సెట్టింగ్‌ల అవసరాలలో క్లయింట్ పేర్కొన్న భాషలోని పదాలను కలిగి ఉంటుంది. డిక్షనరీ వివిధ భాషల నుండి పదాలను కలిగి ఉంటుంది, అంటే, మార్చకుండా సెట్టింగులు, సిస్టమ్ పదాలను గుర్తించగలదు , ఉదాహరణకు, చైనీస్ మరియు ఫిన్నిష్ రెండింటిలోనూ, అవి గతంలో డిక్షనరీలోకి ప్రవేశించినట్లయితే). అందువలన, ఈ వ్యవస్థ ఏదైనా భాషతో పని చేయగలదు, అయితే ఇతర వ్యవస్థలు వాటిలోని నిర్దిష్ట సెట్‌తో మాత్రమే పని చేయగలవు.

ఇది ఆటోమేటిక్ స్పీచ్ రికగ్నిషన్ సిస్టమ్, ఇది చాలా ధ్వనించే వాతావరణంలో కూడా అధిక నాణ్యత గుర్తింపును అందిస్తుంది. సిస్టమ్‌ను రెండు మోడ్‌లలో ఒకదానిలో పనిచేయడానికి సులభంగా కాన్ఫిగర్ చేయవచ్చు: నిర్ణీత సంఖ్యలో ఆదేశాలతో పదబంధాలను గుర్తించడం (వ్యక్తిగత ఆదేశాల ఉచ్చారణ, PIN కోడ్ మోడ్) మరియు ఏకపక్ష సంఖ్యలో ఆదేశాలతో పదబంధాలను గుర్తించడం (కమాండ్‌ల నిరంతర ఉచ్చారణ, “ పొందికైన ప్రసంగ విధానం").

కీలక పదాల కోసం వెతకడం సాధ్యమవుతుంది. ఈ పరిష్కారం సంకలిత నాన్-స్టేషనరీ నాయిస్ పరిస్థితులలో పనిచేస్తుంది. అవసరమైన సిగ్నల్-టు-నాయిస్ నిష్పత్తి "PIN కోడ్ మోడ్"లో 0 dB వరకు మరియు పొందికైన ప్రసంగ మోడ్‌లో +15 dB వరకు ఉంటుంది.

గుర్తింపు ఆలస్యం 0.2 సె. అకౌస్టిక్ ఛానల్ పారామితులు: 300-3500 Hz లోపల బ్యాండ్‌విడ్త్. ధ్వని వాతావరణానికి అనుసరణ కనీసం 3 సెకన్ల మొత్తం పొడవుతో శబ్దం శకలాలు ఆధారంగా నిర్వహించబడుతుంది.

"PIN కోడ్ మోడ్" కోసం:

నిఘంటువు 50 ఆదేశాలు;

SNR = 0...6 dB వద్ద సరైన గుర్తింపు యొక్క సంభావ్యత 95-99%;

అవసరమైన శబ్ద పరిస్థితులు: SNRతో సంకలిత బ్రాడ్‌బ్యాండ్ స్టాటిక్ నాయిస్ (సిగ్నల్-టు-నాయిస్ రేషియో) >= 15 dB.

కనెక్ట్ చేయబడిన స్పీచ్ రికగ్నిషన్ మోడ్ కోసం:

నిఘంటువు 12 పదాలు/సంఖ్యలు;

ప్రత్యేకత: ఏకపక్ష శబ్దానికి అనుగుణంగా.

SPIRIT యొక్క ఆటోమేటిక్ స్పీచ్ రికగ్నిషన్ సిస్టమ్ MS Windows కింద PC కోసం అప్లికేషన్‌గా లేదా అసెంబ్లర్ కోడ్‌గా అందుబాటులో ఉంది. కస్టమర్ అభ్యర్థన మేరకు, పరిష్కారాన్ని ఏదైనా DSP లేదా RISC ప్లాట్‌ఫారమ్‌కు పోర్ట్ చేయవచ్చు.

వాయిస్‌వేర్

సిస్టమ్ స్పీకర్-ఆధారిత మరియు స్పీకర్-ఇండిపెండెంట్ మోడ్‌లలో పనిచేయగలదు, కాబట్టి నిర్దిష్ట వినియోగదారుతో పనిచేయడానికి సిస్టమ్ యొక్క ప్రత్యేక శిక్షణ అవసరం లేదు.

ధ్వనించే వాతావరణంలో కూడా అధిక గుర్తింపు ఖచ్చితత్వం మరియు నిజ-సమయ ఆపరేషన్‌ను అందిస్తుంది.

సిస్టమ్ పొందికైన ప్రసంగం మరియు సంఖ్యల వరుస జాబితాను గుర్తిస్తుంది.

డిక్షనరీలో చేర్చని పదాలు మరియు అదనపు శబ్దాలు దాని ద్వారా గ్రహించబడవు మరియు “a”, “బాగా” మొదలైన అర్థరహిత పదాలు విస్మరించబడతాయి.

నిఘంటువులో కొత్త పదాలను చేర్చవచ్చు.

సిస్టమ్ స్వయంచాలకంగా వినియోగదారు స్వరం, ఉచ్చారణ మరియు ఇతర ప్రసంగ లక్షణాలకు సర్దుబాటు చేస్తుంది.

VoiceWare US ఇంగ్లీష్ మరియు కొరియన్లకు మద్దతు ఇస్తుంది; చైనీస్ మరియు జపనీస్ అభివృద్ధిలో ఉన్నాయి.

సిస్టమ్ Windows 95/98/NT 4.0, UNIX మరియు Linuxలో నడుస్తుంది.

నిర్మాణ పోర్టల్. మన నైపుణ్యాలను గౌరవించడం

స్వయంచాలక ప్రసంగ గుర్తింపు వ్యవస్థలు. ఓపెన్ సోర్స్ స్పీచ్ రికగ్నిషన్ సిస్టమ్స్ యొక్క తులనాత్మక విశ్లేషణ

ఎన్సైక్లోపెడిక్ YouTube

ఉపశీర్షికలు

కథ

స్పీచ్ రికగ్నిషన్ సిస్టమ్స్ వర్గీకరణ

స్పీచ్ రికగ్నిషన్ పద్ధతులు మరియు అల్గోరిథంలు

గుర్తింపు వ్యవస్థల నిర్మాణం

గుర్తింపు వ్యవస్థలలో భావోద్వేగపూరిత ప్రసంగం యొక్క సంకేతాలు

స్పెక్ట్రల్-తాత్కాలిక లక్షణాలు

సెప్స్ట్రాల్ సంకేతాలు

వ్యాప్తి-ఫ్రీక్వెన్సీ లక్షణాలు

నాన్ లీనియర్ డైనమిక్స్ సంకేతాలు

ప్రసంగ నాణ్యత ఎంపికలు

ప్రాథమిక భావనలు

అప్లికేషన్

ఇది కూడా చూడండి

గమనికలు

ఇది ఎలా పని చేస్తుంది? ప్రసంగ గుర్తింపు

మరియు వివిధ కంపెనీల నుండి CAPPలు ఈరోజు మార్కెట్లో ప్రాతినిధ్యం వహిస్తున్నాయి. వాటిలో కొన్నింటిని చూద్దాం.

Babear SDK వెర్షన్ 3.0

స్వల్పభేదాన్ని

ఆత్మ

వాయిస్‌వేర్