ఎన్సైక్లోపెడిక్ YouTube
1 / 5
స్పీచ్ రికగ్నిషన్ పరిచయం
LANGMaster ప్రసంగ గుర్తింపు
ఉపశీర్షికలు
కథ
మొదటి స్పీచ్ రికగ్నిషన్ పరికరం 1952లో కనిపించింది, ఇది ఒక వ్యక్తి మాట్లాడే సంఖ్యలను గుర్తించగలదు. 1962లో, న్యూయార్క్ కంప్యూటర్ ఫెయిర్లో IBM షూబాక్స్ పరిచయం చేయబడింది.
తొంభైల ప్రారంభంలో వాణిజ్య ప్రసంగ గుర్తింపు కార్యక్రమాలు కనిపించాయి. చేతికి గాయం కారణంగా పెద్ద మొత్తంలో వచనాన్ని టైప్ చేయలేని వ్యక్తులు వీటిని సాధారణంగా ఉపయోగిస్తారు. ఈ కార్యక్రమాలు (ఉదాహరణకు, డ్రాగన్ సహజంగా మాట్లాడటం (ఆంగ్లం)రష్యన్,వాయిస్ నావిగేటర్ (ఆంగ్లం)రష్యన్) వినియోగదారు స్వరాన్ని టెక్స్ట్లోకి అనువదించండి, తద్వారా అతని చేతులకు ఉపశమనం లభిస్తుంది. అటువంటి కార్యక్రమాల అనువాద విశ్వసనీయత చాలా ఎక్కువగా లేదు, కానీ సంవత్సరాలుగా అది క్రమంగా మెరుగుపడింది.
మొబైల్ పరికరాల యొక్క కంప్యూటింగ్ శక్తి పెరుగుదల స్పీచ్ రికగ్నిషన్ ఫంక్షన్లతో వాటి కోసం ప్రోగ్రామ్లను రూపొందించడం సాధ్యం చేసింది. అటువంటి ప్రోగ్రామ్లలో, మైక్రోసాఫ్ట్ వాయిస్ కమాండ్ అప్లికేషన్ను గమనించడం విలువ, ఇది మీ వాయిస్ని ఉపయోగించి అనేక అప్లికేషన్లతో పని చేయడానికి మిమ్మల్ని అనుమతిస్తుంది. ఉదాహరణకు, మీరు మీ ప్లేయర్లో సంగీతాన్ని ప్లే చేయవచ్చు లేదా కొత్త పత్రాన్ని సృష్టించవచ్చు.
స్పీచ్ రికగ్నిషన్ యొక్క ఉపయోగం వ్యాపారం యొక్క వివిధ రంగాలలో బాగా ప్రాచుర్యం పొందింది, ఉదాహరణకు, క్లినిక్లోని వైద్యుడు రోగ నిర్ధారణలను ఉచ్చరించగలడు, అది వెంటనే ఎలక్ట్రానిక్ కార్డ్లో నమోదు చేయబడుతుంది. లేదా మరొక ఉదాహరణ. ఖచ్చితంగా ప్రతి ఒక్కరూ తమ జీవితంలో ఒక్కసారైనా లైట్ ఆఫ్ చేయడానికి లేదా కిటికీని తెరవడానికి వారి వాయిస్ని ఉపయోగించాలని కలలు కన్నారు. ఇటీవల, ఇంటరాక్టివ్ టెలిఫోన్ అప్లికేషన్లలో ఆటోమేటిక్ స్పీచ్ రికగ్నిషన్ మరియు సింథసిస్ సిస్టమ్లు ఎక్కువగా ఉపయోగించబడుతున్నాయి. ఈ సందర్భంలో, వాయిస్ పోర్టల్తో కమ్యూనికేషన్ మరింత సహజంగా మారుతుంది, ఎందుకంటే దానిలో ఎంపిక టోన్ డయలింగ్ను మాత్రమే కాకుండా, వాయిస్ ఆదేశాలను కూడా ఉపయోగించవచ్చు. అదే సమయంలో, గుర్తింపు వ్యవస్థలు మాట్లాడేవారి నుండి స్వతంత్రంగా ఉంటాయి, అనగా అవి ఏ వ్యక్తి యొక్క స్వరాన్ని గుర్తిస్తాయి.
స్పీచ్ రికగ్నిషన్ టెక్నాలజీలలో తదుపరి దశ నిశ్శబ్ద ప్రసంగ ఇంటర్ఫేస్లు (SSI) అని పిలవబడే అభివృద్ధిని పరిగణించవచ్చు. ఈ స్పీచ్ ప్రాసెసింగ్ సిస్టమ్లు ఉచ్చారణ ప్రారంభ దశలో ప్రసంగ సంకేతాలను స్వీకరించడం మరియు ప్రాసెస్ చేయడంపై ఆధారపడి ఉంటాయి. ప్రసంగ గుర్తింపు అభివృద్ధిలో ఈ దశ ఆధునిక గుర్తింపు వ్యవస్థల యొక్క రెండు ముఖ్యమైన లోపాల వల్ల సంభవిస్తుంది: శబ్దానికి అధిక సున్నితత్వం, అలాగే గుర్తింపు వ్యవస్థను యాక్సెస్ చేసేటప్పుడు స్పష్టమైన మరియు స్పష్టమైన ప్రసంగం అవసరం. SSI విధానం ఏమిటంటే, ప్రాసెస్ చేయబడిన అకౌస్టిక్ సిగ్నల్లకు పూరకంగా శబ్దం ద్వారా ప్రభావితం కాని కొత్త సెన్సార్లను ఉపయోగించడం.
స్పీచ్ రికగ్నిషన్ సిస్టమ్స్ వర్గీకరణ
స్పీచ్ రికగ్నిషన్ సిస్టమ్స్ వర్గీకరించబడ్డాయి:
- నిఘంటువు పరిమాణం ద్వారా (పరిమిత పదాల సెట్, పెద్ద నిఘంటువు);
- స్పీకర్పై ఆధారపడి (స్పీకర్-ఆధారిత మరియు స్పీకర్-స్వతంత్ర వ్యవస్థలు);
- ప్రసంగం రకం ద్వారా (నిరంతర లేదా ప్రత్యేక ప్రసంగం);
- ప్రయోజనం ద్వారా (డిక్టేషన్ సిస్టమ్స్, కమాండ్ సిస్టమ్స్);
- ఉపయోగించిన అల్గోరిథం ప్రకారం (న్యూరల్ నెట్వర్క్లు, దాచిన మార్కోవ్ నమూనాలు, డైనమిక్ ప్రోగ్రామింగ్);
- స్ట్రక్చరల్ యూనిట్ రకం ద్వారా (పదబంధాలు, పదాలు, ఫోన్మేస్, డైఫోన్లు, అలోఫోన్లు);
- నిర్మాణాత్మక యూనిట్లను గుర్తించే సూత్రం ఆధారంగా (నమూనా ద్వారా గుర్తింపు, లెక్సికల్ అంశాల ఎంపిక).
ఆటోమేటిక్ స్పీచ్ రికగ్నిషన్ సిస్టమ్స్ కోసం, నాయిస్ ఇమ్యూనిటీ ప్రధానంగా రెండు మెకానిజమ్లను ఉపయోగించడం ద్వారా నిర్ధారిస్తుంది:
- ఎకౌస్టిక్ సిగ్నల్ యొక్క విశ్లేషణ ఆధారంగా స్పీచ్ సిగ్నల్ యొక్క ఒకే మూలకాలను గుర్తించడానికి అనేక సమాంతర పని పద్ధతులను ఉపయోగించడం;
- స్పీచ్ స్ట్రీమ్లో సెగ్మెంటల్ (ఫోనెమిక్) మరియు పదాల సంపూర్ణ అవగాహన యొక్క సమాంతర స్వతంత్ర ఉపయోగం.
స్పీచ్ రికగ్నిషన్ పద్ధతులు మరియు అల్గోరిథంలు
"... స్పీచ్ పర్సెప్షన్ మోడల్లోని స్పీచ్ సిగ్నల్ ప్రాసెసింగ్ అల్గారిథమ్లు ఒక వ్యక్తి ఉపయోగించే భావనలు మరియు సంబంధాల యొక్క అదే వ్యవస్థను తప్పనిసరిగా ఉపయోగించాలి."
నేడు, స్పీచ్ రికగ్నిషన్ సిస్టమ్స్ గుర్తింపు సూత్రాలపై నిర్మించబడ్డాయి [ ఎవరి ద్వారా?] గుర్తింపు రూపాలు [తెలియని పదం ] . ఇప్పటివరకు ఉపయోగించిన పద్ధతులు మరియు అల్గోరిథంలను క్రింది పెద్ద తరగతులుగా విభజించవచ్చు:
ప్రమాణంతో పోలిక ఆధారంగా ప్రసంగ గుర్తింపు పద్ధతుల వర్గీకరణ.
- డైనమిక్ ప్రోగ్రామింగ్ - తాత్కాలిక డైనమిక్ అల్గోరిథంలు (డైనమిక్ టైమ్ వార్పింగ్).
సందర్భ-సెన్సిటివ్ వర్గీకరణ. ఇది అమలు చేయబడినప్పుడు, వ్యక్తిగత లెక్సికల్ అంశాలు ప్రసంగం యొక్క స్ట్రీమ్ నుండి వేరుచేయబడతాయి - ఫోనెమ్లు మరియు అలోఫోన్లు, తరువాత వాటిని అక్షరాలు మరియు మార్ఫిమ్లుగా కలుపుతారు.
- బయేసియన్ వివక్ష ఆధారంగా వివక్షత విశ్లేషణ పద్ధతులు;
- దాచిన మార్కోవ్ మోడల్;
- న్యూరల్ నెట్వర్క్లు.
గుర్తింపు వ్యవస్థల నిర్మాణం
సాధారణ [ ] ఆటోమేటిక్ స్పీచ్ ప్రాసెసింగ్ కోసం స్టాటిస్టికల్ సిస్టమ్స్ ఆర్కిటెక్చర్.
- నాయిస్ తగ్గింపు మాడ్యూల్ మరియు ఉపయోగకరమైన సిగ్నల్ యొక్క విభజన.
- ఎకౌస్టిక్ మోడల్ - ధ్వని స్థాయిలో సారూప్యత పరంగా ప్రసంగ విభాగం యొక్క గుర్తింపును అంచనా వేయడానికి మిమ్మల్ని అనుమతిస్తుంది. ప్రతి ధ్వని కోసం, ప్రసంగంలో ఈ ధ్వని యొక్క ఉచ్చారణను వివరించే సంక్లిష్ట గణాంక నమూనా ప్రారంభంలో నిర్మించబడింది.
- భాషా నమూనా - చాలా మటుకు మౌఖిక సన్నివేశాలను నిర్ణయించడానికి మిమ్మల్ని అనుమతిస్తుంది. భాషా నమూనాను నిర్మించే సంక్లిష్టత నిర్దిష్ట భాషపై ఎక్కువగా ఆధారపడి ఉంటుంది. కాబట్టి, ఆంగ్ల భాష కోసం, గణాంక నమూనాలను (N- గ్రాములు అని పిలవబడేవి) ఉపయోగించడం సరిపోతుంది. రష్యన్ను కలిగి ఉన్న అత్యంత ప్రేరేపిత భాషలకు (ఒకే పదం యొక్క అనేక రూపాలు ఉన్న భాషలు), గణాంకాలను ఉపయోగించి మాత్రమే నిర్మించిన భాషా నమూనాలు ఇకపై అటువంటి ప్రభావాన్ని ఇవ్వవు - గణాంక సంబంధాలను విశ్వసనీయంగా అంచనా వేయడానికి చాలా డేటా అవసరం. పదాల మధ్య. అందువల్ల, హైబ్రిడ్ భాషా నమూనాలు ఉపయోగించబడతాయి, ఇవి రష్యన్ భాష యొక్క నియమాలు, ప్రసంగం మరియు పద రూపం యొక్క భాగం గురించి సమాచారం మరియు శాస్త్రీయ గణాంక నమూనాను ఉపయోగిస్తాయి.
- డీకోడర్ అనేది రికగ్నిషన్ సిస్టమ్ యొక్క సాఫ్ట్వేర్ భాగం, ఇది ధ్వని మరియు భాషా నమూనాల నుండి గుర్తింపు సమయంలో పొందిన డేటాను మిళితం చేస్తుంది మరియు వాటి కలయిక ఆధారంగా, పదాల క్రమాన్ని ఎక్కువగా నిర్ణయిస్తుంది, ఇది నిరంతర ప్రసంగ గుర్తింపు యొక్క చివరి ఫలితం.
- స్పీచ్ సిగ్నల్ నాణ్యతను అంచనా వేయడంతో స్పీచ్ ప్రాసెసింగ్ ప్రారంభమవుతుంది. ఈ దశలో, జోక్యం మరియు వక్రీకరణ స్థాయి నిర్ణయించబడుతుంది.
- మూల్యాంకన ఫలితం అకౌస్టిక్ అడాప్టేషన్ మాడ్యూల్కి వెళుతుంది, ఇది గుర్తింపు కోసం అవసరమైన ప్రసంగ పారామితులను లెక్కించడానికి మాడ్యూల్ను నియంత్రిస్తుంది.
- ప్రసంగం ఉన్న ప్రాంతాలు సిగ్నల్లో గుర్తించబడతాయి మరియు ప్రసంగ పారామితులు అంచనా వేయబడతాయి. సింటాక్టిక్, సెమాంటిక్ మరియు ప్రాగ్మాటిక్ విశ్లేషణ కోసం ఫొనెటిక్ మరియు ప్రోసోడిక్ ప్రాబబిలిస్టిక్ లక్షణాలు గుర్తించబడతాయి. (మాటలో భాగం, పద రూపం మరియు పదాల మధ్య గణాంక సంబంధాల గురించి సమాచారాన్ని అంచనా వేయండి.)
- తరువాత, ప్రసంగ పారామితులు గుర్తింపు వ్యవస్థ యొక్క ప్రధాన బ్లాక్కు పంపబడతాయి - డీకోడర్. ఇది ధ్వని మరియు భాషా నమూనాలలో నిల్వ చేయబడిన సమాచారంతో ఇన్పుట్ స్పీచ్ స్ట్రీమ్తో సరిపోలుతుంది మరియు తుది గుర్తింపు ఫలితం అయిన పదాల క్రమాన్ని ఎక్కువగా నిర్ణయిస్తుంది.
గుర్తింపు వ్యవస్థలలో భావోద్వేగపూరిత ప్రసంగం యొక్క సంకేతాలు
స్పెక్ట్రల్-తాత్కాలిక లక్షణాలు
వర్ణపట లక్షణాలు:
- విశ్లేషించబడిన స్పీచ్ సిగ్నల్ యొక్క స్పెక్ట్రం యొక్క సగటు విలువ;
- సాధారణీకరించిన స్పెక్ట్రం సగటులు;
- స్పెక్ట్రమ్ బ్యాండ్లలో సిగ్నల్ యొక్క సాపేక్ష నివాస సమయం;
- స్పెక్ట్రమ్ బ్యాండ్లలో సిగ్నల్ యొక్క సాధారణ నివాస సమయం;
- బ్యాండ్లలో మధ్యస్థ స్పీచ్ స్పెక్ట్రమ్ విలువ;
- బ్యాండ్లలో రిలేటివ్ స్పీచ్ స్పెక్ట్రమ్ పవర్;
- స్పీచ్ స్పెక్ట్రమ్ ఎన్వలప్ల వైవిధ్యం;
- స్పీచ్ స్పెక్ట్రమ్ ఎన్వలప్ల వైవిధ్యం యొక్క సాధారణీకరించిన విలువలు;
- స్పెక్ట్రల్ బ్యాండ్ల మధ్య స్పెక్ట్రల్ ఎన్వలప్ల క్రాస్ కోరిలేషన్ కోఎఫీషియంట్స్.
తాత్కాలిక సంకేతాలు:
- సెగ్మెంట్ వ్యవధి, ఫోన్మేస్;
- సెగ్మెంట్ ఎత్తు;
- సెగ్మెంట్ ఆకార కారకం.
స్పెక్ట్రల్-టెంపోరల్ లక్షణాలు మూడు రకాల భాగాల ఉనికి ఆధారంగా దాని భౌతిక మరియు గణిత సారాంశంలో ప్రసంగ సంకేతాన్ని వర్గీకరిస్తాయి:
- ధ్వని తరంగం యొక్క ఆవర్తన (టోనల్) విభాగాలు;
- ధ్వని తరంగం యొక్క నాన్-ఆవర్తన విభాగాలు (శబ్దం, పేలుడు);
- ప్రసంగ విరామాలు లేని ప్రాంతాలు.
వర్ణపట-తాత్కాలిక లక్షణాలు వేర్వేరు వ్యక్తులలో స్వర ప్రేరణల సమయ శ్రేణి మరియు స్పెక్ట్రం యొక్క ఆకృతి యొక్క వాస్తవికతను మరియు వారి స్వర మార్గాల యొక్క వడపోత ఫంక్షన్ల లక్షణాలను ప్రతిబింబించేలా చేస్తాయి. స్పీకర్ యొక్క ఉచ్చారణ అవయవాల పునర్నిర్మాణం యొక్క డైనమిక్స్తో అనుబంధించబడిన ప్రసంగ ప్రవాహం యొక్క లక్షణాలను అవి వర్గీకరిస్తాయి మరియు ప్రసంగ ప్రవాహం యొక్క సమగ్ర లక్షణాలు, ఇది సంబంధం యొక్క వాస్తవికతను లేదా స్పీకర్ యొక్క ఉచ్చారణ అవయవాల కదలిక యొక్క సమకాలీకరణను ప్రతిబింబిస్తుంది.
సెప్స్ట్రాల్ సంకేతాలు
- మెల్-ఫ్రీక్వెన్సీ సెప్స్ట్రాల్ కోఎఫీషియంట్స్;
- మానవ చెవి యొక్క అసమాన సున్నితత్వం కోసం సరిదిద్దబడిన లీనియర్ ప్రిడిక్షన్ కోఎఫీషియంట్స్;
- రికార్డింగ్ ఫ్రీక్వెన్సీ పవర్ కారకాలు;
- లీనియర్ ప్రిడిక్షన్ స్పెక్ట్రమ్ కోఎఫీషియంట్స్;
- లీనియర్ ప్రిడిక్షన్ సెప్స్ట్రమ్ కోఎఫీషియంట్స్.
చాలా ఆధునిక ఆటోమేటిక్ స్పీచ్ రికగ్నిషన్ సిస్టమ్లు మానవ స్వర వాహిక యొక్క ఫ్రీక్వెన్సీ సంతకాన్ని సంగ్రహించడంపై దృష్టి పెడతాయి, అయితే ఉత్తేజిత సిగ్నల్ లక్షణాలను విస్మరిస్తాయి. మొదటి మోడల్ యొక్క గుణకాలు మెరుగైన ధ్వని విభజనను అందిస్తాయనే వాస్తవం ఇది వివరించబడింది. స్వర ట్రాక్ట్ సిగ్నల్ నుండి ఉత్తేజిత సంకేతాన్ని వేరు చేయడానికి, సెప్స్ట్రాల్ విశ్లేషణ ఉపయోగించబడుతుంది.
వ్యాప్తి-ఫ్రీక్వెన్సీ లక్షణాలు
- తీవ్రత, వ్యాప్తి
- శక్తి
- పిచ్ ఫ్రీక్వెన్సీ (FFR)
- ఫార్మాట్ ఫ్రీక్వెన్సీలు
- జిట్టర్ - ఫండమెంటల్ టోన్ (శబ్దం పరామితి) యొక్క జిట్టర్ ఫ్రీక్వెన్సీ మాడ్యులేషన్;
- షిమ్మర్ - ప్రధాన టోన్ (శబ్దం పరామితి) పై యాంప్లిట్యూడ్ మాడ్యులేషన్;
- రేడియల్ బేస్ కెర్నల్ ఫంక్షన్
- నాన్ లీనియర్ ఆపరేటర్ టైగర్
యాంప్లిట్యూడ్-ఫ్రీక్వెన్సీ లక్షణాలు అంచనాలను పొందడం సాధ్యం చేస్తాయి, వీటి విలువలు వివిక్త ఫోరియర్ పరివర్తన (విండో రకం మరియు వెడల్పు) యొక్క పారామితులపై ఆధారపడి ఉంటాయి, అలాగే నమూనా అంతటా విండో యొక్క స్వల్ప మార్పులతో మారవచ్చు. స్పీచ్ సిగ్నల్ గాలిలో ప్రచారం చేయబడిన సంక్లిష్ట నిర్మాణం యొక్క ధ్వని కంపనాల ద్వారా ధ్వనిపరంగా ప్రాతినిధ్యం వహిస్తుంది, అవి వాటి ఫ్రీక్వెన్సీ (సెకనుకు కంపనాల సంఖ్య), తీవ్రత (కంపనాల వ్యాప్తి) మరియు వ్యవధి పరంగా వర్గీకరించబడతాయి. యాంప్లిట్యూడ్-ఫ్రీక్వెన్సీ ఫీచర్లు కనీస అవగాహన సమయంతో స్పీచ్ సిగ్నల్ నుండి ఒక వ్యక్తికి అవసరమైన మరియు తగినంత సమాచారాన్ని కలిగి ఉంటాయి. కానీ ఈ లక్షణాల ఉపయోగం భావోద్వేగపూరిత ప్రసంగాన్ని గుర్తించే సాధనంగా పూర్తిగా ఉపయోగించబడదు.
నాన్ లీనియర్ డైనమిక్స్ సంకేతాలు
నాన్ లీనియర్ డైనమిక్స్ సంకేతాల సమూహం కోసం, స్పీచ్ సిగ్నల్ మానవ స్వర వాహిక వ్యవస్థలో గమనించిన స్కేలార్ పరిమాణంగా పరిగణించబడుతుంది. ప్రసంగ ఉత్పత్తి ప్రక్రియను నాన్ లీనియర్గా పరిగణించవచ్చు మరియు నాన్ లీనియర్ డైనమిక్స్ పద్ధతుల ద్వారా విశ్లేషించవచ్చు. నాన్ లీనియర్ డైనమిక్స్ యొక్క పని ఏమిటంటే, సిస్టమ్ను రూపొందించే వ్యక్తిగత మూలకాల యొక్క లక్షణాలు మరియు వాటి మధ్య పరస్పర చట్టాల గురించి అత్యంత విలక్షణమైన ప్రతిపాదనల నుండి కొనసాగే ప్రాథమిక గణిత నమూనాలు మరియు వాస్తవ వ్యవస్థల యొక్క వివరణాత్మక అధ్యయనాన్ని కనుగొనడం మరియు నిర్వహించడం. ప్రస్తుతం, నాన్ లీనియర్ డైనమిక్స్ పద్ధతులు ప్రాథమిక గణిత సిద్ధాంతంపై ఆధారపడి ఉన్నాయి, ఇది టేకెన్స్ సిద్ధాంతంపై ఆధారపడి ఉంటుంది. (ఆంగ్లం)రష్యన్, ఇది నాన్ లీనియర్ ఆటోరిగ్రెషన్ యొక్క ఆలోచనలకు కఠినమైన గణిత ఆధారాన్ని అందిస్తుంది మరియు సమయ శ్రేణి నుండి లేదా దాని కోఆర్డినేట్లలో ఒకదాని నుండి అట్రాక్టర్ యొక్క ఫేజ్ పోర్ట్రెయిట్ను పునరుద్ధరించే అవకాశాన్ని రుజువు చేస్తుంది. (ట్రాన్సియెంట్ల క్షయం తర్వాత దశ పథం చేరుకునే దశ స్థలంలో పాయింట్ల సమితి లేదా సబ్స్పేస్గా అట్రాక్టర్ అర్థం అవుతుంది.) పునర్నిర్మించిన ప్రసంగ పథాల నుండి సిగ్నల్ లక్షణాల అంచనాలు నాన్లీనియర్ డిటర్మినిస్టిక్ ఫేజ్-స్పేస్ మోడల్ల నిర్మాణంలో ఉపయోగించబడతాయి. గమనించిన సమయ శ్రేణి. ఆకర్షణీయుల ఆకృతిలో గుర్తించబడిన వ్యత్యాసాలను రోగనిర్ధారణ నియమాలు మరియు సంకేతాల కోసం ఉపయోగించవచ్చు, ఇది భావోద్వేగంగా ఛార్జ్ చేయబడిన ప్రసంగ సిగ్నల్లో వివిధ భావోద్వేగాలను గుర్తించడం మరియు సరిగ్గా గుర్తించడం సాధ్యం చేస్తుంది.
ప్రసంగ నాణ్యత ఎంపికలు
డిజిటల్ ఛానెల్లలో ప్రసంగ నాణ్యత పారామితులు:
- అక్షర స్పీచ్ ఇంటెలిజిబిలిటీ;
- ప్రసంగం యొక్క పదబంధాన్ని అర్థం చేసుకోవడం;
- సూచన మార్గం యొక్క ప్రసంగ నాణ్యతతో పోలిస్తే ప్రసంగ నాణ్యత;
- నిజమైన పని పరిస్థితుల్లో ప్రసంగ నాణ్యత.
ప్రాథమిక భావనలు
- స్పీచ్ ఇంటెలిజిబిలిటీ అనేది సరిగ్గా స్వీకరించబడిన ప్రసంగ మూలకాల యొక్క సాపేక్ష సంఖ్య (ధ్వనులు, అక్షరాలు, పదాలు, పదబంధాలు), మొత్తం ప్రసారం చేయబడిన మూలకాల సంఖ్య యొక్క శాతంగా వ్యక్తీకరించబడింది.
- స్పీచ్ క్వాలిటీ అనేది పరీక్షిస్తున్న స్పీచ్ ట్రాన్స్మిషన్ సిస్టమ్లో ప్రసంగం యొక్క ధ్వని యొక్క ఆత్మాశ్రయ అంచనాను వర్గీకరించే ఒక పరామితి.
- సాధారణ ప్రసంగ రేటు అనేది నియంత్రణ పదబంధం యొక్క సగటు వ్యవధి 2.4 సెకన్ల వేగంతో మాట్లాడుతుంది.
- వేగవంతమైన ప్రసంగ రేటు - నియంత్రణ పదబంధం యొక్క సగటు వ్యవధి 1.5-1.6 సెకన్ల వేగంతో మాట్లాడటం.
- స్పీకర్ స్వరం యొక్క గుర్తింపు అనేది శ్రోతలకు గతంలో తెలిసిన నిర్దిష్ట వ్యక్తితో స్వరం యొక్క ధ్వనిని గుర్తించగల సామర్థ్యం.
- సెమాంటిక్ ఇంటెలిజిబిలిటీ అనేది ప్రసంగం యొక్క సమాచార కంటెంట్ యొక్క సరైన పునరుత్పత్తి స్థాయికి సూచిక.
- సమగ్ర నాణ్యత అనేది స్వీకరించిన ప్రసంగంపై శ్రోత యొక్క మొత్తం అభిప్రాయాన్ని వర్ణించే సూచిక.
అప్లికేషన్
వాయిస్ సిస్టమ్స్ యొక్క ప్రధాన ప్రయోజనం యూజర్ ఫ్రెండ్లీగా ప్రకటించబడింది. స్పీచ్ ఆదేశాలు తుది వినియోగదారు టచ్ మరియు ఇతర ఇన్పుట్ పద్ధతులు మరియు ఆదేశాలను ఉపయోగించాల్సిన అవసరాన్ని తొలగించడానికి ఉద్దేశించబడ్డాయి.
- వాయిస్ ఆదేశాలు
- వాయిస్ టెక్స్ట్ ఇన్పుట్
మొబైల్ అప్లికేషన్లలో స్పీచ్ రికగ్నిషన్ టెక్నాలజీని ఉపయోగించడం యొక్క విజయవంతమైన ఉదాహరణలు: Yandex.Navigator, Google Now వాయిస్ శోధనలో వాయిస్ ద్వారా చిరునామాను నమోదు చేయడం.
మొబైల్ పరికరాలతో పాటు, స్పీచ్ రికగ్నిషన్ టెక్నాలజీ వ్యాపారంలోని వివిధ రంగాలలో విస్తృతంగా ఉపయోగించబడుతుంది:
- టెలిఫోనీ: స్వీయ-సేవ వాయిస్ సిస్టమ్లను సృష్టించడం ద్వారా ఇన్కమింగ్ మరియు అవుట్గోయింగ్ కాల్లను ప్రాసెస్ చేసే ఆటోమేషన్, ప్రత్యేకించి: రిఫరెన్స్ సమాచారాన్ని పొందడం మరియు సంప్రదింపులు, సేవలు/ఉత్పత్తులను ఆర్డర్ చేయడం, ఇప్పటికే ఉన్న సేవల యొక్క పారామితులను మార్చడం, సర్వేలు నిర్వహించడం, ప్రశ్నపత్రాలు, సమాచారం సేకరించడం, తెలియజేయడం మరియు ఏదైనా ఇతర దృశ్యాలు;
- స్మార్ట్ హోమ్ పరిష్కారాలు: స్మార్ట్ హోమ్ సిస్టమ్లను నియంత్రించడానికి వాయిస్ ఇంటర్ఫేస్;
- గృహోపకరణాలు మరియు రోబోట్లు: ఎలక్ట్రానిక్ రోబోట్ల వాయిస్ ఇంటర్ఫేస్; గృహోపకరణాల వాయిస్ నియంత్రణ, మొదలైనవి;
- డెస్క్టాప్లు మరియు ల్యాప్టాప్లు: కంప్యూటర్ గేమ్లు మరియు అప్లికేషన్లలో వాయిస్ ఇన్పుట్;
- కార్లు: కారు లోపలి భాగంలో వాయిస్ నియంత్రణ - ఉదాహరణకు, నావిగేషన్ సిస్టమ్;
- వికలాంగులకు సామాజిక సేవలు.
ఇది కూడా చూడండి
- డిజిటల్ సిగ్నల్ ప్రాసెసింగ్
గమనికలు
- డేవిస్, K.H., Biddulph, R. మరియు Balashek, S. (1952) మాట్లాడే అంకెల స్వయంచాలక ప్రసంగ గుర్తింపు, J. అకౌస్ట్. Soc. అం. 24 (6) పేజీలు. 637-642
- ఖాతా సస్పెండ్ చేయబడింది
- ప్రసంగం-గుర్తింపు రంగంలో ఆధునిక సమస్యలు.
- http://phonoscopic.rf/articles_and_publications/Lobanova_Search_of_identical_fragments.pdf
- http://booksshare.net/books/med/chistovich-la/1976/files/fizrech1976.djvu
- http://revistaie.ase.ro/content/46/s%20-%20furtuna.pdf
- http://www.ccas.ru/frc/papers/mestetskii04course.pdf
- స్పీచ్ రికగ్నిషన్|
- సెంటర్ ఫర్ స్పీచ్ టెక్నాలజీస్ |
- MDGలు. ఏప్రిల్ 20, 2013న పునరుద్ధరించబడింది. ఏప్రిల్ 28, 2013న ఆర్కైవ్ చేయబడింది.
- http://pawlin.ru/materials/neiro/sistemy_raspoznavaniya.pdf
- http://intsys.msu.ru/magazine/archive/v3(1-2)/mazurenko.pdf
- http://eprints.tstu.tver.ru/69/1/3.pdf
- http://www.terrahumana.ru/arhiv/10_04/10_04_25.pdf
హయ్యర్ అటెస్టేషన్ కమీషన్ 05.11.17, 05.13.01 ప్రత్యేకతలో “ఉద్వేగభరితమైన ప్రసంగ సంకేతాల ఆధారంగా ఒక వ్యక్తి యొక్క సైకోఫిజియోలాజికల్ స్థితి యొక్క పరిశోధన” అనే అంశంపై ప్రవచనం - పరికరం...
- GOST R 51061-97.
- స్పీచ్ క్వాలిటీ పారామితులు. డిజిటల్ ఛానెల్ల ద్వారా తక్కువ-స్పీడ్ స్పీచ్ ట్రాన్స్మిషన్ సిస్టమ్లు. . మూలం నుండి ఏప్రిల్ 30, 2013 న ఆర్కైవు చేసారు.
- లింకులు
- స్పీచ్ రికగ్నిషన్ టెక్నాలజీస్, www.xakep.ru
I. A. షాలిమోవ్, M. A. బెస్సోనోవ్. | |
---|---|
రాష్ట్రం యొక్క విశ్లేషణ మరియు ఆడియో సందేశం యొక్క భాషను నిర్ణయించడానికి సాంకేతికతల అభివృద్ధికి అవకాశాలు.
Yandex నుండి స్పీచ్ రికగ్నిషన్ టెక్నాలజీ Yandex స్పీచ్ కిట్ ఎలా పనిచేస్తుంది |
హబ్రహబ్ర్
Yandex నుండి స్పీచ్-రికగ్నిషన్-టెక్నాలజీ-Yandex-SpeechKit
సాధారణ నిర్వచనాలు
YaC 2013
ఎకౌస్టిక్ మోడల్
Yandex నుండి స్పీచ్ రికగ్నిషన్ టెక్నాలజీ Yandex స్పీచ్ కిట్ ఎలా పనిచేస్తుంది |
మీరు వాయిస్ శోధనకు "లెవ్ టాల్స్టాయ్" అని చెబితే, స్మార్ట్ఫోన్ మొదటి మరియు చివరి పేరును వినదు, రెండు పదాలు కాదు, కానీ స్పష్టమైన సరిహద్దులు లేకుండా శబ్దాలు సజావుగా ఒకదానికొకటి ప్రవహించే సౌండ్ సిగ్నల్. స్పీచ్ రికగ్నిషన్ సిస్టమ్ యొక్క పని ఏమిటంటే ఈ సిగ్నల్ నుండి చెప్పబడిన వాటిని పునర్నిర్మించడం. వేర్వేరు పరిస్థితులలో వేర్వేరు వ్యక్తులు పలికిన ఒకే పదబంధం పూర్తిగా భిన్నమైన సంకేతాలను ఇస్తుంది అనే వాస్తవంతో పరిస్థితి క్లిష్టంగా ఉంటుంది. శబ్ద మోడలింగ్ వ్యవస్థ వాటిని సరిగ్గా అర్థం చేసుకోవడానికి సహాయపడుతుంది.
మీరు వాయిస్ అభ్యర్థనను చేసినప్పుడు, ఉదాహరణకు, Yandex.Navigator లో, స్మార్ట్ఫోన్ దానిని రికార్డ్ చేస్తుంది మరియు Yandex సర్వర్కు పంపుతుంది. సర్వర్లో, రికార్డింగ్ 25 మిల్లీసెకన్ల పొడవు, అతివ్యాప్తి, 10 మిల్లీసెకన్ల దశతో అనేక చిన్న శకలాలు (ఫ్రేమ్లు)గా విభజించబడింది. అంటే, మీ ప్రసంగంలో ఒక సెకను వంద ఫ్రేమ్లుగా మారుతుంది.
అప్పుడు వాటిలో ప్రతి ఒక్కటి అకౌస్టిక్ మోడల్ ద్వారా పంపబడుతుంది - మీరు చేసిన శబ్దాలను నిర్ణయించే ఫంక్షన్. ఈ డేటా ఆధారంగా, యంత్ర అభ్యాస పద్ధతులను ఉపయోగించి శిక్షణ పొందిన సిస్టమ్, శోధన ఫలితాల్లో మీరు చూసే పదాల వైవిధ్యాలను నిర్ణయిస్తుంది. మొబైల్ బ్రౌజర్, "లియో టాల్స్టాయ్" అభ్యర్థనకు ప్రతిస్పందనగా, గొప్ప రచయిత గురించి సైట్లను కనుగొంటుంది మరియు నావిగేటర్ మరియు మ్యాప్స్ లియో టాల్స్టాయ్ స్ట్రీట్ను అందిస్తాయి.
సిస్టమ్ మాట్లాడే శబ్దాలను ఎంత బాగా గుర్తిస్తుందనే దానిపై ఫలితాల ఖచ్చితత్వం నేరుగా ఆధారపడి ఉంటుంది. దీన్ని చేయడానికి, అది పనిచేసే ఫొనెటిక్ వర్ణమాల తగినంత ఖచ్చితమైనది మరియు పూర్తిగా ఉండాలి.
హబ్రహబ్ర్
రష్యన్ భాషలో, వివిధ సిద్ధాంతాల ప్రకారం, సుమారు 40 ఫోనెమ్స్ (ధ్వని యూనిట్లు) ఉన్నాయి. మా స్పీచ్ రికగ్నిషన్ సిస్టమ్ ఇన్కమింగ్ స్పీచ్ సిగ్నల్తో ఫోన్మేస్తో సరిపోలుతుంది, ఆపై వాటి నుండి పదాలను సమీకరిస్తుంది. ఉదాహరణకు, "Yandex" అనే పదం ఏడు ఫోన్మేలను కలిగి ఉంటుంది - [th][a][n][d][e][k][s]. ఫోన్మేలు వేర్వేరు వ్యవధులను కలిగి ఉండవచ్చు మరియు ఫ్రేమ్ ద్వారా విభజించబడినప్పుడు, “Yandex” పదం ఇలా కనిపిస్తుంది, ఉదాహరణకు, ఇలా - [th][th][a][a][a][a][a][a ][a][a][a][a][n][n][d][d][e][k][s]. ఏదైనా ఫోనెమ్ యొక్క ఉచ్చారణ దాని పొరుగువారిపై మరియు పదంలోని స్థానంపై ఆధారపడి ఉంటుంది. అంటే, ఒక పదం ప్రారంభంలో, మధ్యలో మరియు చివరిలో ఉన్న ధ్వని [a] మూడు వేర్వేరుగా ఉంటుంది [a] మరియు “ఆడియో రికార్డింగ్లో” కలయికలో రెండు అచ్చుల మధ్య ధ్వని [a] భిన్నంగా ఉంటుంది. "బాక్" అనే పదంలోని హల్లుల మధ్య ఉన్న [a]. అందువల్ల, మంచి గుర్తింపు కోసం ఫోనెమ్ చాలా ముతక యూనిట్.
ఫోనెమ్ యొక్క ఉచ్చారణను మరింత ఖచ్చితంగా రూపొందించడానికి, మేము మొదట ప్రతి ఫోన్మేని మూడు భాగాలుగా విభజిస్తాము: సంప్రదాయ ప్రారంభం, మధ్య మరియు ముగింపు. రెండవది, మేము మా స్వంత ఫొనెటిక్ ఆల్ఫాబెట్ను అభివృద్ధి చేసాము, ఇది ఫోన్మేస్ యొక్క స్థానం మరియు సందర్భాన్ని పరిగణనలోకి తీసుకుంటుంది. సందర్భ-ఆధారిత ఫోనెమ్ల యొక్క సాధ్యమైన అన్ని రూపాంతరాలను పరిగణనలోకి తీసుకోవడం అవివేకం, ఎందుకంటే వాటిలో చాలా వరకు నిజ జీవితంలో జరగవు. అందువల్ల, ఒకే విధమైన శబ్దాలను కలిసి పరిగణించమని మేము మా ప్రోగ్రామ్కు నేర్పించాము. ఫలితంగా, మేము 4000 ప్రాథమిక యూనిట్ల సమితిని అందుకున్నాము - సెనోన్స్. ఇది మా స్పీచ్ రికగ్నిషన్ టెక్నాలజీ పనిచేసే Yandex ఫొనెటిక్ ఆల్ఫాబెట్.
Yandex నుండి స్పీచ్-రికగ్నిషన్-టెక్నాలజీ-Yandex-SpeechKit
ఆదర్శవంతమైన ప్రపంచంలో, వాయిస్ అభ్యర్థనలోని ప్రతి భాగానికి ఏ ఫోన్మే సరిపోతుందో ప్రోగ్రామ్ ఖచ్చితంగా నిర్ధారిస్తుంది. కానీ ఒక వ్యక్తి కూడా కొన్నిసార్లు అన్ని శబ్దాలను అర్థం చేసుకోకపోవచ్చు లేదా వినకపోవచ్చు మరియు సందర్భం ఆధారంగా పదాన్ని పూర్తి చేస్తాడు. మరియు ఒక వ్యక్తి తన స్వంత ప్రసంగ అనుభవంపై ఆధారపడినట్లయితే, మా సిస్టమ్ సంభావ్యతతో పనిచేస్తుంది.
ముందుగా, వాయిస్ అభ్యర్థన (ఫ్రేమ్) యొక్క ప్రతి భాగాన్ని ఒక ఫోన్మేతో కాకుండా, అనేక స్థాయిల సంభావ్యతతో సరిపోల్చవచ్చు. రెండవది, పరివర్తన సంభావ్యత యొక్క పట్టిక ఉంది, ఇది “a” తర్వాత ఒక సంభావ్యతతో “a”, మరొక దానితో “b” మరియు మొదలైనవి కూడా ఉంటుందని సూచిస్తుంది. ఇది ఫోన్మేస్ క్రమం యొక్క వైవిధ్యాలను గుర్తించడానికి మిమ్మల్ని అనుమతిస్తుంది, ఆపై, ఉచ్చారణ, పదనిర్మాణం మరియు అర్థశాస్త్రం, మీరు చెప్పగలిగే పదాల వైవిధ్యాల గురించి ప్రోగ్రామ్కు అందుబాటులో ఉన్న డేటా ఆధారంగా.
ప్రోగ్రామ్ పదాలను వాటి అర్థం ప్రకారం పునరుద్ధరించగలదు. మీరు ధ్వనించే ప్రదేశంలో ఉంటే, స్పష్టంగా మాట్లాడకండి లేదా అస్పష్టమైన పదాలను ఉపయోగించకండి, సందర్భం మరియు గణాంకాల ఆధారంగా ఆమె మీ అభ్యర్థనను పూర్తి చేస్తుంది. ఉదాహరణకు, ప్రోగ్రామ్లో "అమ్మ కడిగింది..." అనే పదబంధాన్ని "అమ్మ గాయం కడిగింది" అని కాకుండా "అమ్మ ఫ్రేమ్ కడిగింది" అనే పదబంధాన్ని కొనసాగించే అవకాశం ఉంది. విభిన్న డేటాపై మెషిన్ లెర్నింగ్కు ధన్యవాదాలు, మా ప్రోగ్రామ్ శబ్దానికి నిరోధకతను కలిగి ఉంది, ఉచ్చారణ ప్రసంగాన్ని బాగా గుర్తిస్తుంది మరియు స్పీకర్ యొక్క లింగం మరియు వయస్సుతో సంబంధం లేకుండా గుర్తింపు నాణ్యత ఆచరణాత్మకంగా స్వతంత్రంగా ఉంటుంది.
ప్రస్తుతం, మా స్పీచ్ రికగ్నిషన్ టెక్నాలజీ నావిగేటర్ మరియు మొబైల్ మ్యాప్స్లోని 94% పదాలను మరియు మొబైల్ బ్రౌజర్లోని 84% పదాలను సరిగ్గా గుర్తిస్తుంది. ఈ సందర్భంలో, గుర్తింపు ఒక సెకను పడుతుంది. ఇది ఇప్పటికే చాలా విలువైన ఫలితం, మరియు మేము దీన్ని మెరుగుపరచడానికి చురుకుగా పని చేస్తున్నాము. కొన్ని సంవత్సరాలలో వాయిస్ ఇన్పుట్ ఇంటర్ఫేస్ క్లాసిక్ మెథడ్ల వలె మెరుగ్గా ఉంటుందని మేము నమ్ముతున్నాము.
సాధారణ నిర్వచనాలుసాంకేతికతతో పాటుగా, మేము YaC 2013లో స్పీచ్ రికగ్నిషన్ కోసం పబ్లిక్ APIని అందించాము - స్పీచ్కిట్. దాని సహాయంతో, డెవలపర్లు Android మరియు iOS కోసం వారి అనువర్తనాలకు Yandex వాయిస్ శోధనను జోడించవచ్చు. మీరు స్పీచ్కిట్ని డౌన్లోడ్ చేసుకోవచ్చు మరియు డాక్యుమెంటేషన్ను కూడా చదవవచ్చు.
","contentType":"text/html"),"proposedBody":("source":"
YaC 2013
ఎకౌస్టిక్ మోడల్
Yandex నుండి స్పీచ్ రికగ్నిషన్ టెక్నాలజీ Yandex స్పీచ్ కిట్ ఎలా పనిచేస్తుంది |
మీరు వాయిస్ శోధనకు "లెవ్ టాల్స్టాయ్" అని చెబితే, స్మార్ట్ఫోన్ మొదటి మరియు చివరి పేరును వినదు, రెండు పదాలు కాదు, కానీ స్పష్టమైన సరిహద్దులు లేకుండా శబ్దాలు సజావుగా ఒకదానికొకటి ప్రవహించే సౌండ్ సిగ్నల్. స్పీచ్ రికగ్నిషన్ సిస్టమ్ యొక్క పని ఏమిటంటే ఈ సిగ్నల్ నుండి చెప్పబడిన వాటిని పునర్నిర్మించడం. వేర్వేరు పరిస్థితులలో వేర్వేరు వ్యక్తులు పలికిన ఒకే పదబంధం పూర్తిగా భిన్నమైన సంకేతాలను ఇస్తుంది అనే వాస్తవంతో పరిస్థితి క్లిష్టంగా ఉంటుంది. శబ్ద మోడలింగ్ వ్యవస్థ వాటిని సరిగ్గా అర్థం చేసుకోవడానికి సహాయపడుతుంది.
మీరు వాయిస్ అభ్యర్థనను చేసినప్పుడు, ఉదాహరణకు, Yandex.Navigator లో, స్మార్ట్ఫోన్ దానిని రికార్డ్ చేస్తుంది మరియు Yandex సర్వర్కు పంపుతుంది. సర్వర్లో, రికార్డింగ్ 25 మిల్లీసెకన్ల పొడవు, అతివ్యాప్తి, 10 మిల్లీసెకన్ల దశతో అనేక చిన్న శకలాలు (ఫ్రేమ్లు)గా విభజించబడింది. అంటే, మీ ప్రసంగంలో ఒక సెకను వంద ఫ్రేమ్లుగా మారుతుంది.
అప్పుడు వాటిలో ప్రతి ఒక్కటి అకౌస్టిక్ మోడల్ ద్వారా పంపబడుతుంది - మీరు చేసిన శబ్దాలను నిర్ణయించే ఫంక్షన్. ఈ డేటా ఆధారంగా, యంత్ర అభ్యాస పద్ధతులను ఉపయోగించి శిక్షణ పొందిన సిస్టమ్, శోధన ఫలితాల్లో మీరు చూసే పదాల వైవిధ్యాలను నిర్ణయిస్తుంది. మొబైల్ బ్రౌజర్, "లియో టాల్స్టాయ్" అభ్యర్థనకు ప్రతిస్పందనగా, గొప్ప రచయిత గురించి సైట్లను కనుగొంటుంది మరియు నావిగేటర్ మరియు మ్యాప్స్ లియో టాల్స్టాయ్ స్ట్రీట్ను అందిస్తాయి.
సిస్టమ్ మాట్లాడే శబ్దాలను ఎంత బాగా గుర్తిస్తుందనే దానిపై ఫలితాల ఖచ్చితత్వం నేరుగా ఆధారపడి ఉంటుంది. దీన్ని చేయడానికి, అది పనిచేసే ఫొనెటిక్ వర్ణమాల తగినంత ఖచ్చితమైనది మరియు పూర్తిగా ఉండాలి.
హబ్రహబ్ర్
రష్యన్ భాషలో, వివిధ సిద్ధాంతాల ప్రకారం, సుమారు 40 ఫోనెమ్స్ (ధ్వని యూనిట్లు) ఉన్నాయి. మా స్పీచ్ రికగ్నిషన్ సిస్టమ్ ఇన్కమింగ్ స్పీచ్ సిగ్నల్తో ఫోన్మేస్తో సరిపోలుతుంది, ఆపై వాటి నుండి పదాలను సమీకరిస్తుంది. ఉదాహరణకు, "Yandex" అనే పదం ఏడు ఫోన్మేలను కలిగి ఉంటుంది - [th][a][n][d][e][k][s]. ఫోన్మేలు వేర్వేరు వ్యవధులను కలిగి ఉండవచ్చు మరియు ఫ్రేమ్ ద్వారా విభజించబడినప్పుడు, “Yandex” పదం ఇలా కనిపిస్తుంది, ఉదాహరణకు, ఇలా - [th][th][a][a][a][a][a][a ][a][a][a][a][n][n][d][d][e][k][s]. ఏదైనా ఫోనెమ్ యొక్క ఉచ్చారణ దాని పొరుగువారిపై మరియు పదంలోని స్థానంపై ఆధారపడి ఉంటుంది. అంటే, ఒక పదం ప్రారంభంలో, మధ్యలో మరియు చివరిలో ఉన్న ధ్వని [a] మూడు వేర్వేరుగా ఉంటుంది [a] మరియు “ఆడియో రికార్డింగ్లో” కలయికలో రెండు అచ్చుల మధ్య ధ్వని [a] భిన్నంగా ఉంటుంది. "బాక్" అనే పదంలోని హల్లుల మధ్య ఉన్న [a]. అందువల్ల, మంచి గుర్తింపు కోసం ఫోనెమ్ చాలా ముతక యూనిట్.
ఫోనెమ్ యొక్క ఉచ్చారణను మరింత ఖచ్చితంగా రూపొందించడానికి, మేము మొదట ప్రతి ఫోన్మేని మూడు భాగాలుగా విభజిస్తాము: సంప్రదాయ ప్రారంభం, మధ్య మరియు ముగింపు. రెండవది, మేము మా స్వంత ఫొనెటిక్ ఆల్ఫాబెట్ను అభివృద్ధి చేసాము, ఇది ఫోన్మేస్ యొక్క స్థానం మరియు సందర్భాన్ని పరిగణనలోకి తీసుకుంటుంది. సందర్భ-ఆధారిత ఫోనెమ్ల యొక్క సాధ్యమైన అన్ని రూపాంతరాలను పరిగణనలోకి తీసుకోవడం అవివేకం, ఎందుకంటే వాటిలో చాలా వరకు నిజ జీవితంలో జరగవు. అందువల్ల, ఒకే విధమైన శబ్దాలను కలిసి పరిగణించమని మేము మా ప్రోగ్రామ్కు నేర్పించాము. ఫలితంగా, మేము 4000 ప్రాథమిక యూనిట్ల సమితిని అందుకున్నాము - సెనోన్స్. ఇది మా స్పీచ్ రికగ్నిషన్ టెక్నాలజీ పనిచేసే Yandex ఫొనెటిక్ ఆల్ఫాబెట్.
Yandex నుండి స్పీచ్-రికగ్నిషన్-టెక్నాలజీ-Yandex-SpeechKit
ఆదర్శవంతమైన ప్రపంచంలో, వాయిస్ అభ్యర్థనలోని ప్రతి భాగానికి ఏ ఫోన్మే సరిపోతుందో ప్రోగ్రామ్ ఖచ్చితంగా నిర్ధారిస్తుంది. కానీ ఒక వ్యక్తి కూడా కొన్నిసార్లు అన్ని శబ్దాలను అర్థం చేసుకోకపోవచ్చు లేదా వినకపోవచ్చు మరియు సందర్భం ఆధారంగా పదాన్ని పూర్తి చేస్తాడు. మరియు ఒక వ్యక్తి తన స్వంత ప్రసంగ అనుభవంపై ఆధారపడినట్లయితే, మా సిస్టమ్ సంభావ్యతతో పనిచేస్తుంది.
ముందుగా, వాయిస్ అభ్యర్థన (ఫ్రేమ్) యొక్క ప్రతి భాగాన్ని ఒక ఫోన్మేతో కాకుండా, అనేక స్థాయిల సంభావ్యతతో సరిపోల్చవచ్చు. రెండవది, పరివర్తన సంభావ్యత యొక్క పట్టిక ఉంది, ఇది “a” తర్వాత ఒక సంభావ్యతతో “a”, మరొక దానితో “b” మరియు మొదలైనవి కూడా ఉంటుందని సూచిస్తుంది. ఇది ఫోన్మేస్ క్రమం యొక్క వైవిధ్యాలను గుర్తించడానికి మిమ్మల్ని అనుమతిస్తుంది, ఆపై, ఉచ్చారణ, పదనిర్మాణం మరియు అర్థశాస్త్రం, మీరు చెప్పగలిగే పదాల వైవిధ్యాల గురించి ప్రోగ్రామ్కు అందుబాటులో ఉన్న డేటా ఆధారంగా.
ప్రోగ్రామ్ పదాలను వాటి అర్థం ప్రకారం పునరుద్ధరించగలదు. మీరు ధ్వనించే ప్రదేశంలో ఉంటే, స్పష్టంగా మాట్లాడకండి లేదా అస్పష్టమైన పదాలను ఉపయోగించకండి, సందర్భం మరియు గణాంకాల ఆధారంగా ఆమె మీ అభ్యర్థనను పూర్తి చేస్తుంది. ఉదాహరణకు, ప్రోగ్రామ్లో "అమ్మ కడిగింది..." అనే పదబంధాన్ని "అమ్మ గాయం కడిగింది" అని కాకుండా "అమ్మ ఫ్రేమ్ కడిగింది" అనే పదబంధాన్ని కొనసాగించే అవకాశం ఉంది. విభిన్న డేటాపై మెషిన్ లెర్నింగ్కు ధన్యవాదాలు, మా ప్రోగ్రామ్ శబ్దానికి నిరోధకతను కలిగి ఉంది, ఉచ్చారణ ప్రసంగాన్ని బాగా గుర్తిస్తుంది మరియు స్పీకర్ యొక్క లింగం మరియు వయస్సుతో సంబంధం లేకుండా గుర్తింపు నాణ్యత ఆచరణాత్మకంగా స్వతంత్రంగా ఉంటుంది.
ప్రస్తుతం, మా స్పీచ్ రికగ్నిషన్ టెక్నాలజీ నావిగేటర్ మరియు మొబైల్ మ్యాప్స్లోని 94% పదాలను మరియు మొబైల్ బ్రౌజర్లోని 84% పదాలను సరిగ్గా గుర్తిస్తుంది. ఈ సందర్భంలో, గుర్తింపు ఒక సెకను పడుతుంది. ఇది ఇప్పటికే చాలా విలువైన ఫలితం, మరియు మేము దీన్ని మెరుగుపరచడానికి చురుకుగా పని చేస్తున్నాము. కొన్ని సంవత్సరాలలో వాయిస్ ఇన్పుట్ ఇంటర్ఫేస్ క్లాసిక్ మెథడ్ల వలె మెరుగ్గా ఉంటుందని మేము నమ్ముతున్నాము.
సాధారణ నిర్వచనాలుసాంకేతికతతో పాటుగా, మేము YaC 2013లో స్పీచ్ రికగ్నిషన్ కోసం పబ్లిక్ APIని అందించాము - స్పీచ్కిట్. దాని సహాయంతో, డెవలపర్లు Android మరియు iOS కోసం వారి అనువర్తనాలకు Yandex వాయిస్ శోధనను జోడించవచ్చు. మీరు స్పీచ్కిట్ని డౌన్లోడ్ చేసుకోవచ్చు మరియు డాక్యుమెంటేషన్ను కూడా చదవవచ్చు.
YaC 2013
ఎకౌస్టిక్ మోడల్
Yandex నుండి స్పీచ్ రికగ్నిషన్ టెక్నాలజీ Yandex స్పీచ్ కిట్ ఎలా పనిచేస్తుంది |
మీరు వాయిస్ శోధనకు "లెవ్ టాల్స్టాయ్" అని చెబితే, స్మార్ట్ఫోన్ మొదటి మరియు చివరి పేరును వినదు, రెండు పదాలు కాదు, కానీ స్పష్టమైన సరిహద్దులు లేకుండా శబ్దాలు సజావుగా ఒకదానికొకటి ప్రవహించే సౌండ్ సిగ్నల్. స్పీచ్ రికగ్నిషన్ సిస్టమ్ యొక్క పని ఏమిటంటే ఈ సిగ్నల్ నుండి చెప్పబడిన వాటిని పునర్నిర్మించడం. వేర్వేరు పరిస్థితులలో వేర్వేరు వ్యక్తులు పలికిన ఒకే పదబంధం పూర్తిగా భిన్నమైన సంకేతాలను ఇస్తుంది అనే వాస్తవంతో పరిస్థితి క్లిష్టంగా ఉంటుంది. శబ్ద మోడలింగ్ వ్యవస్థ వాటిని సరిగ్గా అర్థం చేసుకోవడానికి సహాయపడుతుంది.
మీరు వాయిస్ అభ్యర్థనను చేసినప్పుడు, ఉదాహరణకు, Yandex.Navigator లో, స్మార్ట్ఫోన్ దానిని రికార్డ్ చేస్తుంది మరియు Yandex సర్వర్కు పంపుతుంది. సర్వర్లో, రికార్డింగ్ 25 మిల్లీసెకన్ల పొడవు, అతివ్యాప్తి, 10 మిల్లీసెకన్ల దశతో అనేక చిన్న శకలాలు (ఫ్రేమ్లు)గా విభజించబడింది. అంటే, మీ ప్రసంగంలో ఒక సెకను వంద ఫ్రేమ్లుగా మారుతుంది.
అప్పుడు వాటిలో ప్రతి ఒక్కటి అకౌస్టిక్ మోడల్ ద్వారా పంపబడుతుంది - మీరు చేసిన శబ్దాలను నిర్ణయించే ఫంక్షన్. ఈ డేటా ఆధారంగా, యంత్ర అభ్యాస పద్ధతులను ఉపయోగించి శిక్షణ పొందిన సిస్టమ్, శోధన ఫలితాల్లో మీరు చూసే పదాల వైవిధ్యాలను నిర్ణయిస్తుంది. మొబైల్ బ్రౌజర్, "లియో టాల్స్టాయ్" అభ్యర్థనకు ప్రతిస్పందనగా, గొప్ప రచయిత గురించి సైట్లను కనుగొంటుంది మరియు నావిగేటర్ మరియు మ్యాప్స్ లియో టాల్స్టాయ్ స్ట్రీట్ను అందిస్తాయి.
సిస్టమ్ మాట్లాడే శబ్దాలను ఎంత బాగా గుర్తిస్తుందనే దానిపై ఫలితాల ఖచ్చితత్వం నేరుగా ఆధారపడి ఉంటుంది. దీన్ని చేయడానికి, అది పనిచేసే ఫొనెటిక్ వర్ణమాల తగినంత ఖచ్చితమైనది మరియు పూర్తిగా ఉండాలి.
హబ్రహబ్ర్
రష్యన్ భాషలో, వివిధ సిద్ధాంతాల ప్రకారం, సుమారు 40 ఫోనెమ్స్ (ధ్వని యూనిట్లు) ఉన్నాయి. మా స్పీచ్ రికగ్నిషన్ సిస్టమ్ ఇన్కమింగ్ స్పీచ్ సిగ్నల్తో ఫోన్మేస్తో సరిపోలుతుంది, ఆపై వాటి నుండి పదాలను సమీకరిస్తుంది. ఉదాహరణకు, "Yandex" అనే పదం ఏడు ఫోన్మేలను కలిగి ఉంటుంది - [th][a][n][d][e][k][s]. ఫోన్మేలు వేర్వేరు వ్యవధులను కలిగి ఉండవచ్చు మరియు ఫ్రేమ్ ద్వారా విభజించబడినప్పుడు, “Yandex” పదం ఇలా కనిపిస్తుంది, ఉదాహరణకు, ఇలా - [th][th][a][a][a][a][a][a ][a][a][a][a][n][n][d][d][e][k][s]. ఏదైనా ఫోనెమ్ యొక్క ఉచ్చారణ దాని పొరుగువారిపై మరియు పదంలోని స్థానంపై ఆధారపడి ఉంటుంది. అంటే, ఒక పదం ప్రారంభంలో, మధ్యలో మరియు చివరిలో ఉన్న ధ్వని [a] మూడు వేర్వేరుగా ఉంటుంది [a] మరియు “ఆడియో రికార్డింగ్లో” కలయికలో రెండు అచ్చుల మధ్య ధ్వని [a] భిన్నంగా ఉంటుంది. "బాక్" అనే పదంలోని హల్లుల మధ్య ఉన్న [a]. అందువల్ల, మంచి గుర్తింపు కోసం ఫోనెమ్ చాలా ముతక యూనిట్.
ఫోనెమ్ యొక్క ఉచ్చారణను మరింత ఖచ్చితంగా రూపొందించడానికి, మేము మొదట ప్రతి ఫోన్మేని మూడు భాగాలుగా విభజిస్తాము: సంప్రదాయ ప్రారంభం, మధ్య మరియు ముగింపు. రెండవది, మేము మా స్వంత ఫొనెటిక్ ఆల్ఫాబెట్ను అభివృద్ధి చేసాము, ఇది ఫోన్మేస్ యొక్క స్థానం మరియు సందర్భాన్ని పరిగణనలోకి తీసుకుంటుంది. సందర్భ-ఆధారిత ఫోనెమ్ల యొక్క సాధ్యమైన అన్ని రూపాంతరాలను పరిగణనలోకి తీసుకోవడం అవివేకం, ఎందుకంటే వాటిలో చాలా వరకు నిజ జీవితంలో జరగవు. అందువల్ల, ఒకే విధమైన శబ్దాలను కలిసి పరిగణించమని మేము మా ప్రోగ్రామ్కు నేర్పించాము. ఫలితంగా, మేము 4000 ప్రాథమిక యూనిట్ల సమితిని అందుకున్నాము - సెనోన్స్. ఇది మా స్పీచ్ రికగ్నిషన్ టెక్నాలజీ పనిచేసే Yandex ఫొనెటిక్ ఆల్ఫాబెట్.
Yandex నుండి స్పీచ్-రికగ్నిషన్-టెక్నాలజీ-Yandex-SpeechKit
ఆదర్శవంతమైన ప్రపంచంలో, వాయిస్ అభ్యర్థనలోని ప్రతి భాగానికి ఏ ఫోన్మే సరిపోతుందో ప్రోగ్రామ్ ఖచ్చితంగా నిర్ధారిస్తుంది. కానీ ఒక వ్యక్తి కూడా కొన్నిసార్లు అన్ని శబ్దాలను అర్థం చేసుకోకపోవచ్చు లేదా వినకపోవచ్చు మరియు సందర్భం ఆధారంగా పదాన్ని పూర్తి చేస్తాడు. మరియు ఒక వ్యక్తి తన స్వంత ప్రసంగ అనుభవంపై ఆధారపడినట్లయితే, మా సిస్టమ్ సంభావ్యతతో పనిచేస్తుంది.
ముందుగా, వాయిస్ అభ్యర్థన (ఫ్రేమ్) యొక్క ప్రతి భాగాన్ని ఒక ఫోన్మేతో కాకుండా, అనేక స్థాయిల సంభావ్యతతో సరిపోల్చవచ్చు. రెండవది, పరివర్తన సంభావ్యత యొక్క పట్టిక ఉంది, ఇది “a” తర్వాత ఒక సంభావ్యతతో “a”, మరొక దానితో “b” మరియు మొదలైనవి కూడా ఉంటుందని సూచిస్తుంది. ఇది ఫోన్మేస్ క్రమం యొక్క వైవిధ్యాలను గుర్తించడానికి మిమ్మల్ని అనుమతిస్తుంది, ఆపై, ఉచ్చారణ, పదనిర్మాణం మరియు అర్థశాస్త్రం, మీరు చెప్పగలిగే పదాల వైవిధ్యాల గురించి ప్రోగ్రామ్కు అందుబాటులో ఉన్న డేటా ఆధారంగా.
ప్రోగ్రామ్ పదాలను వాటి అర్థం ప్రకారం పునరుద్ధరించగలదు. మీరు ధ్వనించే ప్రదేశంలో ఉంటే, స్పష్టంగా మాట్లాడకండి లేదా అస్పష్టమైన పదాలను ఉపయోగించకండి, సందర్భం మరియు గణాంకాల ఆధారంగా ఆమె మీ అభ్యర్థనను పూర్తి చేస్తుంది. ఉదాహరణకు, ప్రోగ్రామ్లో "అమ్మ కడిగింది..." అనే పదబంధాన్ని "అమ్మ గాయం కడిగింది" అని కాకుండా "అమ్మ ఫ్రేమ్ కడిగింది" అనే పదబంధాన్ని కొనసాగించే అవకాశం ఉంది. విభిన్న డేటాపై మెషిన్ లెర్నింగ్కు ధన్యవాదాలు, మా ప్రోగ్రామ్ శబ్దానికి నిరోధకతను కలిగి ఉంది, ఉచ్చారణ ప్రసంగాన్ని బాగా గుర్తిస్తుంది మరియు స్పీకర్ యొక్క లింగం మరియు వయస్సుతో సంబంధం లేకుండా గుర్తింపు నాణ్యత ఆచరణాత్మకంగా స్వతంత్రంగా ఉంటుంది.
ప్రస్తుతం, మా స్పీచ్ రికగ్నిషన్ టెక్నాలజీ నావిగేటర్ మరియు మొబైల్ మ్యాప్స్లోని 94% పదాలను మరియు మొబైల్ బ్రౌజర్లోని 84% పదాలను సరిగ్గా గుర్తిస్తుంది. ఈ సందర్భంలో, గుర్తింపు ఒక సెకను పడుతుంది. ఇది ఇప్పటికే చాలా విలువైన ఫలితం, మరియు మేము దీన్ని మెరుగుపరచడానికి చురుకుగా పని చేస్తున్నాము. కొన్ని సంవత్సరాలలో వాయిస్ ఇన్పుట్ ఇంటర్ఫేస్ క్లాసిక్ మెథడ్ల వలె మెరుగ్గా ఉంటుందని మేము నమ్ముతున్నాము.
సాధారణ నిర్వచనాలుసాంకేతికతతో పాటుగా, మేము YaC 2013లో స్పీచ్ రికగ్నిషన్ కోసం పబ్లిక్ APIని అందించాము - స్పీచ్కిట్. దాని సహాయంతో, డెవలపర్లు Android మరియు iOS కోసం వారి అనువర్తనాలకు Yandex వాయిస్ శోధనను జోడించవచ్చు. మీరు స్పీచ్కిట్ని డౌన్లోడ్ చేసుకోవచ్చు మరియు డాక్యుమెంటేషన్ను కూడా చదవవచ్చు.
","contentType":"text/html"),"authorId":"5105614","slug":"72171","Edit":false,"canComment":false,"isBanned":false,"Publish" :false,"viewType":"old","isDraft":false,"isSubscriber":false,"commentsCount":13,"modificationDate":"Fri Nov 22 2013 16:24:00 GMT+0000 (UTC)" ,"showPreview":true,"approvedPreview":("source":"ఈరోజు, చాలా మంది వ్యక్తులు ప్రయాణంలో - వారి ఫోన్ల నుండి రోజువారీ సమస్యలను పరిష్కరిస్తారు. మీరు మీ ఇమెయిల్ను తనిఖీ చేయడానికి, పత్రాలు మరియు ఫోటోలను పంపడానికి, సమీపంలోని ATMని కనుగొనడానికి దీన్ని ఉపయోగించవచ్చు. లేదా అటువంటి పనులన్నింటికీ కారు మార్గాన్ని నిర్మించడం కాదు, ఇది కీబోర్డ్ను ఉపయోగించడం సౌకర్యంగా ఉంటుంది, కాబట్టి ఇప్పుడు మొబైల్ డెవలప్మెంట్ యొక్క అత్యంత సంబంధిత రంగాలలో ఒకటి వాయిస్ నియంత్రణ.","html":"ఈరోజు చాలా మంది ప్రయాణంలో రోజువారీ పనులను పరిష్కరించుకుంటారు. - మీరు ఇమెయిల్ను తనిఖీ చేయడానికి, పత్రాలు మరియు ఫోటోలను పంపడానికి, సమీపంలోని ATMని కనుగొనడానికి లేదా అటువంటి అన్ని పనుల కోసం ఒక కీబోర్డ్ను ఉపయోగించడం సౌకర్యంగా ఉండదు మొబైల్ డెవలప్మెంట్ అనేది వాయిస్ కంట్రోల్.","contentType":"text/html"),"proposedPreview" :("source":"ఈరోజు, చాలా మంది వ్యక్తులు ప్రయాణంలో - వారి ఫోన్ల నుండి రోజువారీ సమస్యలను పరిష్కరిస్తారు. దానితో, మీరు మీ ఇమెయిల్ను తనిఖీ చేయవచ్చు, పత్రాలు మరియు ఫోటోలను పంపవచ్చు, సమీపంలోని ATMని కనుగొనవచ్చు లేదా డ్రైవింగ్ మార్గాన్ని రూపొందించవచ్చు. అటువంటి పనులన్నింటికీ కీబోర్డ్ను ఉపయోగించడం సౌకర్యంగా ఉండదు, కాబట్టి ఇప్పుడు మొబైల్ డెవలప్మెంట్ యొక్క అత్యంత సంబంధిత రంగాలలో ఒకటి వాయిస్ నియంత్రణ.","html":"ఈరోజు, చాలా మంది వ్యక్తులు ప్రయాణంలో రోజువారీ పనులను - వారి ఫోన్ నుండి పరిష్కరించుకుంటారు. దానితో, మీరు మీ ఇమెయిల్ను తనిఖీ చేయవచ్చు, పత్రాలు మరియు ఫోటోలను పంపవచ్చు, సమీపంలోని ATMని కనుగొనవచ్చు లేదా డ్రైవింగ్ మార్గాన్ని రూపొందించవచ్చు. అటువంటి పనులన్నింటికీ కీబోర్డును ఉపయోగించడం సౌకర్యంగా ఉండదు, కాబట్టి ఇప్పుడు మొబైల్ డెవలప్మెంట్ యొక్క అత్యంత సంబంధిత రంగాలలో ఒకటి వాయిస్ నియంత్రణ.","contentType":"text/html"),"titleImage":null,"tags" :[("displayName ":"Yandex technologies","slug":"tekhnologii-yandeksa","categoryId":"150002777","url":"/blog/company??tag=tekhnologii-yandeksa"),( "displayName":" ఇది ఎలా పని చేస్తుంది?","స్లగ్":"kak-eto-rabotaet","categoryId":"150006149","url":"/blog/company??tag=kak-eto-rabotaet ")],"isModerator ":false,"commentsEnabled":true,"url":"/blog/company/72171","urlTemplate":"/blog/company/%slug%","fullBlogUrl":"https ://yandex.ru /blog/company","addCommentUrl":"/blog/createComment/company/72171","updateCommentUrl":"/blog/updateComment/company/72171","addCommentWithCaptcha/" createWithCaptcha/company/72171" ,"changeCaptchaUrl":"/blog/api/captcha/new","putImageUrl":"/blog/image/put","urlBlog":"/blog/company","urlEditPost": "/blog/562886797eba6ef16f805641/ సవరించు","urlSlug":"/blog/post/generateSlug","urlPublishPost":"/blog/562886797eba6ef16f805641,"publish"publish 86797eba6ef16f805641/అన్పబ్లిష్","urlRemovePost ":"/blog/ 562886797eba6ef16f805641/removePost","urlDraft":"/blog/company/72171/draft","urlDraftTemplate":"/blog/company/%slug%/draft"/Dblog"/draft"," /562886797eba6ef16f805641/తీసివేయబడిన తెప్ప", "urlTagSuggest":"/blog/api/suggest/company","urlAfterDelete":"/blog/company","isAuthor":false,"subscribe/subscribeUrblog/subscribeUrl /562886797eba6ef16f805641","unsubscribeUrl" :"/blog/api/unsubscribe/562886797eba6ef16f805641","urlEditPostPage":"/blog/company,8608 urlForTranslate":"/బ్లాగ్/పోస్ట్/అనువాదం","urlRelateIssue" :"/blog/post/ updateIssue","urlUpdateTranslate":"/blog/post/updateTranslate","urlLoadTranslate":"/blog/post/loadTranslate","urlTranslationStatus":"/blog/company1/721In"/721 ,"urlRelatedArticles":"/ blog/api/relatedArticles/company/72171","author":("id":"5105614","uid":("value":"5105614","lite":false, "హోస్ట్ చేయబడింది":తప్పు), "అలియాసెస్":("13":"కడనర్"),"లాగిన్":"మినుషుమన్","డిస్ప్లే_పేరు":("పేరు":"అలెక్సీ","అవతార్":("డిఫాల్ట్" :"21377/5105614-16014116 ","ఖాళీ":తప్పు)),"చిరునామా":" [ఇమెయిల్ రక్షించబడింది]","defaultAvatar":"21377/5105614-16014116","imageSrc":"https://avatars.mds.yandex.net/get-yapic/21377/5105614-16014116/ద్వీపాలు,"మధ్య" నిజం),"originalModificationDate":"2013-11-22T12:24:47.000Z","socialImage":("orig":("fullPath":"https://avatars.mds.yandex.net/get-yablogs /49865/file_1465551301378/orig"))))">
ఇది ఎలా పని చేస్తుంది? ప్రసంగ గుర్తింపు
YaC 2013
వాయిస్ నియంత్రణ అనేది స్పీచ్ రికగ్నిషన్ టెక్నాలజీపై ఆధారపడి ఉంటుంది. ఇది వివిధ రంగాలలో సాధించిన విజయాలను కలిగి ఉంటుంది: గణన భాషాశాస్త్రం నుండి డిజిటల్ సిగ్నల్ ప్రాసెసింగ్ వరకు. అక్టోబర్ ప్రారంభంలో జరిగిన ఒక సమావేశంలో, Yandex దాని ప్రసంగ గుర్తింపు సాంకేతికతను అందించింది మరియు ఈ రోజు మనం అది ఎలా పని చేస్తుందనే దాని గురించి మాట్లాడాలనుకుంటున్నాము.
Yandex నుండి స్పీచ్ రికగ్నిషన్ టెక్నాలజీ Yandex స్పీచ్ కిట్ ఎలా పనిచేస్తుంది |
మీరు వాయిస్ శోధనకు "లెవ్ టాల్స్టాయ్" అని చెబితే, స్మార్ట్ఫోన్ మొదటి మరియు చివరి పేరును వినదు, రెండు పదాలు కాదు, కానీ స్పష్టమైన సరిహద్దులు లేకుండా శబ్దాలు సజావుగా ఒకదానికొకటి ప్రవహించే సౌండ్ సిగ్నల్. స్పీచ్ రికగ్నిషన్ సిస్టమ్ యొక్క పని ఏమిటంటే ఈ సిగ్నల్ నుండి చెప్పబడిన వాటిని పునర్నిర్మించడం. వేర్వేరు పరిస్థితులలో వేర్వేరు వ్యక్తులు పలికిన ఒకే పదబంధం పూర్తిగా భిన్నమైన సంకేతాలను ఇస్తుంది అనే వాస్తవంతో పరిస్థితి క్లిష్టంగా ఉంటుంది. శబ్ద మోడలింగ్ వ్యవస్థ వాటిని సరిగ్గా అర్థం చేసుకోవడానికి సహాయపడుతుంది.
మీరు వాయిస్ అభ్యర్థనను చేసినప్పుడు, ఉదాహరణకు, Yandex.Navigator లో, స్మార్ట్ఫోన్ దానిని రికార్డ్ చేస్తుంది మరియు Yandex సర్వర్కు పంపుతుంది. సర్వర్లో, రికార్డింగ్ 25 మిల్లీసెకన్ల పొడవు, అతివ్యాప్తి, 10 మిల్లీసెకన్ల దశతో అనేక చిన్న శకలాలు (ఫ్రేమ్లు)గా విభజించబడింది. అంటే, మీ ప్రసంగంలో ఒక సెకను వంద ఫ్రేమ్లుగా మారుతుంది.
అప్పుడు వాటిలో ప్రతి ఒక్కటి అకౌస్టిక్ మోడల్ ద్వారా పంపబడుతుంది - మీరు చేసిన శబ్దాలను నిర్ణయించే ఫంక్షన్. ఈ డేటా ఆధారంగా, యంత్ర అభ్యాస పద్ధతులను ఉపయోగించి శిక్షణ పొందిన సిస్టమ్, శోధన ఫలితాల్లో మీరు చూసే పదాల వైవిధ్యాలను నిర్ణయిస్తుంది. మొబైల్ బ్రౌజర్, "లియో టాల్స్టాయ్" అభ్యర్థనకు ప్రతిస్పందనగా, గొప్ప రచయిత గురించి సైట్లను కనుగొంటుంది మరియు నావిగేటర్ మరియు మ్యాప్స్ లియో టాల్స్టాయ్ స్ట్రీట్ను అందిస్తాయి.
సిస్టమ్ మాట్లాడే శబ్దాలను ఎంత బాగా గుర్తిస్తుందనే దానిపై ఫలితాల ఖచ్చితత్వం నేరుగా ఆధారపడి ఉంటుంది. దీన్ని చేయడానికి, అది పనిచేసే ఫొనెటిక్ వర్ణమాల తగినంత ఖచ్చితమైనది మరియు పూర్తిగా ఉండాలి.
హబ్రహబ్ర్
రష్యన్ భాషలో, వివిధ సిద్ధాంతాల ప్రకారం, సుమారు 40 ఫోనెమ్స్ (ధ్వని యూనిట్లు) ఉన్నాయి. మా స్పీచ్ రికగ్నిషన్ సిస్టమ్ ఇన్కమింగ్ స్పీచ్ సిగ్నల్తో ఫోన్మేస్తో సరిపోలుతుంది, ఆపై వాటి నుండి పదాలను సమీకరిస్తుంది. ఉదాహరణకు, "Yandex" అనే పదం ఏడు ఫోన్మేలను కలిగి ఉంటుంది - [th][a][n][d][e][k][s]. ఫోన్మేలు వేర్వేరు వ్యవధులను కలిగి ఉండవచ్చు మరియు ఫ్రేమ్ ద్వారా విభజించబడినప్పుడు, “Yandex” పదం ఇలా కనిపిస్తుంది, ఉదాహరణకు, ఇలా - [th][th][a][a][a][a][a][a ][a][a][a][a][n][n][d][d][e][k][s]. ఏదైనా ఫోనెమ్ యొక్క ఉచ్చారణ దాని పొరుగువారిపై మరియు పదంలోని స్థానంపై ఆధారపడి ఉంటుంది. అంటే, ఒక పదం ప్రారంభంలో, మధ్యలో మరియు చివరిలో ఉన్న ధ్వని [a] మూడు వేర్వేరుగా ఉంటుంది [a] మరియు “ఆడియో రికార్డింగ్లో” కలయికలో రెండు అచ్చుల మధ్య ధ్వని [a] భిన్నంగా ఉంటుంది. "బాక్" అనే పదంలోని హల్లుల మధ్య ఉన్న [a]. అందువల్ల, మంచి గుర్తింపు కోసం ఫోనెమ్ చాలా ముతక యూనిట్.
ఫోనెమ్ యొక్క ఉచ్చారణను మరింత ఖచ్చితంగా రూపొందించడానికి, మేము మొదట ప్రతి ఫోన్మేని మూడు భాగాలుగా విభజిస్తాము: సంప్రదాయ ప్రారంభం, మధ్య మరియు ముగింపు. రెండవది, మేము మా స్వంత ఫొనెటిక్ ఆల్ఫాబెట్ను అభివృద్ధి చేసాము, ఇది ఫోన్మేస్ యొక్క స్థానం మరియు సందర్భాన్ని పరిగణనలోకి తీసుకుంటుంది. సందర్భ-ఆధారిత ఫోనెమ్ల యొక్క సాధ్యమైన అన్ని రూపాంతరాలను పరిగణనలోకి తీసుకోవడం అవివేకం, ఎందుకంటే వాటిలో చాలా వరకు నిజ జీవితంలో జరగవు. అందువల్ల, ఒకే విధమైన శబ్దాలను కలిసి పరిగణించమని మేము మా ప్రోగ్రామ్కు నేర్పించాము. ఫలితంగా, మేము 4000 ప్రాథమిక యూనిట్ల సమితిని అందుకున్నాము - సెనోన్స్. ఇది మా స్పీచ్ రికగ్నిషన్ టెక్నాలజీ పనిచేసే Yandex ఫొనెటిక్ ఆల్ఫాబెట్.
Yandex నుండి స్పీచ్-రికగ్నిషన్-టెక్నాలజీ-Yandex-SpeechKit
ఆదర్శవంతమైన ప్రపంచంలో, వాయిస్ అభ్యర్థనలోని ప్రతి భాగానికి ఏ ఫోన్మే సరిపోతుందో ప్రోగ్రామ్ ఖచ్చితంగా నిర్ధారిస్తుంది. కానీ ఒక వ్యక్తి కూడా కొన్నిసార్లు అన్ని శబ్దాలను అర్థం చేసుకోకపోవచ్చు లేదా వినకపోవచ్చు మరియు సందర్భం ఆధారంగా పదాన్ని పూర్తి చేస్తాడు. మరియు ఒక వ్యక్తి తన స్వంత ప్రసంగ అనుభవంపై ఆధారపడినట్లయితే, మా సిస్టమ్ సంభావ్యతతో పనిచేస్తుంది.
ముందుగా, వాయిస్ అభ్యర్థన (ఫ్రేమ్) యొక్క ప్రతి భాగాన్ని ఒక ఫోన్మేతో కాకుండా, అనేక స్థాయిల సంభావ్యతతో సరిపోల్చవచ్చు. రెండవది, పరివర్తన సంభావ్యత యొక్క పట్టిక ఉంది, ఇది “a” తర్వాత ఒక సంభావ్యతతో “a”, మరొక దానితో “b” మరియు మొదలైనవి కూడా ఉంటుందని సూచిస్తుంది. ఇది ఫోన్మేస్ క్రమం యొక్క వైవిధ్యాలను గుర్తించడానికి మిమ్మల్ని అనుమతిస్తుంది, ఆపై, ఉచ్చారణ, పదనిర్మాణం మరియు అర్థశాస్త్రం, మీరు చెప్పగలిగే పదాల వైవిధ్యాల గురించి ప్రోగ్రామ్కు అందుబాటులో ఉన్న డేటా ఆధారంగా.
ప్రోగ్రామ్ పదాలను వాటి అర్థం ప్రకారం పునరుద్ధరించగలదు. మీరు ధ్వనించే ప్రదేశంలో ఉంటే, స్పష్టంగా మాట్లాడకండి లేదా అస్పష్టమైన పదాలను ఉపయోగించకండి, సందర్భం మరియు గణాంకాల ఆధారంగా ఆమె మీ అభ్యర్థనను పూర్తి చేస్తుంది. ఉదాహరణకు, ప్రోగ్రామ్లో "అమ్మ కడిగింది..." అనే పదబంధాన్ని "అమ్మ గాయం కడిగింది" అని కాకుండా "అమ్మ ఫ్రేమ్ కడిగింది" అనే పదబంధాన్ని కొనసాగించే అవకాశం ఉంది. విభిన్న డేటాపై మెషిన్ లెర్నింగ్కు ధన్యవాదాలు, మా ప్రోగ్రామ్ శబ్దానికి నిరోధకతను కలిగి ఉంది, ఉచ్చారణ ప్రసంగాన్ని బాగా గుర్తిస్తుంది మరియు స్పీకర్ యొక్క లింగం మరియు వయస్సుతో సంబంధం లేకుండా గుర్తింపు నాణ్యత ఆచరణాత్మకంగా స్వతంత్రంగా ఉంటుంది.
ప్రస్తుతం, మా స్పీచ్ రికగ్నిషన్ టెక్నాలజీ నావిగేటర్ మరియు మొబైల్ మ్యాప్స్లోని 94% పదాలను మరియు మొబైల్ బ్రౌజర్లోని 84% పదాలను సరిగ్గా గుర్తిస్తుంది. ఈ సందర్భంలో, గుర్తింపు ఒక సెకను పడుతుంది. ఇది ఇప్పటికే చాలా విలువైన ఫలితం, మరియు మేము దీన్ని మెరుగుపరచడానికి చురుకుగా పని చేస్తున్నాము. కొన్ని సంవత్సరాలలో వాయిస్ ఇన్పుట్ ఇంటర్ఫేస్ క్లాసిక్ మెథడ్ల వలె మెరుగ్గా ఉంటుందని మేము నమ్ముతున్నాము.
సాధారణ నిర్వచనాలుసాంకేతికతతో పాటుగా, మేము YaC 2013లో స్పీచ్ రికగ్నిషన్ కోసం పబ్లిక్ APIని అందించాము - స్పీచ్కిట్. దాని సహాయంతో, డెవలపర్లు Android మరియు iOS కోసం వారి అనువర్తనాలకు Yandex వాయిస్ శోధనను జోడించవచ్చు. మీరు స్పీచ్కిట్ని డౌన్లోడ్ చేసుకోవచ్చు మరియు డాక్యుమెంటేషన్ను కూడా చదవవచ్చు.
శాస్త్రవేత్తలు ఈ సమస్యను సుమారు 70 సంవత్సరాలుగా అధ్యయనం చేస్తున్నారు, 80 ల రెండవ భాగంలో జపాన్లో మొదటి పారిశ్రామిక వ్యవస్థ సృష్టించబడింది, దీనిని PC (డిక్టోగ్రాఫ్లు) లో వచనాన్ని నిర్దేశించే వ్యవస్థ అని పిలుస్తారు, ఈ వ్యవస్థకు ఇరుకైన స్పెషలైజేషన్ ఉంది.
PC స్పీచ్ రికగ్నిషన్ ద్వారా మేము అలాంటి గుర్తింపును అర్థం చేసుకున్నాము, ఇది ఒక వ్యక్తి యొక్క ప్రసంగం యొక్క అవగాహనలో, ఏ పరిస్థితుల్లోనైనా మరియు ఏ వ్యక్తితోనైనా కమ్యూనికేట్ చేసేటప్పుడు వివరించబడుతుంది.
సమస్య పరిష్కారం దీని ద్వారా అడ్డుకుంటుంది:
1) ప్రసంగ సంకేతాలను ప్రాసెస్ చేసేటప్పుడు నాడీ వ్యవస్థ ద్వారా నిర్వహించబడే పరివర్తనల యొక్క మొత్తం సంక్లిష్టతను వివరించే స్పష్టమైన సైద్ధాంతిక ఆలోచనలు లేకపోవడం;
2) అనర్గళమైన ప్రసంగం కలిగి ఉండటం:
3) అస్పష్టమైన పద సరిహద్దులు:
4) పొరుగు శబ్దాల ప్రభావం ఒకదానిపై ఒకటి;
5) అస్పష్టమైన ఉచ్చారణ మరియు ఫంక్షనల్ పదాల అదృశ్యం;
7) మౌఖిక సంభాషణ ప్రక్రియలో చాలా ముఖ్యమైనవి పరభాషా కమ్యూనికేషన్ మార్గాలు:
a) కైనెసిక్స్ (ముఖ కవళికలు, సంజ్ఞలు);
సి) ప్రాక్సెమిక్స్ (ప్రజల మధ్య దూరం).
కాబట్టి, ఈ రోజు ARR కొన్ని పరిమితుల క్రింద మాత్రమే నిర్వహించబడుతుంది:
1) ఒంటరిగా మాట్లాడే పదాలను గుర్తించడం;
3) చిన్న, ముందే నిర్వచించిన నిఘంటువు ఆధారంగా గుర్తింపు.
ViaVoice (నిమిషానికి 140 పదాలు)తో ఈ రకమైన ఉత్పత్తిలో IBM అగ్రగామిగా ఉంది. ఒక ప్రసిద్ధ డిక్టేషన్ సిస్టమ్ డ్రాగన్సిస్టమ్.
గుర్తింపు అల్గోరిథం:
1. స్పోకెన్ స్పీచ్ ఇన్పుట్, డేటా ప్రాసెసింగ్ (నాయిస్ రిమూవల్);
2. సౌండ్ స్ట్రీమ్ను విభాగాలుగా విభజించడం;
3. కనీస ధ్వని యూనిట్ యొక్క ప్రతి విభాగంలో ఐసోలేషన్ - పదం;
4. ప్రమాణాలతో ఎంచుకున్న యూనిట్ల పోలిక.
పారిశ్రామిక ప్రసంగ గుర్తింపు వ్యవస్థలు సాంప్రదాయకంగా 4 సమూహాలుగా విభజించబడ్డాయి:
1. వాయిస్ నియంత్రణ సాధనాలు (PC, టెలిఫోన్);
2. టెక్స్ట్ డిక్టేషన్ సాధనాలు;
3. సమాధానమిచ్చే యంత్రం వలె ఇంటరాక్టివ్ మోడ్లో సమాచారం మరియు సూచన వ్యవస్థలు;
4. ప్రసంగ నమూనా ఆధారంగా వ్యక్తిని గుర్తించే సాధనాలు.
ప్రశ్న 27.
స్వయంచాలక ప్రసంగ సంశ్లేషణ వ్యవస్థలు
పద్ధతులు:
1) కోడింగ్ (బైనరీ సిస్టమ్లో స్పీచ్ సిగ్నల్లను వాటి తదుపరి పునరుద్ధరణతో రికార్డ్ చేయడం)
a) ముఖ్యంగా, ఇక్కడ PC పదాలు మరియు పదబంధాలను రికార్డ్ చేయడానికి ఒక పరికరంగా పనిచేస్తుంది మరియు ఆదేశాలను ఉపయోగించి సరైన సమయంలో పునరుత్పత్తి చేయబడుతుంది);
బి) ప్రతికూలత:
మెమరీలోకి ప్రవేశించని పదబంధాన్ని చెప్పడం అసాధ్యం;
ప్రత్యక్ష రూపంలో ప్రసంగ సంకేతాలను నిల్వ చేయడానికి పెద్ద మొత్తంలో మెమరీ అవసరం;
సి) ప్రయోజనాలు:
ప్రసంగం యొక్క సహజ ధ్వని;
ప్రసంగ నాణ్యత మానవ ప్రసంగాన్ని చేరుకుంటుంది;
2) ఫొనెటిక్ స్పీచ్ సింథసిస్ (మానవ స్వర వాహిక యొక్క శబ్ద నమూనా)
ఎ) ఈ పద్ధతిని ఉపయోగించే సింథసైజర్ మొదటి పద్ధతిని ఉపయోగించి సింథసైజర్ నుండి ప్రాథమికంగా భిన్నంగా ఉంటుంది - ఇది అసహజ ధ్వనిని కలిగి ఉంటుంది, రోబోట్ వాయిస్తో మాట్లాడుతుంది;
బి) సాధారణంగా ఒక వ్యక్తి వ్రాసిన ఆర్థోగ్రాఫిక్ వచనాన్ని ఉపయోగించి నిర్వహిస్తారు, దానిలోని PC అక్షరాలను ఫోన్మేస్గా, ఫోనెమ్లను అలోఫోన్లుగా మార్చగలదు మరియు స్పీకర్ యొక్క అలోఫోన్లు, ఎంచుకోదగినవి మరియు డేటాబేస్ ఉపయోగించి నిరంతర ప్రసంగ సిగ్నల్ను సంశ్లేషణ చేయగలదు;
సి) చాలా ఆశాజనకంగా ఉంది, ఎందుకంటే ప్రసంగం వాస్తవానికి PC ద్వారానే రూపొందించబడింది.
ఎ) ఈ రకమైన సింథసైజర్లోని నిఘంటువు, మొదటి పద్ధతిలో వలె, ఒక వ్యక్తి భాగస్వామ్యంతో సృష్టించబడింది, కానీ ఇక్కడ ఇది మెమరీలో వ్రాయబడిన పదాలు మరియు పదబంధాలు కాదు, కానీ ప్రసంగ శబ్దాల సంఖ్యా లక్షణాలు మరియు శబ్దాలు పదబంధాలు వేరుచేయబడ్డాయి, ఇది అవసరమైన మెమరీని తగ్గించడం సాధ్యం చేస్తుంది.
బి) స్పీచ్ సహజమైనది, దానిని రూపొందించడానికి, సంఖ్యా లక్షణాలు ప్రత్యేక ఆదేశాలను ఉపయోగించి ధ్వని సంకేతాలుగా మార్చబడతాయి.
ప్రస్తుతం, సంశ్లేషణ చేయబడిన ప్రసంగం సజీవంగా, భావోద్వేగంగా మరియు సహజంగా ఉండేలా అభివృద్ధి జరుగుతోంది. ఈ సమస్యను పరిష్కరించడం వలన ఏకకాల అనువాద వ్యవస్థలను సృష్టించడం, భాషా అభ్యాసంలో PCలను మరింత చురుకుగా ఉపయోగించడం మరియు దృష్టి లోపం ఉన్న వ్యక్తుల కోసం కూడా సాధ్యమవుతుంది.
ప్రశ్న 28.
డేటాబేస్లు (DB) మరియు భాషా సమాచార వనరులు (LIR)
DB- ఒక నిర్దిష్ట మార్గంలో ఆర్డర్ చేయబడిన కొన్ని వస్తువుల గురించి సమాచార సమితి.
వస్తువులు- ఇది సమాచారం, వాస్తవాలు, సంఘటనలు, ప్రక్రియలు. ఒక వస్తువు పదార్థం (విద్యార్థి, ఉత్పత్తి, కారు) మరియు కనిపించని (ఈవెంట్ - సర్కస్కు వెళ్లడం, ప్రక్రియ - టెక్స్ట్ అనువాదం, వాస్తవం - విశ్వవిద్యాలయంలో ప్రవేశం) కావచ్చు. జీవితంలో, ప్రతి వస్తువుకు కొన్ని లక్షణాలు లేదా గుణాలు (బరువు, వేగం, రంగు) ఉన్నాయి, వాటికి కొన్ని విలువలు కేటాయించబడతాయి: రొట్టె బరువు 400 గ్రాములు, కారు వేగం గంటకు 90 కిమీ.
డేటాబేస్లో, గుణాలు డేటా మూలకాలు లేదా కేవలం డేటా ద్వారా సూచించబడతాయి మరియు వాటి విలువలు డేటా విలువలు.
అందువలన, ఇచ్చారు- ఇది ఇచ్చిన వస్తువును వర్ణించే కొన్ని సూచిక మరియు వస్తువు యొక్క నిర్దిష్ట మూలకం కోసం నిర్దిష్ట విలువను తీసుకుంటుంది. ఒక వరుసను రూపొందించే డేటా సమూహాన్ని రికార్డ్ అంటారు. అనేక రికార్డులు ఒకే రకమైన సమాచారంతో ఒకే రకమైన డేటాను కలిగి ఉంటే, ఈ రికార్డులు ఒకే ఆకృతిని కలిగి ఉంటాయి. ఒకే ఫార్మాట్తో ఉన్న అనేక రికార్డులను ఫైల్ అంటారు. మరియు అనేక ఫైల్లు డేటాబేస్ను ఏర్పరుస్తాయి.
డేటాబేస్ యొక్క ప్రాథమిక విధులు
1) డేటాబేస్లో సమాచారం కోసం శోధించడం
ఎ) అదనంగా;
బి) తొలగింపు
సి) సవరణ
డేటాబేస్ మేనేజ్మెంట్ సిస్టమ్స్ (DBMS)
DBMS- డేటాబేస్ యొక్క సృష్టి మరియు నిర్వహణను అనుమతించే సాఫ్ట్వేర్ సాధనాల సమితి.
DBMS రకాలు:
1. డెస్క్టాప్ DBMSలు సంక్లిష్టత స్థాయిని బట్టి విభజించబడ్డాయి:
ఎ) చిన్న మొత్తంలో సమాచారాన్ని ప్రాసెస్ చేయడానికి DBMS (MS అవుట్లుక్)
బి) DBMS ఎలా ప్రోగ్రామ్ చేయాలో తెలియని వినియోగదారులను లక్ష్యంగా చేసుకుంది (EXCEL, LOTUS)
సి) అప్లికేషన్ డెవలప్మెంట్పై దృష్టి కేంద్రీకరించిన కాంప్లెక్స్ DBMSలు (ఫాక్స్ బేస్, MS యాక్సెస్)
2. సర్వర్ DBMS - "క్లయింట్-సర్వర్" నిర్మాణాన్ని ఉపయోగించండి, అనగా. డేటా యొక్క కేంద్రీకృత నిల్వ మరియు ప్రాసెసింగ్ (ఇన్ఫార్మిక్స్, MS SQL సర్వర్) నిర్వహించండి.
DBMS యొక్క ప్రాథమిక విధులు
1) డేటాబేస్ నిర్మాణం యొక్క సృష్టిని నిర్ధారించుకోండి (ఏ సమాచారం నిల్వ చేయబడుతుందో, ఏ లక్షణాలు, డేటా రకాలను నిర్ణయించండి)
2) డేటాబేస్లో ఉన్న సమాచారం యొక్క మార్పు:
ఎ) అదనంగా;
బి) తొలగింపు
సి) సవరణ
3) సమాచారం కోసం శోధించండి
ప్రశ్న 29.
LIR -
చురుకుగా రూపాలు
అత్యంత సాధారణ పరంగా LIR
నిష్క్రియ భాషా సమాచార వనరులు:
1) వ్రాతపూర్వక నిఘంటువు ఏకభాష మరియు బహుభాషా నిఘంటువులచే సూచించబడుతుంది. సాధారణ అర్థంలో నిఘంటువు - ఇది ఒక నిర్దిష్ట క్రమంలో (వివిధ రకాల నిఘంటువులలో వేర్వేరుగా) అమర్చబడిన పదాలను (మార్ఫిమ్లు, పదబంధాలు, ఇడియమ్స్ మొదలైనవి) కలిగి ఉన్న సూచన పుస్తకం. ఇది వివరించిన యూనిట్ల అర్థం, అలాగే వివిధ సమాచారాన్ని కలిగి ఉండవచ్చు ఓవాటిని. ఏదైనా నిఘంటువు రిలేషనల్ డేటాబేస్గా సూచించబడుతుంది
ఎ) పద రూపాల ఫ్రీక్వెన్సీ-ఆల్ఫాబెటిక్ నిఘంటువుఏదైనా టెక్స్ట్ - సరళమైన భాషా డేటాబేస్;
బి) పద సూచిక – మరింత క్లిష్టమైన డేటాబేస్. అందులో, టెక్స్ట్లో పద రూపం యొక్క ఉపయోగం యొక్క సంపూర్ణ ఫ్రీక్వెన్సీతో పాటు, ఈ పద రూపం కనుగొనబడిన పేజీలోని పేజీలు మరియు పంక్తుల సంఖ్యలు సూచించబడతాయి.
V) సమన్వయాలు – మరింత క్లిష్టమైన డేటాబేస్ రకం . వాటిలో, టెక్స్ట్ యొక్క ప్రతి పద రూపం సంఖ్యా సూచికల (ఫ్రీక్వెన్సీ, పేజీ సంఖ్య, లైన్ నంబర్ మొదలైనవి) మాత్రమే కాకుండా, కొన్ని సందర్భం ద్వారా కూడా వర్గీకరించబడుతుంది. , దీనిలో ఇది ఉపయోగించబడుతుంది. నియమం ప్రకారం, ఈ సందర్భం 3 వాక్యాలను కలిగి ఉంటుంది: పద రూపం సంభవించే వాక్యం, ప్రధాన వాక్యానికి ముందు వాక్యం మరియు దాని తర్వాత వాక్యం.
జి) ఎన్సైక్లోపీడియాస్ – డిక్షనరీలు పదం యొక్క లక్షణాలను కలిగి ఉండవు, కానీ అది సూచించిన వస్తువు, వాస్తవం లేదా దృగ్విషయం. కంప్యూటర్ స్టోరేజ్ మీడియాలో చాలా పెద్ద సంఖ్యలో వివిధ ఎన్సైక్లోపీడియాలు ఉన్నాయి. వాటిలో అత్యంత ప్రసిద్ధమైనది ఎన్సైక్లోపీడియా "బ్రిటానికా". ఇందులో 1768 నుండి ప్రచురించబడిన 82,000 వ్యాసాలు మరియు 700 అదనపు మెటీరియల్లు ఉన్నాయి. ఫ్రెంచ్ ఎన్సైక్లోపీడియాస్ “టన్స్ లెస్ సవోయిర్ డు మోండే”, “లే మోండే సుర్ CD-ROM”, “వెర్సైల్లెస్” మొదలైనవి తక్కువ ప్రసిద్ధమైనవి. “గ్రేట్ ఎన్సైక్లోపీడియా ఆఫ్ సిరిల్ అండ్ మెథోడియస్” రష్యన్ భాషలో ప్రచురించబడింది.
d) థెసారస్- ప్రాథమికంగా భిన్నమైన నిఘంటువు. ఇది దాని లెక్సికల్ యూనిట్లలో కొంత భాగం మధ్య అర్థసంబంధమైన కనెక్షన్లను స్పష్టంగా సూచిస్తుంది. నియమం ప్రకారం, ఇటువంటి నిఘంటువులు చాలా ఇరుకైన సమస్య ప్రాంతంలో పాఠాల కోసం నిర్మించబడ్డాయి: కంప్యూటర్ టెక్నాలజీ, సంగీతం, నౌకానిర్మాణం, వ్యవసాయం మొదలైనవి.
ఇ) పరిభాష నిఘంటువు(TS) - ఒక నిఘంటువు, దీని ప్రధాన యూనిట్ పదం .
పదం
- ఇది ఒక ప్రత్యేక అర్ధాన్ని కలిగి ఉన్న పదం లేదా అధీన పదబంధం, ఇది వృత్తిపరమైన భావనను వ్యక్తపరుస్తుంది మరియు ఏర్పరుస్తుంది మరియు శాస్త్రీయ మరియు వృత్తి-సాంకేతిక వస్తువులు మరియు వాటి మధ్య సంబంధాల యొక్క జ్ఞానం మరియు అభివృద్ధి ప్రక్రియలో ఉపయోగించబడుతుంది.
ప్రశ్న 30.
LIR - PCలో నిల్వ చేయబడిన డేటా సేకరణ.
భాషా సమాచార వనరులు- సమాచార వనరు యొక్క భాగాలలో ఒకటి కొంత మేధో వనరుగా, సామూహిక సృజనాత్మకత యొక్క ఫలితం
సమాచార వనరుల యొక్క నిష్క్రియ రూపాలలో పుస్తకాలు, మ్యాగజైన్లు, వార్తాపత్రికలు, నిఘంటువులు, ఎన్సైక్లోపీడియాలు, పేటెంట్లు, డేటాబేస్లు మరియు డేటా బ్యాంకులు మొదలైనవి ఉన్నాయి.
చురుకుగా రూపాలుఅల్గారిథమ్లు, మోడల్లు, ప్రోగ్రామ్లు, నాలెడ్జ్ బేస్లు ఉన్నాయి
అత్యంత సాధారణ పరంగా LIR- ఇది ఒక రకమైన భాషా డేటాబేస్, ఇది నవీకరించబడుతుంది మరియు దీనిలో మీరు ఈ లేదా ఆ సమాచారం కోసం శోధించవచ్చు. PC వినియోగదారులకు మరియు స్పీచ్ టెక్స్ట్ ప్రాసెసింగ్కు సంబంధించిన వివిధ కంప్యూటర్ సిస్టమ్లకు భాషా వనరులు అవసరం: టెక్స్ట్లను సంగ్రహించడం, ఉల్లేఖించడం మరియు అనువదించడం, ఆటోమేటిక్ టెక్స్ట్ విశ్లేషణ, ప్రసంగం మరియు వచన సంశ్లేషణ.
2) వ్రాసిన వచన శ్రేణి ( శరీర వచనం లో, అనగా. భాష, మాండలికం లేదా భాష యొక్క ఇతర ఉపసమితి గురించి నమ్మదగిన శాస్త్రీయ అనుమతులను అందించడానికి సరిపోయే గ్రంథాల భాగం).
a) ఉపయోగించవచ్చు:
లెక్సికోగ్రఫీ మరియు లెక్సికాలజీలో (వివిధ నిఘంటువులను కంపైల్ చేయడం, పాలీసెమాంటిక్ పదాల అర్థాలను నిర్ణయించడం, టెక్స్ట్లోని పదాల అనుబంధ కనెక్షన్లను గుర్తించడం, నిబంధనలు మరియు పదబంధాలను హైలైట్ చేయడం మొదలైనవి).
వ్యాకరణంలో (వివిధ రకాల పాఠాలలో వ్యాకరణ మార్ఫిమ్ల వాడకం యొక్క ఫ్రీక్వెన్సీని నిర్ణయించడానికి, సాధారణంగా ఉపయోగించే పదబంధాలు మరియు వాక్యాల రకాలను గుర్తించండి, పర్యాయపద పదనిర్మాణ యూనిట్ల అర్థాలను నిర్ణయించండి, పద తరగతుల వాడకం యొక్క ఫ్రీక్వెన్సీ మొదలైనవి).
టెక్స్ట్ భాషాశాస్త్రంలో (టెక్స్ట్ రకాలను వేరు చేయడానికి, సమన్వయాలను రూపొందించడానికి, పేరాల్లోని వాక్యాల మధ్య మరియు పేరాగ్రాఫ్ల మధ్య కనెక్షన్లను గుర్తించడం మొదలైనవి).
పాఠాలను స్వయంచాలకంగా అనువదిస్తున్నప్పుడు (అనేక అనువాద సమానమైన పదాల సందర్భాల కోసం శోధించడం, సమాంతర టెక్స్ట్లలో పరిభాష మరియు పదజాల పదబంధాల అనువాద సమానమైన వాటి కోసం శోధించడం మొదలైనవి).
విద్యా ప్రయోజనాల కోసం (కోట్లను ఎంచుకోవడానికి, రచనల యొక్క వ్యక్తిగత శకలాలు, పాఠ్యపుస్తకాలు మరియు బోధనా సహాయాలను రూపొందించే ప్రక్రియలో ఉపయోగించే ఉదాహరణలు.
బి) టెక్స్ట్ కార్పోరా ట్యాగ్ చేయబడింది(ఇంగ్లీష్ నుండి, ట్యాగ్ -"సూచిక, లిట్టర్"). అటువంటి కార్పస్లోని అన్ని పదాలు వాటి వ్యాకరణ, లెక్సికల్, సెమాంటిక్ లేదా స్ట్రక్చరల్ లక్షణాలను సూచించే కొన్ని అక్షరాలు లేదా సంఖ్యా సూచికలను అందుకుంటాయి. ఇటువంటి అనేక సూచికలు ఉండవచ్చు.
3) ఫొనెటిక్ భాషా వనరులు
మెషిన్-రీడబుల్ ఫోనెటిక్ కార్పోరాను రూపొందించడానికి, ట్రాన్స్క్రిప్షన్ ధ్వని ప్రసంగం యొక్క ఆర్థోగ్రాఫిక్ ప్రాతినిధ్యం ఆధారంగా (అవసరమైతే) ప్రోసోడిక్, పారాలింగ్విస్టిక్ మరియు ఉచ్చారణ యొక్క ఇతర లక్షణాలను తెలియజేసే అదనపు అక్షరాలతో ఉపయోగించబడుతుంది.
a) కింది సమస్యలను పరిష్కరించడానికి టెక్స్ట్ల ఫొనెటిక్ కార్పోరా విస్తృతంగా ఉపయోగించబడుతుంది:
భాష యొక్క మౌఖిక మరియు వ్రాతపూర్వక రూపాల తులనాత్మక అధ్యయనం;
నోటి ప్రసంగం యొక్క వ్యాకరణ మరియు లెక్సికల్ లక్షణాలను అధ్యయనం చేయడం;
మాండలికాల యొక్క ఫొనెటిక్ లక్షణాల పరిశోధన;
ఫోన్మేస్ మరియు వాటి కలయికల ఫ్రీక్వెన్సీ జాబితాలను రూపొందించడం;
స్పీచ్ యూనిట్ల శబ్ద లక్షణాలను అధ్యయనం చేయడం మరియు సైకోలింగ్విస్టిక్ మరియు భాషా ప్రయోగాలలో వాటి ఉపయోగం;
కంప్యూటర్ సిస్టమ్స్ యొక్క సృష్టి, నోటి ప్రసంగం యొక్క గుర్తింపు మరియు సంశ్లేషణ.
పరికరం పేరు (కంపెనీ, దేశం) | విశ్లేషణ మరియు గుర్తింపు పద్ధతి | గుర్తించబడిన ప్రసంగం రకం | నిఘంటువు వాల్యూమ్, పదాలు | గుర్తింపు విశ్వసనీయత, % | ఆమోదయోగ్యమైన జోక్యం స్థాయి | దర్శకుడికి అనుసరణ పద్ధతి | టెలిఫోన్ ఇంటర్ఫేస్ లభ్యత | స్పీచ్ సింథసైజర్ లభ్యత | అప్లికేషన్ యొక్క పరిధి |
RECH-121 (USSR) | స్ట్రిప్, DP | వివిక్త పదాలు (నిరంతర ప్రసంగం) | 99 (200 పదాలకు 93) | (1-10) సార్లు ప్రసారం చేయబడింది | తినండి | తినండి | CAD, ACS, ASUPT | ||
బార్లు (USSR) | అదే | వివిక్త పదాలు | ఒక సారి తారాగణం | అదే | అదే | CAD | |||
సైబీరియా-1 (USSR) | » | అదే | అదే | నం | » | డిస్పాచ్ సిస్టమ్స్ | |||
సిరియస్-1 (USSR) | క్లిప్డ్ సిగ్నల్, DP | » | » | అదే | » | ప్రత్యేకం |
4.4 విదేశీ వ్యవస్థలను వాగ్దానం చేస్తోంది
మౌఖిక కమ్యూనికేషన్
వివిధ రకాల విదేశీ పారిశ్రామిక SROలలో, కొత్త సైద్ధాంతిక నమూనాలు మరియు ప్రసంగ సంశ్లేషణ మరియు గుర్తింపు యొక్క సాధించిన నాణ్యత సూచికలు రెండింటినీ అమలు చేయడంలో మా అభిప్రాయం ప్రకారం, అత్యంత ఆశాజనకంగా ఉన్న వ్యవస్థలను మేము పరిశీలిస్తాము.
అపరిమిత నిఘంటువు యొక్క టెక్స్ట్ నుండి నేరుగా వివిధ టెంపోలు మరియు షేడ్స్ యొక్క సహజ-సహజ ప్రసంగాన్ని పునరుత్పత్తి చేయడానికి ఉపయోగించే అధిక-నాణ్యత సింథసైజర్కు ఉదాహరణ DES-టాక్ పరికరం. DES-టాక్ పరికరం (టేబుల్ 1.1 చూడండి) అనేది 10 ´ 45 ´ 30 సెం.మీ కొలత గల బ్లాక్, దీని వెనుక ప్యానెల్లో కంప్యూటర్, వీడియో టెర్మినల్ మరియు ప్రింటింగ్ పరికరాన్ని కనెక్ట్ చేయడానికి కనెక్టర్లు ఉన్నాయి, వివిధ సమాచార అవుట్పుట్ పరికరాలు. టెలిఫోన్, మరియు LED సూచిక , వాల్యూమ్ నియంత్రణ. DES-టాక్ సింథసైజర్ యొక్క అధిక నాణ్యత నియమాల యొక్క పెద్ద లైబ్రరీ కారణంగా, వినియోగదారు అభ్యర్థన మేరకు నిఘంటువును ఎంచుకోగల సామర్థ్యం మరియు ప్రసంగ మార్పిడి కోసం హార్డ్వేర్ నాణ్యత. వినియోగదారు ప్రామాణికమైన స్త్రీ, పురుషుడు, పిల్లతనం, అలాగే లోతైన పురుషుడు మరియు వృద్ధ స్వరంతో సహా ఏడు విభిన్న స్వరాలను ఎంచుకోవచ్చు.
DES- చర్చ పరికరంలో, టెక్స్ట్ సమాచారాన్ని ప్రసంగంగా మార్చే ప్రక్రియ మూడు స్థాయిలుగా విభజించబడింది. మొదటిది, పదాలు ASCII కోడ్ ప్రకారం డిజిటల్ రూపంలోకి మార్చబడతాయి మరియు ఫోనెమ్లుగా విభజించబడ్డాయి. ఇది అక్షరాలను శబ్దాలు మరియు రెండు నిఘంటువులుగా మార్చడానికి నియమాల సమితిని ఉపయోగిస్తుంది. ఒకటి 6,000 పదాలను కలిగి ఉంటుంది, మరొకటి వినియోగదారు నమోదు చేసిన 150 నిర్దిష్ట పదాలు, విదేశీ పదాలు మరియు సంక్షిప్తాలను కలిగి ఉంటుంది. పెద్ద డిక్షనరీలోని ఇన్పుట్ ఆర్థోగ్రాఫిక్ టెక్స్ట్తో సరిపోలే సూచన పదాల కోసం శోధించడంతో మొదటి-స్థాయి పరివర్తనలు ప్రారంభమవుతాయి. ప్రమాణాలు కనుగొనబడితే, టెక్స్ట్, ఫోనెమిక్ రూపంలోకి మార్చబడుతుంది, వెంటనే రెండవ ప్రాసెసింగ్ స్థాయికి బదిలీ చేయబడుతుంది. ఏదైనా నిఘంటువులలో ప్రమాణాలు కనుగొనబడకపోతే, ఇన్పుట్ వచనం అక్షరాలను శబ్దాలుగా మార్చడానికి నియమాలకు అనుగుణంగా ప్రాసెస్ చేయబడుతుంది మరియు తరువాత రెండవ స్థాయికి బదిలీ చేయబడుతుంది. రెండవ స్థాయిలో, ఫోనెమ్లు చదవబడతాయి, వాక్యనిర్మాణ విశ్లేషణ నిర్వహించబడతాయి, పదాలలో శబ్దం, వ్యవధి మరియు ఒత్తిడి నిర్ణయించబడతాయి మరియు శబ్ద గణనలు నిర్వహించబడతాయి. మూడవ స్థాయిలో, ఇన్పుట్ టెక్స్ట్ సమాచారం మరియు స్పీచ్ సింథసిస్ యొక్క తుది రూపాంతరాలు నిర్వహించబడతాయి. సింథసైజ్ చేయబడిన డిజిటల్ సిగ్నల్స్ కనీసం 120 Kbps వేగంతో ప్రామాణిక డిజిటల్-టు-అనలాగ్ కన్వర్టర్ (DAC)కి ప్రసారం చేయబడతాయి. DES-టాక్ సింథసైజర్ ఇచ్చిన పదం యొక్క ఉచ్చారణ, స్వరం, వ్యవధి మరియు ఒత్తిడిపై పరిసర పదాల ప్రభావాన్ని అంచనా వేయడానికి హ్యూరిస్టిక్ నియమాలను ఉపయోగిస్తుంది.
DES-టాక్ సింథసైజర్ సాఫ్ట్వేర్ ASCII స్టాండర్డ్లో పనిచేస్తున్న ఆల్ఫాన్యూమరిక్ టెర్మినల్స్ సాఫ్ట్వేర్తో దాదాపు సమానంగా ఉంటుంది, డేటా ఆకృతిని నిర్వచించే మాడ్యూల్స్ మినహా. అందువల్ల, సాఫ్ట్వేర్ను సృష్టించడం సులభం, ఇది DES-టాక్ సింథసైజర్ కోసం అప్లికేషన్ యొక్క విస్తృత ప్రాంతాలను తెరుస్తుంది.
నిరంతర ఉచ్చారణ మోడ్లో పెద్ద నిఘంటువులతో (1000 పదాలకు పైగా) పనిచేసేటప్పుడు అధిక విశ్వసనీయతను సాధించాలనే కోరికతో మంచి ప్రసంగ గుర్తింపు నమూనాల సృష్టి అనుబంధించబడింది. KVS-3000 సిస్టమ్ ఈ ఆదర్శానికి దగ్గరగా ఉంటుంది, దాని నిఘంటువులో 10,000 పదాలు ఉన్నాయి మరియు గుర్తింపు ఖచ్చితత్వం 95%. ఆపరేషన్ కోసం పరికరాన్ని సిద్ధం చేయడానికి, రిఫరెన్స్ పదాల మొత్తం సెట్ మూడు సార్లు మాట్లాడాలి, కాబట్టి KVS-30,000 పరికరం యొక్క మెమరీ 30,000 పదాలను నిల్వ చేయడానికి రూపొందించబడింది. సగటు గుర్తింపు సమయం సుమారు 500 ms.
Verbex కంపెనీ (USA) శక్తివంతమైన నిరంతర ప్రసంగ గుర్తింపు వ్యవస్థను అభివృద్ధి చేసింది - Verbex-30,000 మోడల్, ఇది వ్యక్తిగత లేదా నిరంతరం మాట్లాడే పదాలను కలిగి ఉన్న ఏదైనా పొడవు వాక్యాలను గుర్తించడానికి మిమ్మల్ని అనుమతిస్తుంది. ఈ సిస్టమ్ ఒక స్పీకర్ యొక్క వాయిస్పై దృష్టి సారిస్తుంది; స్పీకర్ మారినప్పుడు, పద ప్రమాణాలను నిల్వ చేయడానికి RAMలో తిరిగి వ్రాయడం అవసరం. వెర్బెక్స్-30,000 మోడల్, "స్టార్" ఆర్కిటెక్చర్పై నిర్మించబడింది, అటువంటి 2-4 స్పీచ్ ప్రాసెసర్లను కలిగి ఉంటుంది మరియు 120-360 పదాలతో పనిచేయగలదు. ప్రతి ప్రాసెసర్ డేటా నిల్వ కోసం 0.25 MB మెమరీని కలిగి ఉంటుంది, అలాగే 4000 మైక్రోకోడ్ సూచనలను నిల్వ చేయడానికి మెమరీని కలిగి ఉంటుంది, ప్రతి ఒక్కటి 64 బిట్స్ పొడవు ఉంటుంది. అదనంగా, ఇంటర్ఫేస్ మూలకాల యొక్క అభివృద్ధి చెందిన నిర్మాణం ద్వారా అందించబడిన సిస్టమ్ డిజైన్ యొక్క వశ్యత, సెంట్రల్ కంప్యూటర్ యొక్క మెమరీని ఉపయోగించడానికి అనుమతిస్తుంది. స్పీచ్ ప్రాసెసర్ వేగం 5 మిలియన్ ఆపరేషన్లు/సె.
సిస్టమ్ యొక్క మైక్రోప్రాసెసర్ ఆర్కిటెక్చర్ హై-స్పీడ్ కార్యకలాపాలను అనుమతిస్తుంది, ఇది నిరంతర ప్రసంగ గుర్తింపు అల్గోరిథం అమలుకు అవసరమైన పరిస్థితి. గుర్తింపు ప్రక్రియ, వినియోగదారు మాట్లాడే పదాలకు ఉత్తమంగా సరిపోయే ప్రామాణిక పదాల క్రమాన్ని ఎంచుకోవడంలో DP పద్ధతిని ఉపయోగించి నిర్వహించబడుతుంది. ఇన్పుట్ స్పీచ్ సిగ్నల్లు ఆడియో ప్రాసెసర్ ద్వారా విస్తరించబడతాయి, ఫిల్టర్ చేయబడతాయి మరియు ఎన్కోడ్ చేయబడతాయి, ఆపై 10 μs వ్యవధిలో కంట్రోల్ ప్రాసెసర్కి ప్రసారం చేయబడతాయి. కంట్రోల్ ప్రాసెసర్ స్పీచ్ ప్రాసెసర్ల మధ్య సిగ్నల్ను పంపిణీ చేస్తుంది, ఇది దాని ఫొనెటిక్ లక్షణాలను హైలైట్ చేస్తుంది. 99% గుర్తింపు ఖచ్చితత్వాన్ని నిర్ధారించడానికి అటువంటి 16 లక్షణాలు సరిపోతాయని సిస్టమ్ డెవలపర్లు నిర్ధారించారు. నియంత్రణ ప్రాసెసర్లో గుర్తింపు ప్రక్రియ మరియు ప్రమాణం కోసం శోధన ఏకకాలంలో నిర్వహించబడతాయి, అంటే, ప్రాసెసర్ ప్రసంగం ముగింపును "క్యాచ్" చేసినప్పుడు.
తుది ఫలితాన్ని ప్రభావితం చేసే మొదటి దశలో సాధ్యమయ్యే లోపాలను గుర్తించకుండా ఉండటానికి, సిస్టమ్ నిరంతరం అనేక సమాంతర పరికల్పనలను తనిఖీ చేస్తుంది, ఇన్పుట్ డేటాను అన్ని సాధారణ ఉచ్చారణల యొక్క వ్యాకరణపరంగా నియమించబడిన సెట్తో పోల్చి చూస్తుంది. అన్ని పరికల్పనలు తనిఖీ చేయబడి, చెప్పబడినది ప్రమాణానికి సరిపోయే వరకు సమాధానం ఆలస్యం అవుతుంది.
4.5 ఉత్పత్తి వినియోగంలో పోకడలు
మౌఖిక కమ్యూనికేషన్
ఇటీవలి వరకు, SRO యొక్క సృష్టికి సంబంధించిన చాలా పని వివిధ స్థాయిల (ఫోనెమ్లు, అక్షరాలు, పదాలు) ప్రసంగ అంశాల యొక్క శబ్ద ప్రమాణాలను రూపొందించే ఆలోచనపై ఆధారపడింది. ఈ సందర్భంలో, స్పీచ్ స్ట్రీమ్లో ఈ శబ్ద ప్రమాణాల గుర్తింపు మరియు గుర్తింపుగా గుర్తింపు అమలు చేయబడింది. భాషాపరమైన (కోర్టిక్యులేషన్, రిడక్షన్, అసిమిలేషన్ ఎఫెక్ట్స్) మరియు ఎక్స్ట్రా-లింగ్విస్టిక్ కారకాలు (వక్తల స్వరాల వ్యక్తిగత లక్షణాలు, వ్యత్యాసాలు) రెండింటితో అనుబంధించబడిన స్పీచ్ సిగ్నల్ యొక్క ధ్వని లక్షణాలలో గణనీయమైన వైవిధ్యం కారణంగా ఈ విధానం అనూహ్యమైనది అని ఇప్పుడు స్పష్టమైంది. వారి ఉచ్చారణ నైపుణ్యాలు, వాహక మాధ్యమం యొక్క స్థితి మొదలైనవి). ఫోనెమ్ల శబ్ద లక్షణాలు ప్రత్యేకించి గొప్ప వైవిధ్యాన్ని కలిగి ఉంటాయి. అందువల్ల, చాలా పారిశ్రామిక స్పీచ్ రికగ్నిషన్ సిస్టమ్లు ఫోనెమిక్ విశ్లేషణను వదిలివేసి, పదాన్ని కనీస గుర్తింపు పొందిన అంశంగా అంగీకరించాయి. ఈ విధానం, ప్రసంగ పరిశోధన యొక్క నిర్దిష్ట దశలో కనిపించే ఫలితాలను ఇచ్చినప్పటికీ, స్పీకర్ కోసం సర్దుబాటు చేయకుండా లేదా పెద్ద నిఘంటువులతో సిస్టమ్లను సృష్టించకుండా ప్రసంగ గుర్తింపు వంటి సంక్లిష్ట గుర్తింపు సమస్యలను పరిష్కరించేటప్పుడు ఫలించలేదు. ఇది కొత్త గుణాత్మక స్థాయిలో ప్రసంగం యొక్క ఫోనెమిక్ విశ్లేషణ ఆలోచనకు తిరిగి రావాలని బలవంతం చేసింది, ఇది భాషా శాస్త్రం, అవగాహన సిద్ధాంతం మరియు మనస్తత్వశాస్త్రంలో సేకరించిన జ్ఞానాన్ని ఉపయోగించి, ప్రసంగ అవగాహన సమయంలో మానవ సమాచార ప్రాసెసింగ్ ప్రక్రియ యొక్క వివిధ అంశాలను మోడలింగ్ చేస్తుంది. ఈ విధానంతో, స్పీచ్ రికగ్నిషన్ యొక్క కార్డినల్ టాస్క్లలో ఒకటి మానవ ప్రసంగ అవగాహన యొక్క యంత్రాంగాలను గుర్తించడం మరియు మోడలింగ్ చేయడం, ఇది వారి అపారమైన శబ్ద వైవిధ్యం యొక్క పరిస్థితులలో గ్రహించిన ప్రసంగ మూలకాల యొక్క స్థిరత్వం మరియు స్థిరత్వాన్ని నిర్ధారిస్తుంది.
స్పీచ్ రికగ్నిషన్ సమస్యను పరిష్కరించడానికి ఒక నిపుణుడైన ఫొనెటిషియన్ ద్వారా తెలియని స్పీచ్ సిగ్నల్ యొక్క డైనమిక్ స్పెక్ట్రోగ్రామ్లను చదవడం చాలా విస్తృతంగా మారింది. స్పెక్ట్రోగ్రామ్ పఠన ప్రయోగాలపై ఆసక్తికి కారణం, మొదటిది, స్పీచ్ సిగ్నల్లో ఉన్న ఫొనెటిక్ సమాచారం యొక్క సంపదను అవి త్రిమితీయ (ఫ్రీక్వెన్సీ - టైమ్ - ఇంటెన్సిటీ) స్పెక్ట్రల్ నమూనాగా సూచిస్తాయి మరియు రెండవది వాస్తవం. వారు నిపుణుడి యొక్క జ్ఞానం మరియు విధానపరమైన నైపుణ్యాలను ప్రసంగ గుర్తింపు వ్యవస్థల్లోకి అనువదించడానికి అనుమతిస్తారు. స్పెక్ట్రోగ్రామ్ పఠనంపై పరిశోధన వివిధ దేశాలలో నిర్వహించబడుతోంది మరియు ప్రస్తుతం ఈ అధ్యయనాలలో ప్రధాన సమస్య జ్ఞానాన్ని గుర్తించడం మరియు అధికారికీకరించడం.
మరియు నిపుణుల విధానపరమైన నైపుణ్యాలు. స్పీచ్ స్పెక్ట్రోగ్రామ్ల శబ్ద-ఫొనెటిక్ డీకోడింగ్ సమయంలో నిపుణులు ఎల్లప్పుడూ వారికి మార్గనిర్దేశం చేసే సూత్రాలు మరియు నియమాలను వ్యక్తీకరించలేరు కాబట్టి ఇది చాలా క్లిష్టమైన ప్రక్రియ అని తేలింది. నిపుణుడికి స్పష్టంగా కనిపించే నియమాలు మరియు జ్ఞానం యొక్క అల్గారిథమ్లో అమలు చేయడం ముఖ్యమైన సమస్యల్లో ఒకటి (ఉదాహరణకు, F 420 2500 Hz కంటే ఎక్కువగా ఉండకూడదు) లేదా రూపొందించడం కష్టం (ఉదాహరణకు, కాంపాక్ట్నెస్ని నిర్ణయించే నియమం స్టాప్ల పేలుడు). నిపుణుల పరిజ్ఞానాన్ని సంగ్రహించడం మరియు రికార్డ్ చేయడంతో సంబంధం ఉన్న ఈ ఇబ్బందులను అధిగమించడానికి, నిపుణుల వ్యవస్థలు ఉపయోగించబడతాయి. నిపుణుల వ్యవస్థలు సాధారణ కంప్యూటర్ ప్రోగ్రామ్ల నుండి విభిన్నంగా ఉంటాయి, అవి దృఢమైన అల్గారిథమిక్ సొల్యూషన్స్ లేని సమస్యలను పరిష్కరించగలవు మరియు అసంపూర్ణ లేదా నమ్మదగని సమాచారం ఆధారంగా తీర్మానాలు చేయగలవు. అందువల్ల, అవి అనువైన మానవ కార్యకలాపాలను మోడలింగ్ చేయడానికి చాలా అనుకూలంగా ఉంటాయి, ఇది ప్రసంగ పరిశోధనలో ఉపయోగించబడింది. ఈ అధ్యయనాలలో ES వ్యవస్థ మరియు నిపుణుడి మధ్య పరస్పర చర్య ప్రక్రియలో జ్ఞాన స్థావరాన్ని సేకరించేందుకు ఒక విశ్లేషణ సాధనంగా ఖచ్చితంగా ఉపయోగించబడుతుందని నొక్కి చెప్పాలి. గుర్తింపు వ్యవస్థగా ESని ఉపయోగించడం అసమర్థమైనది.
నిపుణుడు ఫొనెటిషియన్ యొక్క కార్యాచరణను మోడలింగ్ చేయడంలో రెండవ ముఖ్యమైన ఇబ్బంది ఏమిటంటే, స్పెక్ట్రోగ్రామ్ల యొక్క దృశ్య విశ్లేషణ, నిపుణుల డీకోడింగ్ చర్యలకు లోబడి ఉంటుంది, ఇది స్పీచ్ సిగ్నల్ యొక్క శ్రవణ ప్రాసెసింగ్ కంటే తక్కువ సంక్లిష్టంగా ఉండదు. స్పెక్ట్రోగ్రామ్ల పఠనాన్ని అధికారికీకరించేటప్పుడు, మానవ దృశ్య వ్యవస్థ ద్వారా సులభంగా గుర్తించబడే శబ్ద లక్షణాలను సంగ్రహించడంలో కష్టమైన సమస్య తలెత్తుతుంది. ES ను అభివృద్ధి చేస్తున్నప్పుడు, చాలా మంది పరిశోధకులు ఈ కష్టాన్ని దాటవేస్తారు. ఏదేమైనా, ఉత్పన్నమైన పరిస్థితిని పరిగణనలోకి తీసుకున్నప్పటి నుండి, స్పెక్ట్రం యొక్క పారామెట్రిక్ వివరణ నుండి దాని ఫొనెటిక్ వివరణకు పరివర్తన సమయంలో ప్రసంగ సమాచారం యొక్క కొన్ని ఇంటర్మీడియట్ స్థాయి కోడింగ్ ఉనికి యొక్క ఆలోచన తార్కికంగా అనుసరిస్తుంది. అంతేకాకుండా, స్పీచ్ సిగ్నల్స్ యొక్క ఇంటర్మీడియట్ వివరణ కోసం సూత్రాలను అభివృద్ధి చేయవలసిన అవసరం ఆటోమేటిక్ స్పీచ్ రికగ్నిషన్లో ప్రధాన సమస్యగా హైలైట్ చేయబడింది. ఒక ఇంటర్మీడియట్ వివరణ మాత్రమే నేరుగా గమనించిన నిరంతర శబ్ద సంకేతం మరియు వివిక్త భాషా వివరణ మధ్య వంతెనను నిర్మించడానికి అనుమతిస్తుంది. ఇంటర్మీడియట్ ప్రాతినిధ్యం ధ్వని లక్షణాల యొక్క "ప్రవర్తన"ను వివరిస్తుంది, ఇది స్పీకర్ నుండి స్పీకర్కు చాలా వరకు మారదు మరియు ప్రధానంగా ఫొనెటిక్ యూనిట్ల సందర్భోచిత పరస్పర చర్యపై ఆధారపడి ఉంటుంది. ఈ సందర్భంలో, ఇంటర్మీడియట్ ప్రాతినిధ్యం, ఒక నియమం వలె, గుణాత్మక రూపంలో వ్యక్తీకరించబడుతుంది మరియు ఉనికిని - కొన్ని శబ్ద వస్తువులు లేకపోవడం, స్పెక్ట్రంలో అధిక - తక్కువ స్థానం లేదా బలమైన - ఒకటి లేదా మరొకటి బలహీనమైన అభివ్యక్తి. శక్తి భాగం.
ఈ విధంగా, ధ్వని-ధ్వని డీకోడింగ్ ప్రక్రియలో, మొదట పరిమాణాత్మక మార్పుల నుండి గుణాత్మక వివరణకు, ఆపై గుణాత్మక వివరణల నుండి ఫోన్మేస్ల లక్షణాలకు మార్పు ఉంటుంది. నియమం ప్రకారం, స్పీచ్ ఇన్ఫర్మేషన్ ప్రాతినిధ్యం యొక్క ఇంటర్మీడియట్ స్థాయి యూనిట్లను శబ్ద కీలు, శబ్ద సంకేతాలు లేదా డిస్క్రిప్టర్లు అంటారు.
రష్యాలో, ఫొనెటిక్ నిపుణులచే స్పెక్ట్రోగ్రామ్లను చదవడం మరియు వారి ఫోనెమిక్ మరియు మౌఖిక వివరణ కోసం నియమాలను అభివృద్ధి చేయడం 1980 నుండి నిర్వహించబడింది. పొందిన ఫలితాలు స్పీచ్ విశ్లేషణ కోసం హార్డ్వేర్-సాఫ్ట్వేర్ మోడల్ను రూపొందించడం ప్రారంభించేందుకు మాకు అనుమతినిచ్చాయి, ఇది స్పెక్ట్రోగ్రామ్లను చదవడానికి అల్గారిథమ్లపై ఆధారపడి ఉంటుంది.
ఇంతకు ముందు ఎంత బాగుండేది! హెల్ప్ డెస్క్కి కాల్ చేయడం ద్వారా, మీరు గర్ల్ ఆపరేటర్తో మాట్లాడవచ్చు మరియు ఆమెతో అపాయింట్మెంట్ కూడా తీసుకోవచ్చు. ఇప్పుడు, లైన్ యొక్క మరొక చివరలో, ఆహ్లాదకరమైన కానీ నిర్జీవమైన స్త్రీ స్వరం వినబడుతుంది, అటువంటి మరియు అటువంటి సమాచారాన్ని స్వీకరించడానికి 1 డయల్ చేయమని, 2 అటువంటి మరియు అలాంటివారిని సంప్రదించడానికి, 3 మెనుకి వెళ్లడానికి మొదలైనవి. ఎక్కువగా, సమాచారానికి ప్రాప్యత వ్యవస్థచే నియంత్రించబడుతుంది, వ్యక్తి కాదు. దీనికి దాని స్వంత తర్కం ఉంది: మార్పులేని, రసహీనమైన పని ఒక వ్యక్తి ద్వారా కాదు, యంత్రం ద్వారా జరుగుతుంది. మరియు వినియోగదారు కోసం, సమాచారాన్ని పొందే విధానం సరళీకృతం చేయబడింది: అతను నిర్దిష్ట సంఖ్యల సమితికి పేరు పెట్టాడు మరియు అవసరమైన సమాచారాన్ని అందుకున్నాడు.
అటువంటి వ్యవస్థ ఎలా పని చేస్తుంది?
దాన్ని గుర్తించడానికి ప్రయత్నిద్దాం.
స్పీచ్ రికగ్నిషన్ సాఫ్ట్వేర్ యొక్క రెండు ప్రధాన రకాలు:
టెక్స్ట్ మరియు డిజిటల్ డేటాను నమోదు చేసే డిక్టేషన్ ప్రోగ్రామ్లు.
మేము టెక్స్ట్-టు-స్పీచ్ మరియు స్పీచ్-టు-టెక్స్ట్ సిస్టమ్లను పరిగణించబోమని వెంటనే రిజర్వేషన్ చేద్దాం, అంటే వచనాన్ని మౌఖిక ప్రసంగంలోకి అనువదించేవి మరియు వైస్ వెర్సా. మేము ఆటోమేటిక్ కమాండ్ రికగ్నిషన్ సిస్టమ్లు లేదా వాయిస్ నావిగేటర్లకు మాత్రమే పరిమితం చేస్తాము.
SAPP అంటే ఏమిటి?
ఆటోమేటిక్ స్పీచ్ రికగ్నిషన్ సిస్టమ్స్ (ASRR) అనేది స్పీచ్ ప్రాసెసింగ్ ప్రాసెస్లో ఒక మూలకం, దీని ఉద్దేశ్యం యూజర్ మరియు మెషీన్ మధ్య అనుకూలమైన సంభాషణను అందించడం. విస్తృత కోణంలో, మేము డిక్షనరీ వాల్యూమ్పై సమస్య ధోరణి మరియు పరిమితులను పరిగణనలోకి తీసుకోకుండా, ఏకపక్ష స్పీకర్ ద్వారా ఉచిత శైలిలో ప్రసంగ సందేశాలను ఉచ్చరించేటప్పుడు స్పీచ్ ఎకౌస్టిక్ సిగ్నల్ యొక్క ఫోనెమిక్ డీకోడింగ్ చేసే సిస్టమ్ల గురించి మాట్లాడుతున్నాము. సంకుచిత కోణంలో, CAPP లు నిర్దిష్ట సమస్యల పరిష్కారాన్ని సులభతరం చేస్తాయి, దాని శాస్త్రీయ కోణంలో సహజంగా ధ్వనించే ప్రసంగాన్ని గుర్తించే అవసరాలపై కొన్ని పరిమితులను విధిస్తాయి. ఈ విధంగా, CAPP రకాల శ్రేణి సాధారణ స్వతంత్ర పరికరాలు మరియు పిల్లల బొమ్మల నుండి విడిగా ఉచ్ఛరించే పదాలు, సంఖ్యలు, నగరాలు, పేర్లు మొదలైనవాటిని గుర్తించడం లేదా సంశ్లేషణ చేయగల సామర్థ్యం కలిగి ఉంటుంది. ఉపయోగం కోసం, ఉదాహరణకు, అసిస్టెంట్ సెక్రటరీగా (IBM వాయిస్ టైప్ సింప్లీ స్పీకింగ్ గోల్డ్).
రికార్డ్ చేయబడిన ఆడియో మరియు వీడియో డేటాను శోధించడానికి మరియు క్రమబద్ధీకరించడానికి CAPP చాలా ఉపయోగకరంగా ఉంటుంది.
సమాచారాన్ని నమోదు చేసేటప్పుడు ప్రసంగ గుర్తింపు కూడా ఉపయోగించబడుతుంది, ఇది ఒక వ్యక్తి యొక్క కళ్ళు లేదా చేతులు బిజీగా ఉన్నప్పుడు ప్రత్యేకంగా ఉపయోగపడుతుంది. CAPP ఒత్తిడితో కూడిన వాతావరణంలో పనిచేసే వ్యక్తులు (ఆసుపత్రులలో వైద్యులు, పారిశ్రామిక కార్మికులు, డ్రైవర్లు) అవసరమైన సమాచారాన్ని స్వీకరించడానికి లేదా నమోదు చేయడానికి కంప్యూటర్ను ఉపయోగించడానికి అనుమతిస్తుంది.
CAPP సాధారణంగా టెలిఫోన్ అప్లికేషన్లు, ఎంబెడెడ్ సిస్టమ్లు (డయలింగ్ సిస్టమ్లు, PDA ఆపరేషన్, డ్రైవింగ్, మొదలైనవి), మల్టీమీడియా అప్లికేషన్లు (భాషా అభ్యాస వ్యవస్థలు) వంటి సిస్టమ్లలో ఉపయోగించబడుతుంది.
వాయిస్ కీలు
వాయిస్ కీలను కొన్నిసార్లు ప్రసంగం ఆధారంగా ఆటోమేటిక్ పర్సనాలిటీ రికగ్నిషన్ సిస్టమ్స్ అంటారు. సాధారణంగా ఇవి సమాచారానికి అధీకృత యాక్సెస్ లేదా వస్తువులకు భౌతిక ప్రాప్యత కోసం బయోమెట్రిక్ సిస్టమ్లు. అటువంటి రెండు రకాల వ్యవస్థల మధ్య తేడాను గుర్తించడం అవసరం: ధృవీకరణ వ్యవస్థలు మరియు గుర్తింపు వ్యవస్థలు. ధృవీకరణ సమయంలో, వినియోగదారు మొదట తన కోడ్ను ప్రదర్శిస్తాడు, అనగా, తనను తాను ఒక విధంగా లేదా మరొక విధంగా ప్రకటించుకుంటాడు, ఆపై పాస్వర్డ్ లేదా కొన్ని ఏకపక్ష పదబంధాన్ని బిగ్గరగా చెబుతాడు. అందించిన కోడ్ని ఉపయోగించి కంప్యూటర్ మెమరీ నుండి రీకాల్ చేయబడిన ప్రమాణాలకు ఇచ్చిన వాయిస్ అనుగుణంగా ఉందో లేదో సిస్టమ్ తనిఖీ చేస్తుంది.
గుర్తించేటప్పుడు, వినియోగదారు గురించి ముందస్తు ప్రకటన చేయబడలేదు. ఈ సందర్భంలో, అన్ని ప్రమాణాలతో ఈ వాయిస్ యొక్క పోలిక నిర్వహించబడుతుంది మరియు ఆపై వాయిస్ ద్వారా గుర్తించబడిన వ్యక్తి ఎవరో ప్రత్యేకంగా నిర్ణయించబడుతుంది. నేడు, అనేక విధానాలు మరియు పద్ధతులు అటువంటి వ్యవస్థలను అమలు చేయడానికి ప్రసిద్ధి చెందాయి మరియు అవన్నీ, ఒక నియమం వలె, ఒకదానికొకటి భిన్నంగా ఉంటాయి - అనేక రకాలైన డెవలపర్లు. స్పీచ్ రికగ్నిషన్ సిస్టమ్స్ గురించి కూడా అదే చెప్పవచ్చు. అందువల్ల, ప్రత్యేక పరీక్ష డేటాబేస్లను ఉపయోగించి ప్రసంగాన్ని ఉపయోగించి నిర్దిష్ట ప్రసంగ గుర్తింపు మరియు వ్యక్తిత్వ గుర్తింపు వ్యవస్థల లక్షణాలను నిర్ధారించడం మాత్రమే అనుమతించబడుతుంది.
ఒక చిన్న చరిత్ర
స్పీచ్ రికగ్నిషన్లో ప్రారంభ పరిణామాలు 1920ల నాటివే అయినప్పటికీ, మొదటి వ్యవస్థను 1952లో బెల్ లాబొరేటరీస్ (ఈరోజు లూసెంట్ టెక్నాలజీస్లో భాగం) రూపొందించింది. మరియు మొదటి వాణిజ్య వ్యవస్థ తరువాత కూడా సృష్టించబడింది: 1960లో, IBM అటువంటి వ్యవస్థ యొక్క అభివృద్ధిని ప్రకటించింది, కానీ ప్రోగ్రామ్ ఎప్పుడూ మార్కెట్లోకి ప్రవేశించలేదు.
తర్వాత, 1970లలో, యునైటెడ్ స్టేట్స్లోని ఈస్టర్న్ ఎయిర్లైన్స్ అనౌన్సర్-ఆధారిత బ్యాగేజీ డిస్పాచ్ సిస్టమ్ను ఇన్స్టాల్ చేసింది: ఒక ఆపరేటర్ డెస్టినేషన్ అని పిలిచారు మరియు సామాను దాని మార్గంలో పంపబడింది. అయినప్పటికీ, చేసిన లోపాల కారణంగా, సిస్టమ్ ట్రయల్ వ్యవధిని ఎప్పుడూ దాటలేదు.
దీని తరువాత, ఈ ప్రాంతంలో అభివృద్ధి, ఏదైనా ఉంటే, మందకొడిగా నిర్వహించబడింది. 1980లలో కూడా, స్పీచ్ రికగ్నిషన్ సిస్టమ్లను ఉపయోగించే వాస్తవ వాణిజ్య అనువర్తనాలు చాలా తక్కువగా ఉన్నాయి.
నేడు, డజన్ల కొద్దీ కాదు, శాస్త్రీయ మరియు విద్యా సంస్థలలో, అలాగే పెద్ద సంస్థలలో వందలాది పరిశోధనా బృందాలు ఈ దిశలో పనిచేస్తున్నాయి. ICASSP, EuroSpeech, ICPHS మొదలైన స్పీచ్ టెక్నాలజీల రంగంలోని శాస్త్రవేత్తలు మరియు నిపుణుల అంతర్జాతీయ ఫోరమ్ల ద్వారా దీనిని నిర్ధారించవచ్చు. పని యొక్క ఫలితాలు, మనం అలంకారికంగా చెప్పినట్లు, "మొత్తం ప్రపంచం ద్వారా కురిపించింది" అతిగా అంచనా వేయలేము.
అనేక సంవత్సరాలుగా, వాయిస్ నావిగేటర్లు లేదా కమాండ్ రికగ్నిషన్ సిస్టమ్లు వివిధ కార్యకలాపాల రంగాలలో విజయవంతంగా ఉపయోగించబడుతున్నాయి. ఉదాహరణకు, అల్కాటెల్ ద్వారా వాటికన్కు సరఫరా చేయబడిన OmniTouch కాల్ సెంటర్ను క్రీస్తు 2000వ వార్షికోత్సవ వేడుకల్లో భాగంగా నిర్వహించే సేవా కార్యక్రమాలకు ఉపయోగించారు. కాల్ సెంటర్కు కాల్ చేస్తున్న యాత్రికుడు తన ప్రశ్నను చెప్పాడు మరియు ఆటోమేటిక్ స్పీచ్ రికగ్నిషన్ సిస్టమ్ అతనిని "వినింది". ఈవెంట్ షెడ్యూల్లు లేదా హోటల్ చిరునామాలు వంటి తరచుగా ఎదురయ్యే అంశం గురించి ప్రశ్న అడిగారని సిస్టమ్ నిర్ధారిస్తే, ముందుగా రికార్డ్ చేసిన నమోదు చేర్చబడుతుంది. ప్రశ్నను స్పష్టం చేయడానికి అవసరమైతే, స్పీచ్ మెను అందించబడింది, దీనిలో ఒక అంశం వాయిస్ ద్వారా సూచించబడాలి. అడిగే ప్రశ్నకు ముందస్తుగా నమోదు చేయబడిన సమాధానం లేదని గుర్తింపు వ్యవస్థ నిర్ధారించినట్లయితే, యాత్రికుడు మానవ ఆపరేటర్కు కనెక్ట్ చేయబడ్డాడు.
స్వీడన్ ఇటీవల ఫిలిప్స్ స్పీచ్ రికగ్నిషన్ సాఫ్ట్వేర్ను ఉపయోగించి ఆటోమేటెడ్ టెలిఫోన్ హెల్ప్లైన్ను ప్రారంభించింది. అధికారిక ప్రకటన లేకుండా పనిచేయడం ప్రారంభించిన ఆటోస్వర్ సేవ యొక్క మొదటి నెలలో, 200 వేల మంది క్లయింట్లు దాని సేవలను ఉపయోగించారు. ఒక వ్యక్తి తప్పనిసరిగా నిర్దిష్ట నంబర్ను డయల్ చేయాలి మరియు ఆటోమేటిక్ అసిస్టెంట్ సమాధానాలు ఇచ్చిన తర్వాత, అతనికి ఆసక్తి ఉన్న సమాచార డైరెక్టరీ విభాగానికి పేరు పెట్టాలి.
కొత్త సేవ ప్రధానంగా ప్రైవేట్ క్లయింట్ల కోసం ఉద్దేశించబడింది, వారు సేవల యొక్క తక్కువ ధర కారణంగా దీన్ని ఇష్టపడతారు. Autosvar సేవ యూరోప్లో ఈ రకమైన మొదటి సిస్టమ్ (USలో, AT&T గత సంవత్సరం డిసెంబర్లో ఇదే విధమైన సేవను పరీక్షించడం ప్రారంభించింది).
యుఎస్లో ఈ సాంకేతికతను ఉపయోగిస్తున్న కొన్ని ఉదాహరణలు ఇక్కడ ఉన్నాయి.
రియల్టర్లు తమ సేవల కోసం తరచుగా న్యూపోర్ట్ వైర్లెస్ను ఆశ్రయిస్తారు. ఒక రియల్టర్ వీధిలో డ్రైవింగ్ చేసి, ఒక ఇంటి పక్కన "అమ్మకానికి" అనే బోర్డుని చూసినప్పుడు, అతను న్యూపోర్ట్ వైర్లెస్కి కాల్ చేసి, అలాంటి వీధిలో ఉన్న ఇంటి నంబర్ గురించి సమాచారం కోసం అడుగుతాడు. సమాధానం ఇచ్చే యంత్రం, ఆహ్లాదకరమైన స్త్రీ స్వరంతో, ఇంటి చదరపు ఫుటేజీ, నిర్మాణ తేదీ మరియు యజమానుల గురించి అతనికి చెబుతుంది. ఈ సమాచారం అంతా న్యూపోర్ట్ వైర్లెస్ డేటాబేస్లో ఉంది. రియల్టర్లు క్లయింట్కు సందేశాన్ని మాత్రమే జారీ చేయగలరు.
చందా రుసుము నెలకు సుమారు $30.
జూలీ, అమ్ట్రాక్ వర్చువల్ ఏజెంట్, అక్టోబర్ 2001 నుండి రైలు ప్రయాణీకులకు సేవలు అందిస్తోంది. రైలు షెడ్యూల్లు, వాటి రాకపోకలు మరియు నిష్క్రమణల గురించి ఆమె మీకు ఫోన్ ద్వారా తెలియజేస్తుంది మరియు టిక్కెట్ రిజర్వేషన్లను కూడా చేస్తుంది. జూలీ అనేది స్పీచ్వర్క్స్ సాఫ్ట్వేర్ మరియు ఇంటర్వాయిస్ హార్డ్వేర్ ఉత్పత్తి. ఇది ఇప్పటికే ప్రయాణీకుల సంతృప్తిని 45% పెంచింది; 50 మంది క్లయింట్లలో 13 మంది జూలీ నోటి నుండి తమకు అవసరమైన మొత్తం సమాచారాన్ని పొందుతారు. ఆమ్ట్రాక్ గతంలో టోన్-ఆధారిత సమాచార వ్యవస్థను ఉపయోగించింది, కానీ సంతృప్తి రేటు తక్కువగా ఉంది: 50 మంది కస్టమర్లలో 9 మంది మాత్రమే.
12-18 నెలల్లో జూలీ తన ధరను ($4 మిలియన్లు) తిరిగి పొందిందని అమ్ట్రాక్ అంగీకరించాడు.
ఇన్ఫినిటీ మరియు జాగ్వార్ వంటి ఖరీదైన కార్లు చాలా సంవత్సరాలుగా కంట్రోల్ ప్యానెల్పై మౌఖిక నియంత్రణను ఉపయోగిస్తున్నాయి: రేడియో, ఉష్ణోగ్రత నియంత్రణ మరియు నావిగేషన్ సిస్టమ్ కారు యజమాని యొక్క స్వరాన్ని అర్థం చేసుకుంటాయి మరియు నిస్సందేహంగా యజమానికి కట్టుబడి ఉంటాయి.
అయితే ఇప్పుడు మధ్యతరగతి కార్లలో వాయిస్ రికగ్నిషన్ టెక్నాలజీని ఉపయోగించడం ప్రారంభించారు. కాబట్టి, 2003 నుండి, హోండా అకార్డ్ IBM నుండి అంతర్నిర్మిత వాయిస్ ఐడెంటిఫైయర్ను కలిగి ఉంది. ఇది వయావాయిస్ అని పిలువబడుతుంది మరియు ఇది $2,000 నావిగేషన్ సిస్టమ్లో భాగం, ఇది హోండా అకార్డ్ కొనుగోలుదారులలో ఐదవ వంతు వాయిస్-యాక్టివేటెడ్ నావిగేషన్ సిస్టమ్తో కూడిన మోడల్ను ఎంచుకున్నారు.
వైద్యరంగంలో కూడా వాయిస్ రికగ్నిషన్ టెక్నాలజీ తన స్థానాన్ని సంపాదించుకుంది. డాక్టర్ స్వరాన్ని పాటించే కడుపు పరీక్ష పరికరాలు ఇప్పటికే అభివృద్ధి చేయబడ్డాయి. నిజమే, ఈ పరికరాలు, నిపుణుల అభిప్రాయం ప్రకారం, ఇప్పటికీ అసంపూర్ణంగా ఉన్నాయి: అవి వైద్యుని ఆదేశాలకు నెమ్మదిగా ప్రతిచర్యను కలిగి ఉంటాయి.
అయితే ఇంకా రావాల్సి ఉంది. మెంఫిస్లో, VA మెడికల్ సెంటర్ డ్రాగన్ సాఫ్ట్వేర్లో $277,000 పెట్టుబడి పెట్టింది, ఇది కంప్యూటర్ డేటాబేస్లోకి సమాచారాన్ని నిర్దేశించడానికి వైద్యులు మరియు నర్సులను అనుమతిస్తుంది. బహుశా, త్వరలో మీరు వైద్య రికార్డులో డాక్టర్ చేతివ్రాతను తయారు చేయడానికి కష్టపడాల్సిన అవసరం లేదు.
వందలాది పెద్ద కంపెనీలు ఇప్పటికే తమ ఉత్పత్తులు లేదా సేవల్లో వాయిస్ రికగ్నిషన్ టెక్నాలజీని ఉపయోగిస్తున్నాయి; వీటిలో AOL, FedEx, హోండా, సోనీ, స్ప్రింట్, T. రోవ్ ప్రైస్, యునైటెడ్ ఎయిర్లైన్స్ మరియు వెరిజో ఉన్నాయి. నిపుణుల అభిప్రాయం ప్రకారం, వాయిస్ టెక్నాలజీ మార్కెట్ 2002లో సుమారు $695 మిలియన్లకు చేరుకుంది, ఇది 2001 కంటే 10% ఎక్కువ.
నేడు, స్పీచ్ రికగ్నిషన్ టెక్నాలజీలు ప్రపంచంలో అత్యంత ఆశాజనకంగా పరిగణించబడుతున్నాయి. ఈ విధంగా, అమెరికన్ పరిశోధన సంస్థ కాహ్నర్స్ ఇన్-స్టాట్ యొక్క అంచనాల ప్రకారం, స్పీచ్ రికగ్నిషన్ సాఫ్ట్వేర్ కోసం ప్రపంచ మార్కెట్ 2005 నాటికి 200 మిలియన్ల నుండి 2.7 బిలియన్ డాలర్లకు పెరుగుతుంది. కంపెనీ డేటామానిటర్ ప్రకారం, వాయిస్ టెక్నాలజీ మార్కెట్ పరిమాణం పెరుగుతుంది. సంవత్సరానికి సగటున 43%: 2000లో 650 మిలియన్ డాలర్ల నుండి 2006లో 5.6 బిలియన్ డాలర్లకు (Fig. 1).
CNN మీడియా కార్పొరేషన్తో సహకరిస్తున్న నిపుణులు ఈ సంవత్సరం అత్యంత ఆశాజనకంగా ఉన్న ఎనిమిది సాంకేతికతల్లో స్పీచ్ రికగ్నిషన్ను ఒకటిగా పేర్కొన్నారు. మరియు IDC నుండి విశ్లేషకులు 2005 నాటికి, స్పీచ్ రికగ్నిషన్ అనేది మార్కెట్ నుండి అన్ని ఇతర ప్రసంగ సాంకేతికతలను పూర్తిగా స్థానభ్రంశం చేస్తుంది (Fig. 2).
ప్రధాన ఇబ్బందులు
CAPPని అభివృద్ధి చేస్తున్నప్పుడు ఉత్పన్నమయ్యే ప్రధాన సమస్య ఏమిటంటే, ఒకే పదాన్ని వేర్వేరు వ్యక్తులు మరియు ఒకే వ్యక్తి వేర్వేరు పరిస్థితుల్లో వేరియబుల్ ఉచ్చారణ.
ఇది ఒక వ్యక్తిని ఇబ్బంది పెట్టదు, కానీ కంప్యూటర్ ఉండవచ్చు. అదనంగా, ఇన్కమింగ్ సిగ్నల్ పరిసర శబ్దం, ప్రతిబింబం, ప్రతిధ్వని మరియు ఛానెల్ జోక్యం వంటి అనేక కారకాలచే ప్రభావితమవుతుంది. శబ్దం మరియు వక్రీకరణ ముందుగానే తెలియకపోవడం వలన ఇది సంక్లిష్టంగా ఉంటుంది, అనగా, పనిని ప్రారంభించే ముందు సిస్టమ్ వాటిని సర్దుబాటు చేయలేము.
రెండవది, వ్యవస్థలు వివిక్త ఆదేశాలతో మాత్రమే పనిచేసేవి మరియు పొందికైన ప్రసంగాన్ని గుర్తించగల సామర్థ్యం కలిగినవిగా విభజించబడ్డాయి. వ్యక్తిగతంగా మాట్లాడే పదాలను గుర్తించడం కంటే ప్రసంగ గుర్తింపు చాలా క్లిష్టమైన పని. ఉదాహరణకు, 1000 పదాల నిఘంటువుతో వివిక్త పద గుర్తింపు నుండి ప్రసంగ గుర్తింపుకు మారినప్పుడు, లోపం రేటు 3.1 నుండి 8.7 వరకు పెరుగుతుంది, అదనంగా, ప్రసంగ ప్రాసెసింగ్ మూడు రెట్లు ఎక్కువ సమయం పడుతుంది.
వివిక్త కమాండ్ ఉచ్చారణ మోడ్ సరళమైనది మరియు తక్కువ వనరు-ఇంటెన్సివ్.
ఈ మోడ్లో పని చేస్తున్నప్పుడు, ప్రతి పదం తర్వాత వినియోగదారు పాజ్ చేస్తాడు, అంటే, అతను పదాల సరిహద్దులను స్పష్టంగా గుర్తిస్తాడు. ఒక పదబంధంలో పదం యొక్క ప్రారంభం మరియు ముగింపు కోసం సిస్టమ్ వెతకవలసిన అవసరం లేదు. సిస్టమ్ గుర్తించబడిన పదాన్ని డిక్షనరీలోని ఉదాహరణలతో పోల్చి చూస్తుంది మరియు చాలా మటుకు మోడల్ సిస్టమ్ ద్వారా ఆమోదించబడుతుంది. సాంప్రదాయ DTMF పద్ధతులకు బదులుగా టెలిఫోనీలో ఈ రకమైన గుర్తింపు విస్తృతంగా ఉపయోగించబడుతుంది.
ఏకపక్ష శబ్దాలు, ఒత్తిడి, వదులుగా ఉండే పదబంధ నిర్మాణం, పాజ్లు, పునరావృత్తులు మొదలైన వాటి వల్ల కూడా ప్రసంగంలో అదనపు వైవిధ్యాలు తలెత్తుతాయి.
పదాల నిరంతర మరియు ప్రత్యేక ఉచ్చారణ యొక్క జంక్షన్ వద్ద, కీలక పదాల కోసం శోధన మోడ్ ఏర్పడింది. ఈ మోడ్లో, సాధారణ ప్రసంగ స్ట్రీమ్లో CAPP ముందే నిర్వచించిన పదం లేదా పదాల సమూహాన్ని కనుగొంటుంది. దీన్ని ఎక్కడ ఉపయోగించవచ్చు? ఉదాహరణకు, స్పీచ్లో లేదా ఎలక్ట్రానిక్ రిఫరెన్స్ బుక్లలో కొన్ని పదాలు కనిపించినప్పుడు ఆన్ చేసి రికార్డింగ్ ప్రారంభించే లిజనింగ్ పరికరాలలో. ఏదైనా రూపంలో అభ్యర్థనను స్వీకరించిన తర్వాత, సిస్టమ్ అర్థ పదాలను గుర్తిస్తుంది మరియు వాటిని గుర్తించి, అవసరమైన సమాచారాన్ని అందిస్తుంది.
ఉపయోగించిన పదజాలం పరిమాణం CAPP యొక్క ముఖ్యమైన భాగం. సహజంగానే, పెద్ద నిఘంటువు, సిస్టమ్ తప్పులు చేసే అవకాశం ఎక్కువ. అనేక ఆధునిక వ్యవస్థలలో, అవసరమైన విధంగా కొత్త పదాలతో నిఘంటువులను అనుబంధించడం లేదా కొత్త నిఘంటువులను లోడ్ చేయడం సాధ్యమవుతుంది. వివిక్త కమాండ్ ఉచ్చారణతో స్పీకర్-స్వతంత్ర సిస్టమ్ కోసం సాధారణ ఎర్రర్ రేట్లు 100-పదాల నిఘంటువు కోసం 1%, 600-పదాల నిఘంటువు కోసం 3% మరియు 8,000-పదాల నిఘంటువు కోసం 10%.
ఆధునిక CAPP మార్కెట్ ఆఫర్లు
మరియు వివిధ కంపెనీల నుండి CAPPలు ఈరోజు మార్కెట్లో ప్రాతినిధ్యం వహిస్తున్నాయి. వాటిలో కొన్నింటిని చూద్దాం.
అకులాబ్
గుర్తింపు ఖచ్చితత్వం 97%.
ఉచ్చారణ మరియు స్వరాలు యొక్క ప్రత్యేకతలను పరిగణనలోకి తీసుకునే అదనపు నిఘంటువులను సృష్టించే సామర్థ్యానికి సిస్టమ్ మద్దతు ఇస్తుంది. సాధారణంగా ఆమోదించబడిన దానికి భిన్నంగా ఉచ్చారణ ఉన్న వ్యక్తులు సిస్టమ్ని ఉపయోగించే సందర్భాల్లో ఇది ప్రత్యేకంగా ఉపయోగపడుతుంది.
సిస్టమ్ బ్రిటిష్ మరియు అమెరికన్ ఇంగ్లీష్, ఫ్రెంచ్, జర్మన్, ఇటాలియన్, నార్త్ అమెరికన్ స్పానిష్ వంటి అత్యంత సాధారణ భాషలకు మద్దతు ఇస్తుంది. ఈ భాషలలో దేనికైనా నిఘంటువును కాన్ఫిగర్ చేయవచ్చు, కానీ ఒక నిఘంటువులో బహుళ భాషలను ఏకకాలంలో ఉపయోగించడం సాధ్యం కాదు.
ఉత్పత్తి Windows NT/2000, Linux మరియు Sun SPARC సోలారిస్లో అందుబాటులో ఉంది.
Babear SDK వెర్షన్ 3.0
నిర్దిష్ట వినియోగదారుకు శిక్షణ అవసరం లేని స్పీకర్-స్వతంత్ర వ్యవస్థ.
వినియోగదారుకు అనుకూలత ఆపరేషన్ సమయంలో జరుగుతుంది మరియు ఉత్తమ గుర్తింపు ఫలితాన్ని అందిస్తుంది. వాయిస్ యాక్టివిటీకి స్వయంచాలకంగా సర్దుబాటు చేయడం వలన కారు లోపల వంటి చాలా ధ్వనించే వాతావరణంలో ప్రసంగాన్ని గుర్తించడానికి మిమ్మల్ని అనుమతిస్తుంది.
డిక్షనరీలో చేర్చని పదాలను సిస్టమ్ గుర్తించదు. కీలక పదాల కోసం వెతకడం సాధ్యమవుతుంది. సిస్టమ్ను చిన్న నిఘంటువు (కమాండ్ల వివిక్త ఉచ్చారణ) మరియు పెద్ద నిఘంటువు (ప్రసంగం) రెండింటితో పని చేసేలా కాన్ఫిగర్ చేయవచ్చు.
సిస్టమ్ క్రింది భాషలకు మద్దతు ఇస్తుంది: బ్రిటిష్ మరియు అమెరికన్ ఇంగ్లీష్, స్పానిష్ జర్మన్, ఫ్రెంచ్, డానిష్, స్వీడిష్, టర్కిష్, గ్రీక్, ఐస్లాండిక్ మరియు అరబిక్.
సిస్టమ్ Windows 98 (SE)/NT 4.0/2000/CE, Mac OS X మరియు Linuxలో నడుస్తుంది.
లోక్వెండో ASR
స్పీకర్-ఇండిపెండెంట్ సిస్టమ్ టెలిఫోనీలో ఉపయోగించడానికి ఆప్టిమైజ్ చేయబడింది.
వ్యక్తిగత పదాలు మరియు ప్రసంగాన్ని గుర్తించడం, కీలకపదాల కోసం శోధించడం (500 పదాల వరకు నిఘంటువు) సాధ్యమవుతుంది. పెద్ద పదజాలం మరియు సిస్టమ్ సౌలభ్యం కారణంగా వినియోగదారు-స్నేహపూర్వక అప్లికేషన్లను సృష్టించడానికి మిమ్మల్ని అనుమతిస్తుంది.
అత్యంత సాధారణ యూరోపియన్ భాషలతో సహా 12 భాషలకు మద్దతు ఇస్తుంది (ఇటాలియన్, స్పానిష్, బ్రిటిష్ మరియు అమెరికన్ ఇంగ్లీష్, ఫ్రెంచ్, జర్మన్, గ్రీక్, స్వీడిష్ మొదలైనవి).
లోక్వెండో స్పీచ్ సూట్లో టెక్స్ట్-టు-స్పీచ్ మరియు లోక్వెండో వాయిస్ఎక్స్ఎమ్ఎల్ ఇంటర్ప్రెటర్తో పాటు బహుళ వాయిస్లు మరియు భాషలకు మద్దతు ఇస్తుంది.
వివిధ ఆడియో ఫైల్ ఫార్మాట్లకు మద్దతు ఇస్తుంది: (u-law 8 kHz, PCM 8 kHz, PCM 16 kHz). హార్డ్వేర్ వనరుల కోసం కఠినమైన అవసరాలు లేవు. Windows NT/2000/XP మరియు Linuxలో నడుస్తుంది.
సిస్టమ్ అవసరాలు (Windows ఆధారిత):
సర్వీస్ ప్యాక్ 6a, Windows 2000 లేదా Windows XP ప్రోతో Windows NT 4.0;
కనీస మెమరీ పరిమాణం 512 MB.
సిస్టమ్ అవసరాలు (Red Hat Linux ఆధారంగా):
Red Hat Linux 7.2;
ఇంటెల్ పెంటియమ్ III 800 MHz లేదా అంతకంటే ఎక్కువ;
మెమరీ సామర్థ్యం 256 MB;
డిస్క్ పరిమాణం 17 MB (డికంప్రెషన్ తర్వాత).
స్వల్పభేదాన్ని
తయారీదారుల ప్రకారం, సిస్టమ్ మెమరీ మరియు ఇతర సిస్టమ్ వనరుల అత్యల్ప వినియోగం కోసం ఆప్టిమైజ్ చేయబడింది. గుర్తింపు ఖచ్చితత్వం 96% వరకు ఉంటుంది మరియు ధ్వనించే గదిలో కూడా ఎక్కువగా ఉంటుంది.
సిస్టమ్ స్వీయ-నేర్చుకోవడం మరియు ప్రతి వినియోగదారుకు సర్దుబాటు చేయడం సాధ్యమవుతుంది.
Windows 2000 మరియు Linuxలో నడుస్తుంది.
ఆత్మ
భాష ఏదైనా కావచ్చు (క్లయింట్ యొక్క నిర్దిష్ట అవసరాలకు అనుగుణంగా నిఘంటువు సంకలనం చేయబడింది మరియు సిస్టమ్ సెట్టింగ్ల అవసరాలలో క్లయింట్ పేర్కొన్న భాషలోని పదాలను కలిగి ఉంటుంది. డిక్షనరీ వివిధ భాషల నుండి పదాలను కలిగి ఉంటుంది, అంటే, మార్చకుండా సెట్టింగులు, సిస్టమ్ పదాలను గుర్తించగలదు , ఉదాహరణకు, చైనీస్ మరియు ఫిన్నిష్ రెండింటిలోనూ, అవి గతంలో డిక్షనరీలోకి ప్రవేశించినట్లయితే). అందువలన, ఈ వ్యవస్థ ఏదైనా భాషతో పని చేయగలదు, అయితే ఇతర వ్యవస్థలు వాటిలోని నిర్దిష్ట సెట్తో మాత్రమే పని చేయగలవు.
ఇది ఆటోమేటిక్ స్పీచ్ రికగ్నిషన్ సిస్టమ్, ఇది చాలా ధ్వనించే వాతావరణంలో కూడా అధిక నాణ్యత గుర్తింపును అందిస్తుంది. సిస్టమ్ను రెండు మోడ్లలో ఒకదానిలో పనిచేయడానికి సులభంగా కాన్ఫిగర్ చేయవచ్చు: నిర్ణీత సంఖ్యలో ఆదేశాలతో పదబంధాలను గుర్తించడం (వ్యక్తిగత ఆదేశాల ఉచ్చారణ, PIN కోడ్ మోడ్) మరియు ఏకపక్ష సంఖ్యలో ఆదేశాలతో పదబంధాలను గుర్తించడం (కమాండ్ల నిరంతర ఉచ్చారణ, “ పొందికైన ప్రసంగ విధానం").
కీలక పదాల కోసం వెతకడం సాధ్యమవుతుంది. ఈ పరిష్కారం సంకలిత నాన్-స్టేషనరీ నాయిస్ పరిస్థితులలో పనిచేస్తుంది. అవసరమైన సిగ్నల్-టు-నాయిస్ నిష్పత్తి "PIN కోడ్ మోడ్"లో 0 dB వరకు మరియు పొందికైన ప్రసంగ మోడ్లో +15 dB వరకు ఉంటుంది.
గుర్తింపు ఆలస్యం 0.2 సె. అకౌస్టిక్ ఛానల్ పారామితులు: 300-3500 Hz లోపల బ్యాండ్విడ్త్. ధ్వని వాతావరణానికి అనుసరణ కనీసం 3 సెకన్ల మొత్తం పొడవుతో శబ్దం శకలాలు ఆధారంగా నిర్వహించబడుతుంది.
"PIN కోడ్ మోడ్" కోసం:
నిఘంటువు 50 ఆదేశాలు;
SNR = 0...6 dB వద్ద సరైన గుర్తింపు యొక్క సంభావ్యత 95-99%;
అవసరమైన శబ్ద పరిస్థితులు: SNRతో సంకలిత బ్రాడ్బ్యాండ్ స్టాటిక్ నాయిస్ (సిగ్నల్-టు-నాయిస్ రేషియో) >= 15 dB.
కనెక్ట్ చేయబడిన స్పీచ్ రికగ్నిషన్ మోడ్ కోసం:
నిఘంటువు 12 పదాలు/సంఖ్యలు;
ప్రత్యేకత: ఏకపక్ష శబ్దానికి అనుగుణంగా.
SPIRIT యొక్క ఆటోమేటిక్ స్పీచ్ రికగ్నిషన్ సిస్టమ్ MS Windows కింద PC కోసం అప్లికేషన్గా లేదా అసెంబ్లర్ కోడ్గా అందుబాటులో ఉంది. కస్టమర్ అభ్యర్థన మేరకు, పరిష్కారాన్ని ఏదైనా DSP లేదా RISC ప్లాట్ఫారమ్కు పోర్ట్ చేయవచ్చు.
వాయిస్వేర్
సిస్టమ్ స్పీకర్-ఆధారిత మరియు స్పీకర్-ఇండిపెండెంట్ మోడ్లలో పనిచేయగలదు, కాబట్టి నిర్దిష్ట వినియోగదారుతో పనిచేయడానికి సిస్టమ్ యొక్క ప్రత్యేక శిక్షణ అవసరం లేదు.
ధ్వనించే వాతావరణంలో కూడా అధిక గుర్తింపు ఖచ్చితత్వం మరియు నిజ-సమయ ఆపరేషన్ను అందిస్తుంది.
సిస్టమ్ పొందికైన ప్రసంగం మరియు సంఖ్యల వరుస జాబితాను గుర్తిస్తుంది.
డిక్షనరీలో చేర్చని పదాలు మరియు అదనపు శబ్దాలు దాని ద్వారా గ్రహించబడవు మరియు “a”, “బాగా” మొదలైన అర్థరహిత పదాలు విస్మరించబడతాయి.
నిఘంటువులో కొత్త పదాలను చేర్చవచ్చు.
సిస్టమ్ స్వయంచాలకంగా వినియోగదారు స్వరం, ఉచ్చారణ మరియు ఇతర ప్రసంగ లక్షణాలకు సర్దుబాటు చేస్తుంది.
VoiceWare US ఇంగ్లీష్ మరియు కొరియన్లకు మద్దతు ఇస్తుంది; చైనీస్ మరియు జపనీస్ అభివృద్ధిలో ఉన్నాయి.
సిస్టమ్ Windows 95/98/NT 4.0, UNIX మరియు Linuxలో నడుస్తుంది.