ენციკლოპედიური YouTube

    1 / 5

    მეტყველების ამოცნობის შესავალი

    LANGMaster მეტყველების ამოცნობა

    სუბტიტრები

ამბავი

პირველი მეტყველების ამომცნობი მოწყობილობა გამოჩნდა 1952 წელს, მას შეეძლო ამოიცნო ადამიანების მიერ წარმოთქმული რიცხვები. 1962 წელს IBM Shoebox დაინერგა ნიუ-იორკის კომპიუტერული გამოფენაზე.

მეტყველების ამოცნობის კომერციული პროგრამები გაჩნდა ოთხმოცდაათიანი წლების დასაწყისში. მათ ჩვეულებრივ იყენებენ ადამიანები, რომლებიც ხელის ტრავმის გამო ვერ ახერხებენ დიდი რაოდენობით ტექსტის აკრეფას. ეს პროგრამები (მაგალითად, Dragon NaturallySpeaking (ინგლისური)რუსული,ხმოვანი ნავიგატორი (ინგლისური)რუსული) თარგმნეთ მომხმარებლის ხმა ტექსტად, რითაც ათავისუფლებს მის ხელებს. ასეთი პროგრამების თარგმანის საიმედოობა არც თუ ისე მაღალია, მაგრამ წლების განმავლობაში ის თანდათან გაუმჯობესდა.

მობილური მოწყობილობების გამოთვლითი სიმძლავრის ზრდამ შესაძლებელი გახადა მათთვის პროგრამების შექმნა მეტყველების ამოცნობის ფუნქციებით. ასეთ პროგრამებს შორის აღსანიშნავია Microsoft Voice Command აპლიკაცია, რომელიც საშუალებას გაძლევთ იმუშაოთ მრავალ აპლიკაციასთან თქვენი ხმის გამოყენებით. მაგალითად, შეგიძლიათ მუსიკის დაკვრა თქვენს პლეერში ან შექმნათ ახალი დოკუმენტი.

მეტყველების ამოცნობის გამოყენება სულ უფრო პოპულარული ხდება ბიზნესის სხვადასხვა სფეროში, მაგალითად, კლინიკაში ექიმს შეუძლია გამოთქვას დიაგნოზი, რომელიც დაუყოვნებლივ შეიტანება ელექტრონულ ბარათში. ან სხვა მაგალითი. რა თქმა უნდა, ყველას ცხოვრებაში ერთხელ მაინც უოცნებია გამოიყენოს თავისი ხმა შუქის ჩაქრობის ან ფანჯრის გასახსნელად. ბოლო დროს, მეტყველების ავტომატური ამოცნობისა და სინთეზის სისტემები სულ უფრო ხშირად გამოიყენება სატელეფონო ინტერაქტიულ აპლიკაციებში. ამ შემთხვევაში, ხმოვან პორტალთან კომუნიკაცია უფრო ბუნებრივი ხდება, რადგან მასში შერჩევა შესაძლებელია არა მხოლოდ ტონის აკრეფის, არამედ ხმოვანი ბრძანებების გამოყენებით. ამავდროულად, ამოცნობის სისტემები დამოუკიდებელია მომხსენებლებისგან, ანუ ისინი აღიარებენ ნებისმიერი ადამიანის ხმას.

შემდეგი ნაბიჯი მეტყველების ამოცნობის ტექნოლოგიებში შეიძლება ჩაითვალოს ეგრეთ წოდებული ჩუმი მეტყველების ინტერფეისების (SSI) შემუშავება. მეტყველების დამუშავების ეს სისტემები დაფუძნებულია არტიკულაციის ადრეულ ეტაპზე მეტყველების სიგნალების მიღებასა და დამუშავებაზე. მეტყველების ამოცნობის განვითარების ეს ეტაპი გამოწვეულია თანამედროვე ამოცნობის სისტემების ორი მნიშვნელოვანი ნაკლოვანებით: ხმაურისადმი გადაჭარბებული მგრძნობელობით, ასევე ამოცნობის სისტემაზე წვდომისას მკაფიო და მკაფიო მეტყველების საჭიროებით. SSI მიდგომა არის ახალი სენსორების გამოყენება, რომლებზეც ხმაური არ მოქმედებს, როგორც დამუშავებული აკუსტიკური სიგნალების დამატება.

მეტყველების ამომცნობი სისტემების კლასიფიკაცია

მეტყველების ამოცნობის სისტემები კლასიფიცირდება:

  • ლექსიკონის ზომით (სიტყვების შეზღუდული ნაკრები, დიდი ლექსიკონი);
  • სპიკერის მიხედვით (სპიკერზე დამოკიდებული და სპიკერზე დამოუკიდებელი სისტემები);
  • მეტყველების ტიპის მიხედვით (უწყვეტი ან ცალკე მეტყველება);
  • დანიშნულების მიხედვით (კარნახის სისტემები, სამეთაურო სისტემები);
  • გამოყენებული ალგორითმის მიხედვით (ნერვული ქსელები, ფარული მარკოვის მოდელები, დინამიური პროგრამირება);
  • სტრუქტურული ერთეულის ტიპის მიხედვით (ფრაზები, სიტყვები, ფონემები, დიფონები, ალოფონები);
  • სტრუქტურული ერთეულების იდენტიფიცირების პრინციპზე დაყრდნობით (ამოცნობა ნიმუშით, ლექსიკური ელემენტების შერჩევა).

მეტყველების ავტომატური ამოცნობის სისტემებისთვის ხმაურის იმუნიტეტი უზრუნველყოფილია ძირითადად ორი მექანიზმის გამოყენებით:

  • ხმოვანი სიგნალის ანალიზის საფუძველზე სამეტყველო სიგნალის ერთი და იგივე ელემენტების იდენტიფიცირებისთვის რამდენიმე პარალელური მუშაობის მეთოდის გამოყენება;
  • მეტყველების ნაკადში სიტყვების სეგმენტური (ფონემური) და ჰოლისტიკური აღქმის პარალელურად დამოუკიდებელი გამოყენება.

მეტყველების ამოცნობის მეთოდები და ალგორითმები

”... აშკარაა, რომ მეტყველების სიგნალის დამუშავების ალგორითმები მეტყველების აღქმის მოდელში უნდა გამოიყენონ ცნებებისა და ურთიერთობების იგივე სისტემა, რომელსაც ადამიანი იყენებს.”

დღეს მეტყველების ამოცნობის სისტემები აგებულია ამოცნობის პრინციპებზე [ ვის მიერ?] აღიარების ფორმები [უცნობი ტერმინი ] . მეთოდები და ალგორითმები, რომლებიც აქამდე იქნა გამოყენებული, შეიძლება დაიყოს შემდეგ დიდ კლასებად:

მეტყველების ამოცნობის მეთოდების კლასიფიკაცია სტანდარტთან შედარების საფუძველზე.

  • დინამიური პროგრამირება - დროებითი დინამიური ალგორითმები (Dynamic Time Warping).

კონტექსტზე მგრძნობიარე კლასიფიკაცია. როდესაც იგი განხორციელდება, ცალკეული ლექსიკური ელემენტები იზოლირებულია მეტყველების ნაკადიდან - ფონემები და ალოფონები, რომლებიც შემდეგ გაერთიანებულია მარცვალებად და მორფემებად.

  • ბაიესის დისკრიმინაციის საფუძველზე დისკრიმინაციული ანალიზის მეთოდები;
  • დამალული მარკოვის მოდელი;
  • ნერვული ქსელები.

ამომცნობი სისტემების არქიტექტურა

ტიპიური [ ] მეტყველების ავტომატური დამუშავების სტატისტიკური სისტემების არქიტექტურა.

  • ხმაურის შემცირების მოდული და სასარგებლო სიგნალის გამოყოფა.
  • აკუსტიკური მოდელი - საშუალებას გაძლევთ შეაფასოთ მეტყველების სეგმენტის ამოცნობა ხმის დონეზე მსგავსების თვალსაზრისით. თითოეული ბგერისთვის თავდაპირველად აგებულია რთული სტატისტიკური მოდელი, რომელიც აღწერს ამ ბგერის გამოთქმას მეტყველებაში.
  • ენის მოდელი - საშუალებას გაძლევთ განსაზღვროთ ყველაზე სავარაუდო ვერბალური თანმიმდევრობა. ენის მოდელის აგების სირთულე დიდწილად დამოკიდებულია კონკრეტულ ენაზე. ასე რომ, ინგლისური ენისთვის საკმარისია სტატისტიკური მოდელების გამოყენება (ე.წ. N-გრამები). ძლიერად დახატული ენებისთვის (ენებზე, რომლებშიც ერთი და იგივე სიტყვის მრავალი ფორმაა), რომელიც მოიცავს რუსულს, მხოლოდ სტატისტიკის გამოყენებით აგებული ენობრივი მოდელები აღარ იძლევა ასეთ ეფექტს - ძალიან ბევრი მონაცემია საჭირო სტატისტიკური ურთიერთობების საიმედოდ შესაფასებლად. სიტყვებს შორის. აქედან გამომდინარე, გამოიყენება ჰიბრიდული ენის მოდელები, რომლებიც იყენებენ რუსული ენის წესებს, ინფორმაციას მეტყველების ნაწილისა და სიტყვის ფორმის შესახებ და კლასიკურ სტატისტიკურ მოდელს.
  • დეკოდერი არის ამოცნობის სისტემის პროგრამული კომპონენტი, რომელიც აერთიანებს ამოცნობის დროს მიღებულ მონაცემებს აკუსტიკური და ენობრივი მოდელებიდან და მათი კომბინაციის საფუძველზე განსაზღვრავს სიტყვების ყველაზე სავარაუდო თანმიმდევრობას, რაც არის უწყვეტი მეტყველების ამოცნობის საბოლოო შედეგი.
  1. მეტყველების დამუშავება იწყება მეტყველების სიგნალის ხარისხის შეფასებით. ამ ეტაპზე განისაზღვრება ჩარევისა და დამახინჯების დონე.
  2. შეფასების შედეგი მიდის აკუსტიკური ადაპტაციის მოდულზე, რომელიც აკონტროლებს მოდულს ამოცნობისთვის საჭირო მეტყველების პარამეტრების გამოსათვლელად.
  3. სიგნალში იდენტიფიცირებულია მეტყველების შემცველი უბნები და ფასდება მეტყველების პარამეტრები. სინტაქსური, სემანტიკური და პრაგმატული ანალიზისთვის გამოვლენილია ფონეტიკური და პროსოდიული ალბათური მახასიათებლები. (შეაფასეთ ინფორმაცია მეტყველების ნაწილის, სიტყვის ფორმისა და სიტყვებს შორის სტატისტიკური ურთიერთობების შესახებ.)
  4. შემდეგი, მეტყველების პარამეტრები შედის ამოცნობის სისტემის მთავარ ბლოკში - დეკოდერში. ეს არის კომპონენტი, რომელიც ემთხვევა შეყვანის მეტყველების ნაკადს აკუსტიკური და ენის მოდელებში შენახულ ინფორმაციას და განსაზღვრავს სიტყვების ყველაზე სავარაუდო თანმიმდევრობას, რაც არის ამოცნობის საბოლოო შედეგი.

ემოციურად დატვირთული მეტყველების ნიშნები ამოცნობის სისტემებში

სპექტრულ-დროითი მახასიათებლები

სპექტრული მახასიათებლები:

  • გაანალიზებული მეტყველების სიგნალის სპექტრის საშუალო მნიშვნელობა;
  • სპექტრის ნორმალიზებული საშუალო მაჩვენებლები;
  • სიგნალის შედარებითი ყოფნის დრო სპექტრის ზოლებში;
  • სპექტრის ზოლებში სიგნალის დამკვიდრების ნორმალიზებული დრო;
  • მეტყველების სპექტრის საშუალო მნიშვნელობა ზოლებში;
  • მეტყველების სპექტრის ფარდობითი სიმძლავრე ზოლებში;
  • მეტყველების სპექტრის კონვერტების ვარიაცია;
  • მეტყველების სპექტრის კონვერტების ვარიაციის ნორმალიზებული მნიშვნელობები;
  • სპექტრული გარსების ჯვარედინი კორელაციის კოეფიციენტები სპექტრულ ზოლებს შორის.

დროებითი ნიშნები:

  • სეგმენტის ხანგრძლივობა, ფონემები;
  • სეგმენტის სიმაღლე;
  • სეგმენტის ფორმის ფაქტორი.

სპექტრულ-დროითი მახასიათებლები ახასიათებს მეტყველების სიგნალს მისი ფიზიკური და მათემატიკური არსით, სამი ტიპის კომპონენტის არსებობის საფუძველზე:

  1. ხმის ტალღის პერიოდული (ტონალური) მონაკვეთები;
  2. ხმის ტალღის არაპერიოდული მონაკვეთები (ხმაური, ფეთქებადი);
  3. უბნები, რომლებიც არ შეიცავს მეტყველების პაუზებს.

სპექტრულ-დროითი მახასიათებლები შესაძლებელს ხდის ასახოს სხვადასხვა ინდივიდებში ვოკალური იმპულსების დროის სერიებისა და სპექტრის ფორმის ორიგინალობა და მათი ვოკალური ტრაქტის ფილტრაციის ფუნქციების მახასიათებლები. ისინი ახასიათებენ მეტყველების ნაკადის მახასიათებლებს, რომლებიც დაკავშირებულია მეტყველების არტიკულაციური ორგანოების რესტრუქტურიზაციის დინამიკასთან და წარმოადგენს მეტყველების ნაკადის განუყოფელ მახასიათებლებს, რომლებიც ასახავს მეტყველების არტიკულაციური ორგანოების მოძრაობის ორიგინალურობას ან სინქრონულობას.

ცეპსტრალური ნიშნები

  • მელ-სიხშირის ცეპსტრალური კოეფიციენტები;
  • წრფივი პროგნოზირების კოეფიციენტები შესწორებულია ადამიანის ყურის არათანაბარი მგრძნობელობისთვის;
  • ჩაწერის სიხშირის სიმძლავრის ფაქტორები;
  • ხაზოვანი პროგნოზირების სპექტრის კოეფიციენტები;
  • წრფივი პროგნოზირების cepstrum კოეფიციენტები.

მეტყველების ამოცნობის თანამედროვე სისტემების უმეტესობა ფოკუსირებულია ადამიანის ვოკალური ტრაქტის სიხშირეზე პასუხის ამოღებაზე, ხოლო აგზნების სიგნალის მახასიათებლების უგულებელყოფა. ეს აიხსნება იმით, რომ პირველი მოდელის კოეფიციენტები უკეთეს ხმის განცალკევებას უზრუნველყოფს. აგზნების სიგნალის ვოკალური ტრაქტის სიგნალისგან გამოსაყოფად გამოიყენება ცეპსტრალური ანალიზი.

ამპლიტუდა-სიხშირის მახასიათებლები

  • ინტენსივობა, ამპლიტუდა
  • ენერგია
  • დაკვრის სიხშირე (FFR)
  • ფორმატის სიხშირეები
  • Jitter - ფუნდამენტური ბგერის ჟიტერის სიხშირის მოდულაცია (ხმაურის პარამეტრი);
  • Shimmer - ამპლიტუდის მოდულაცია მთავარ ტონზე (ხმაურის პარამეტრი);
  • რადიალური ბაზის ბირთვის ფუნქცია
  • არაწრფივი ოპერატორი Tiger

ამპლიტუდა-სიხშირის მახასიათებლები შესაძლებელს ხდის შეფასებების მიღებას, რომელთა მნიშვნელობები შეიძლება განსხვავდებოდეს დისკრეტული ფურიეს ტრანსფორმაციის პარამეტრების მიხედვით (ფანჯრის ტიპი და სიგანე), აგრეთვე ფანჯრის მცირე გადაადგილებით ნიმუშზე. მეტყველების სიგნალი აკუსტიკურად არის წარმოდგენილი ჰაერში გავრცელებული რთული სტრუქტურის ხმოვანი ვიბრაციებით, რომლებიც ხასიათდება მათი სიხშირით (ვიბრაციების რაოდენობა წამში), ინტენსივობით (ვიბრაციების ამპლიტუდა) და ხანგრძლივობით. ამპლიტუდა-სიხშირის მახასიათებლებს აწვდის ადამიანისთვის საჭირო და საკმარის ინფორმაციას მეტყველების სიგნალიდან მინიმალური აღქმის დროით. მაგრამ ამ მახასიათებლების გამოყენება არ იძლევა მათ სრულად გამოყენებას, როგორც ემოციურად დატვირთული მეტყველების იდენტიფიკაციის ინსტრუმენტს.

არაწრფივი დინამიკის ნიშნები

არაწრფივი დინამიკის ნიშნების ჯგუფისთვის სამეტყველო სიგნალი განიხილება როგორც სკალარული რაოდენობა, რომელიც შეინიშნება ადამიანის ვოკალურ სისტემაში. მეტყველების წარმოების პროცესი შეიძლება ჩაითვალოს არაწრფივი და გაანალიზდეს არაწრფივი დინამიკის მეთოდებით. არაწრფივი დინამიკის ამოცანაა მოიძიოს და ჩაატაროს ძირითადი მათემატიკური მოდელებისა და რეალური სისტემების დეტალური შესწავლა, რომლებიც გამომდინარეობს ყველაზე ტიპიური წინადადებებიდან ცალკეული ელემენტების თვისებების შესახებ, რომლებიც ქმნიან სისტემას და მათ შორის ურთიერთქმედების კანონებს. ამჟამად, არაწრფივი დინამიკის მეთოდები ეფუძნება ფუნდამენტურ მათემატიკურ თეორიას, რომელიც ემყარება ტაკენსის თეორემას. (ინგლისური)რუსული, რომელიც იძლევა მკაცრ მათემატიკურ საფუძველს არაწრფივი ავტორეგრესიის იდეებისთვის და ადასტურებს მზიდველის ფაზური პორტრეტის აღდგენის შესაძლებლობას დროის სერიიდან ან მისი ერთ-ერთი კოორდინატიდან. (მიმზიდველი გაგებულია, როგორც წერტილების ერთობლიობა ან ქვესივრცე ფაზურ სივრცეში, რომელსაც უახლოვდება ფაზის ტრაექტორია გარდამავალი ფენომენების დაშლის შემდეგ). დაკვირვებული დროის სერია. იდენტიფიცირებული განსხვავებები მომზიდველების ფორმაში შეიძლება გამოყენებულ იქნას სადიაგნოსტიკო წესებისა და ნიშნებისთვის, რაც შესაძლებელს გახდის ამოიცნოს და სწორად ამოიცნოს სხვადასხვა ემოციები ემოციურად დატვირთულ სამეტყველო სიგნალში.

მეტყველების ხარისხის პარამეტრები

მეტყველების ხარისხის პარამეტრები ციფრულ არხებზე:

  • მარცვლების მეტყველების გაგება;
  • სიტყვის ფრაზების გაგება;
  • მეტყველების ხარისხი საცნობარო ბილიკის მეტყველების ხარისხთან შედარებით;
  • მეტყველების ხარისხი რეალურ სამუშაო პირობებში.

ძირითადი ცნებები

  • მეტყველების გაგება არის სწორად მიღებული მეტყველების ელემენტების შედარებითი რაოდენობა (ბგერები, შრიფტები, სიტყვები, ფრაზები), რომელიც გამოხატულია გადაცემული ელემენტების მთლიანი რაოდენობის პროცენტულად.
  • მეტყველების ხარისხი არის პარამეტრი, რომელიც ახასიათებს მეტყველების ხმის სუბიექტურ შეფასებას შესამოწმებელ მეტყველების გადამცემ სისტემაში.
  • ნორმალური მეტყველების სიხშირე არის საუბარი სიჩქარით, რომლის დროსაც საკონტროლო ფრაზის საშუალო ხანგრძლივობაა 2,4 წმ.
  • მეტყველების დაჩქარებული სიხშირე - საუბარი სიჩქარით, რომლის დროსაც საკონტროლო ფრაზის საშუალო ხანგრძლივობაა 1,5-1,6 წმ.
  • სპიკერის ხმის ამოცნობა არის მსმენელის უნარი, ამოიცნონ ხმის ბგერა კონკრეტულ პირთან, რომელიც ადრე იყო მსმენელისთვის ცნობილი.
  • სემანტიკური გაგება არის მეტყველების ინფორმაციული შინაარსის სწორი რეპროდუქციის ხარისხის მაჩვენებელი.
  • ინტეგრალური ხარისხი არის ინდიკატორი, რომელიც ახასიათებს მსმენელის საერთო შთაბეჭდილებას მიღებულ მეტყველებაზე.

განაცხადი

ხმის სისტემების მთავარ უპირატესობად გამოცხადდა მომხმარებლის მეგობრობა. მეტყველების ბრძანებები მიზნად ისახავდა საბოლოო მომხმარებლის მიერ შეხების და სხვა შეყვანის მეთოდებისა და ბრძანებების გამოყენების აუცილებლობის აღმოფხვრას.

  • ხმოვანი ბრძანებები
  • ხმოვანი ტექსტის შეყვანა

მობილური აპლიკაციებში მეტყველების ამოცნობის ტექნოლოგიის გამოყენების წარმატებული მაგალითებია: მისამართის ხმით შეყვანა Yandex.Navigator-ში, Google Now ხმოვანი ძიება.

მობილური მოწყობილობების გარდა, მეტყველების ამოცნობის ტექნოლოგია ფართოდ გამოიყენება ბიზნესის სხვადასხვა სფეროში:

  • ტელეფონი: შემომავალი და გამავალი ზარების დამუშავების ავტომატიზაცია თვითმომსახურების ხმოვანი სისტემების შექმნით, კერძოდ: საცნობარო ინფორმაციის მისაღებად და კონსულტაციისთვის, სერვისების/პროდუქტების შეკვეთისთვის, არსებული სერვისების პარამეტრების შეცვლაზე, გამოკითხვებზე, კითხვარებზე, ინფორმაციის შეგროვებაზე, ინფორმირებაზე და სხვა. სხვა სცენარი;
  • Smart Home გადაწყვეტილებები: ხმოვანი ინტერფეისი Smart Home სისტემების სამართავად;
  • საყოფაცხოვრებო ტექნიკა და რობოტები: ელექტრონული რობოტების ხმოვანი ინტერფეისი; საყოფაცხოვრებო ტექნიკის ხმოვანი კონტროლი და ა.შ.;
  • დესკტოპები და ლეპტოპები: ხმოვანი შეყვანა კომპიუტერულ თამაშებსა და აპლიკაციებში;
  • მანქანები: ხმის კონტროლი მანქანის სალონში - მაგალითად, სანავიგაციო სისტემა;
  • სოციალური მომსახურება შეზღუდული შესაძლებლობის მქონე პირთათვის.

აგრეთვე იხილეთ

  • ციფრული სიგნალის დამუშავება

შენიშვნები

  1. Davies, K.H., Biddulph, R. and Balashek, S. (1952) სალაპარაკო ციფრების ავტომატური მეტყველების ამოცნობაჯ.აკუსტი. სოც. Am. 24 (6) გვ. 637-642 წწ
  2. ანგარიში - შეჩერებულია
  3. თანამედროვე პრობლემები მეტყველების ამოცნობის სფეროში. 
  4. http://phonoscopic.rf/articles_and_publications/Lobanova_Search_of_identical_fragments.pdf
  5. http://booksshare.net/books/med/chistovich-la/1976/files/fizrech1976.djvu
  6. http://revistaie.ase.ro/content/46/s%20-%20furtuna.pdf
  7. http://www.ccas.ru/frc/papers/mestetskii04course.pdf
  8. მეტყველების ამოცნობა| 
  9. მეტყველების ტექნოლოგიების ცენტრი | 
  10. MDGs. წაკითხვის თარიღი: 2013 წლის 20 აპრილი. დაარქივებულია 2013 წლის 28 აპრილი.
  11. http://pawlin.ru/materials/neiro/sistemy_raspoznavaniya.pdf
  12. http://intsys.msu.ru/magazine/archive/v3(1-2)/mazurenko.pdf
  13. http://eprints.tstu.tver.ru/69/1/3.pdf
  14. http://www.terrahumana.ru/arhiv/10_04/10_04_25.pdf

დისერტაცია თემაზე „ადამიანის ფსიქოფიზიოლოგიური მდგომარეობის კვლევა მეტყველების ემოციური ნიშნების საფუძველზე“ აბსტრაქტი უმაღლესი საატესტაციო კომისიის სპეციალობაში 05.11.17, 05.13.01 - მოწყობილობა…

  • GOST R 51061-97. 
  • მეტყველების ხარისხის პარამეტრები. დაბალი სიჩქარით მეტყველების გადაცემის სისტემები ციფრულ არხებზე. . დაარქივებულია ორიგინალიდან 2013 წლის 30 აპრილი.
  • ბმულები
  • მეტყველების ამოცნობის ტექნოლოგიები, www.xakep.ru

მდგომარეობის ანალიზი და აუდიო შეტყობინების ენის განსაზღვრის ტექნოლოგიების განვითარების პერსპექტივები.

როგორ მუშაობს მეტყველების ამოცნობის ტექნოლოგია Yandex-ის მეტყველების ნაკრები Yandex-დან | 

ჰაბრაჰაბრი

მეტყველების ამოცნობის ტექნოლოგია Yandex SpeechKit Yandex-ისგან

ზოგადი განმარტებები

YaC 2013

აკუსტიკური მოდელი

როგორ მუშაობს მეტყველების ამოცნობის ტექნოლოგია Yandex-ის მეტყველების ნაკრები Yandex-დან | 

თუ ხმოვან ძიებას იტყვით „ლევ ტოლსტოი“, სმარტფონი მოისმენს არა სახელსა და გვარს, არა ორ სიტყვას, არამედ ხმოვან სიგნალს, რომელშიც ხმები შეუფერხებლად მიედინება ერთმანეთში, მკაფიო საზღვრების გარეშე. მეტყველების ამოცნობის სისტემის ამოცანაა აღადგინოს ამ სიგნალიდან ნათქვამი. სიტუაციას ართულებს ის ფაქტი, რომ სხვადასხვა სიტუაციებში სხვადასხვა ადამიანის მიერ წარმოთქმული ერთი და იგივე ფრაზა სრულიად განსხვავებულ სიგნალებს მისცემს. აკუსტიკური მოდელირების სისტემა ხელს უწყობს მათ სწორად ინტერპრეტაციას.

როდესაც თქვენ აკეთებთ ხმოვან მოთხოვნას, მაგალითად, Yandex.Navigator-ში, სმარტფონი ჩაწერს მას და აგზავნის Yandex სერვერზე. სერვერზე ჩანაწერი დაყოფილია ბევრ პატარა ფრაგმენტად (ჩარჩოებად) 25 მილიწამიანი სიგრძით, გადახურვით, 10 მილიწამიანი ნაბიჯით. ანუ შენი გამოსვლის ერთი წამი იქცევა ას კადრად.

შემდეგ თითოეულ მათგანს გადაეცემა აკუსტიკური მოდელი - ფუნქცია, რომელიც განსაზღვრავს თუ რა ხმები გამოუშვით. ამ მონაცემებზე დაყრდნობით, სისტემა, რომელიც გაწვრთნილი იყო მანქანური სწავლების მეთოდების გამოყენებით, განსაზღვრავს სიტყვების ვარიაციებს, რომლებსაც ხედავთ ძიების შედეგებში. მობილური ბრაუზერი, „ლეო ტოლსტოის“ მოთხოვნის საპასუხოდ, იპოვის საიტებს დიდი მწერლის შესახებ, ხოლო ნავიგატორი და Maps შესთავაზებენ ლეო ტოლსტოის ქუჩას.

შედეგების სიზუსტე პირდაპირ დამოკიდებულია იმაზე, თუ რამდენად კარგად ამოიცნობს სისტემა სალაპარაკო ბგერებს. ამისათვის ფონეტიკური ანბანი, რომლითაც ის მუშაობს, უნდა იყოს საკმარისად ზუსტი და სრული.

ჰაბრაჰაბრი

რუსულ ენაში, სხვადასხვა თეორიის მიხედვით, 40-მდე ფონემა (ხმოვანი ერთეული) არსებობს. ჩვენი მეტყველების ამოცნობის სისტემა ასახავს შემომავალ მეტყველების სიგნალს ფონემებთან და შემდეგ აგროვებს მათგან სიტყვებს. მაგალითად, სიტყვა "Yandex" შედგება შვიდი ფონემისგან - [th][a][n][d][e][k][s]. ფონემებს შეიძლება ჰქონდეთ სხვადასხვა ხანგრძლივობა, ხოლო ჩარჩოებით რომ დაიშალოს, სიტყვა "yandex" შეიძლება გამოიყურებოდეს, მაგალითად, ასე - [th] [a] [a] [a] [a] [a] [a] [a] [a] [a] [a] [a] [a] [a] ][a][a][a][a][n][n][d][d][e][k][s]. ნებისმიერი ფონემის გამოთქმა დამოკიდებულია მის მეზობლებზე და სიტყვაში პოზიციაზე. ანუ, ბგერა [a] სიტყვის დასაწყისში, შუაში და ბოლოს არის სამი განსხვავებული [a], ხოლო ბგერა [a] ორ ხმოვანს შორის კომბინაციაში „აუდიო ჩანაწერზე“ განსხვავებულია. [a] თანხმოვნებს შორის სიტყვა „ბაკში“. ამიტომ, ფონემა ძალიან უხეში ერთეულია კარგი ამოცნობისთვის.

ფონემის გამოთქმის უფრო ზუსტად მოდელირებისთვის, პირველ რიგში, თითოეულ ფონემას ვყოფთ სამ ნაწილად: ჩვეულებრივი დასაწყისი, შუა და დასასრული. მეორეც, ჩვენ შევიმუშავეთ საკუთარი ფონეტიკური ანბანი, რომელიც ითვალისწინებს ფონემების პოზიციას და კონტექსტს. არაგონივრული იქნებოდა კონტექსტზე დამოკიდებული ფონემების ყველა შესაძლო ვარიანტის გათვალისწინება, რადგან ბევრი მათგანი რეალურ ცხოვრებაში არ გვხვდება. ამიტომ, ჩვენ ვასწავლეთ ჩვენს პროგრამას მსგავსი ბგერების ერთად განხილვა. შედეგად მივიღეთ 4000 ელემენტარული ერთეულის ნაკრები - სენონები. ეს არის Yandex-ის ფონეტიკური ანბანი, რომლითაც მუშაობს ჩვენი მეტყველების ამოცნობის ტექნოლოგია.

მეტყველების ამოცნობის ტექნოლოგია Yandex SpeechKit Yandex-ისგან

იდეალურ სამყაროში პროგრამა ზუსტად განსაზღვრავს, თუ რომელი ფონემა შეესაბამება ხმოვანი მოთხოვნის თითოეულ ფრაგმენტს. მაგრამ ზოგჯერ ადამიანმაც კი შეიძლება ვერ გაიგოს ან გაიგოს ყველა ბგერა და ასრულებს სიტყვას კონტექსტიდან გამომდინარე. და თუ ადამიანი ეყრდნობა საკუთარ მეტყველების გამოცდილებას, მაშინ ჩვენი სისტემა მუშაობს ალბათობით.

უპირველეს ყოვლისა, ხმოვანი მოთხოვნის (ჩარჩოს) თითოეული ფრაგმენტი შედარებულია არა ერთ ფონემასთან, არამედ რამდენიმესთან, შესაფერისია სხვადასხვა ხარისხის ალბათობით. მეორეც, არსებობს გადასვლის ალბათობების ცხრილი, რომელიც მიუთითებს, რომ "a"-ს შემდეგ იქნება "a" ერთი ალბათობით, "b" მეორესთან და ა.შ. ეს საშუალებას გაძლევთ განსაზღვროთ ფონემების თანმიმდევრობის ვარიანტები, შემდეგ კი, პროგრამისთვის ხელმისაწვდომი მონაცემების საფუძველზე გამოთქმის, მორფოლოგიისა და სემანტიკის შესახებ, სიტყვების ვარიანტები, რომელთა თქმაც შეგიძლიათ.

პროგრამას ასევე შეუძლია სიტყვების აღდგენა მათი მნიშვნელობის მიხედვით. თუ ხმაურიან ადგილას იმყოფებით, არ ისაუბროთ გარკვევით ან არ გამოიყენოთ ორაზროვანი სიტყვები, ის შეასრულებს თქვენს მოთხოვნას კონტექსტისა და სტატისტიკის საფუძველზე. მაგალითად, პროგრამა უფრო მეტად აგრძელებს ფრაზას „დედამ დაიბანა…“ როგორც „დედამ დარეცხა ჩარჩო“ და არა „დედამ დაიბანა ჭრილობა“. მრავალფეროვან მონაცემებზე მანქანური სწავლის წყალობით, ჩვენი პროგრამა მდგრადია ხმაურის მიმართ, კარგად ამოიცნობს აქცენტირებულ მეტყველებას და ამოცნობის ხარისხი პრაქტიკულად დამოუკიდებელია მომხსენებლის სქესისა და ასაკისგან.

ამჟამად, ჩვენი მეტყველების ამოცნობის ტექნოლოგია სწორად ამოიცნობს სიტყვების 94%-ს Navigator-სა და Mobile Maps-ში და სიტყვების 84%-ს მობილური ბრაუზერში. ამ შემთხვევაში, ამოცნობას დაახლოებით ერთი წამი სჭირდება. ეს უკვე ძალიან ღირსეული შედეგია და მის გასაუმჯობესებლად აქტიურად ვმუშაობთ. ჩვენ გვჯერა, რომ რამდენიმე წელიწადში ხმის შეყვანის ინტერფეისი ისეთივე კარგი იქნება, როგორც კლასიკური მეთოდები.

ზოგადი განმარტებებითავად ტექნოლოგიის გარდა, YaC 2013-ზე წარმოვადგინეთ საჯარო API მეტყველების ამოცნობისთვის - SpeechKit. მისი დახმარებით, დეველოპერებს შეუძლიათ დაამატონ Yandex ხმოვანი ძებნა თავიანთ აპლიკაციებში Android-ისა და iOS-ისთვის. შეგიძლიათ ჩამოტვირთოთ SpeechKit და ასევე წაიკითხოთ დოკუმენტაცია.

","contentType":"ტექსტი/html"),"proposedBody":("წყარო":"

YaC 2013

აკუსტიკური მოდელი

როგორ მუშაობს მეტყველების ამოცნობის ტექნოლოგია Yandex-ის მეტყველების ნაკრები Yandex-დან | 

თუ ხმოვან ძიებას იტყვით „ლევ ტოლსტოი“, სმარტფონი მოისმენს არა სახელსა და გვარს, არა ორ სიტყვას, არამედ ხმოვან სიგნალს, რომელშიც ხმები შეუფერხებლად მიედინება ერთმანეთში, მკაფიო საზღვრების გარეშე. მეტყველების ამოცნობის სისტემის ამოცანაა აღადგინოს ამ სიგნალიდან ნათქვამი. სიტუაციას ართულებს ის ფაქტი, რომ სხვადასხვა სიტუაციებში სხვადასხვა ადამიანის მიერ წარმოთქმული ერთი და იგივე ფრაზა სრულიად განსხვავებულ სიგნალებს მისცემს. აკუსტიკური მოდელირების სისტემა ხელს უწყობს მათ სწორად ინტერპრეტაციას.

როდესაც თქვენ აკეთებთ ხმოვან მოთხოვნას, მაგალითად, Yandex.Navigator-ში, სმარტფონი ჩაწერს მას და აგზავნის Yandex სერვერზე. სერვერზე ჩანაწერი დაყოფილია ბევრ პატარა ფრაგმენტად (ჩარჩოებად) 25 მილიწამიანი სიგრძით, გადახურვით, 10 მილიწამიანი ნაბიჯით. ანუ შენი გამოსვლის ერთი წამი იქცევა ას კადრად.

შემდეგ თითოეულ მათგანს გადაეცემა აკუსტიკური მოდელი - ფუნქცია, რომელიც განსაზღვრავს თუ რა ხმები გამოუშვით. ამ მონაცემებზე დაყრდნობით, სისტემა, რომელიც გაწვრთნილი იყო მანქანური სწავლების მეთოდების გამოყენებით, განსაზღვრავს სიტყვების ვარიაციებს, რომლებსაც ხედავთ ძიების შედეგებში. მობილური ბრაუზერი, „ლეო ტოლსტოის“ მოთხოვნის საპასუხოდ, იპოვის საიტებს დიდი მწერლის შესახებ, ხოლო ნავიგატორი და Maps შესთავაზებენ ლეო ტოლსტოის ქუჩას.

შედეგების სიზუსტე პირდაპირ დამოკიდებულია იმაზე, თუ რამდენად კარგად ამოიცნობს სისტემა სალაპარაკო ბგერებს. ამისათვის ფონეტიკური ანბანი, რომლითაც ის მუშაობს, უნდა იყოს საკმარისად ზუსტი და სრული.

ჰაბრაჰაბრი

რუსულ ენაში, სხვადასხვა თეორიის მიხედვით, 40-მდე ფონემა (ხმოვანი ერთეული) არსებობს. ჩვენი მეტყველების ამოცნობის სისტემა ასახავს შემომავალ მეტყველების სიგნალს ფონემებთან და შემდეგ აგროვებს მათგან სიტყვებს. მაგალითად, სიტყვა "Yandex" შედგება შვიდი ფონემისგან - [th][a][n][d][e][k][s]. ფონემებს შეიძლება ჰქონდეთ სხვადასხვა ხანგრძლივობა, ხოლო ჩარჩოებით რომ დაიშალოს, სიტყვა "yandex" შეიძლება გამოიყურებოდეს, მაგალითად, ასე - [th] [a] [a] [a] [a] [a] [a] [a] [a] [a] [a] [a] [a] [a] ][a][a][a][a][n][n][d][d][e][k][s]. ნებისმიერი ფონემის გამოთქმა დამოკიდებულია მის მეზობლებზე და სიტყვაში პოზიციაზე. ანუ, ბგერა [a] სიტყვის დასაწყისში, შუაში და ბოლოს არის სამი განსხვავებული [a], ხოლო ბგერა [a] ორ ხმოვანს შორის კომბინაციაში „აუდიო ჩანაწერზე“ განსხვავებულია. [a] თანხმოვნებს შორის სიტყვა „ბაკში“. ამიტომ, ფონემა ძალიან უხეში ერთეულია კარგი ამოცნობისთვის.

ფონემის გამოთქმის უფრო ზუსტად მოდელირებისთვის, პირველ რიგში, თითოეულ ფონემას ვყოფთ სამ ნაწილად: ჩვეულებრივი დასაწყისი, შუა და დასასრული. მეორეც, ჩვენ შევიმუშავეთ საკუთარი ფონეტიკური ანბანი, რომელიც ითვალისწინებს ფონემების პოზიციას და კონტექსტს. არაგონივრული იქნებოდა კონტექსტზე დამოკიდებული ფონემების ყველა შესაძლო ვარიანტის გათვალისწინება, რადგან ბევრი მათგანი რეალურ ცხოვრებაში არ გვხვდება. ამიტომ, ჩვენ ვასწავლეთ ჩვენს პროგრამას მსგავსი ბგერების ერთად განხილვა. შედეგად მივიღეთ 4000 ელემენტარული ერთეულის ნაკრები - სენონები. ეს არის Yandex-ის ფონეტიკური ანბანი, რომლითაც მუშაობს ჩვენი მეტყველების ამოცნობის ტექნოლოგია.

მეტყველების ამოცნობის ტექნოლოგია Yandex SpeechKit Yandex-ისგან

იდეალურ სამყაროში პროგრამა ზუსტად განსაზღვრავს, თუ რომელი ფონემა შეესაბამება ხმოვანი მოთხოვნის თითოეულ ფრაგმენტს. მაგრამ ზოგჯერ ადამიანმაც კი შეიძლება ვერ გაიგოს ან გაიგოს ყველა ბგერა და ასრულებს სიტყვას კონტექსტიდან გამომდინარე. და თუ ადამიანი ეყრდნობა საკუთარ მეტყველების გამოცდილებას, მაშინ ჩვენი სისტემა მუშაობს ალბათობით.

უპირველეს ყოვლისა, ხმოვანი მოთხოვნის (ჩარჩოს) თითოეული ფრაგმენტი შედარებულია არა ერთ ფონემასთან, არამედ რამდენიმესთან, შესაფერისია სხვადასხვა ხარისხის ალბათობით. მეორეც, არსებობს გადასვლის ალბათობების ცხრილი, რომელიც მიუთითებს, რომ "a"-ს შემდეგ იქნება "a" ერთი ალბათობით, "b" მეორესთან და ა.შ. ეს საშუალებას გაძლევთ განსაზღვროთ ფონემების თანმიმდევრობის ვარიანტები, შემდეგ კი, პროგრამისთვის ხელმისაწვდომი მონაცემების საფუძველზე გამოთქმის, მორფოლოგიისა და სემანტიკის შესახებ, სიტყვების ვარიანტები, რომელთა თქმაც შეგიძლიათ.

პროგრამას ასევე შეუძლია სიტყვების აღდგენა მათი მნიშვნელობის მიხედვით. თუ ხმაურიან ადგილას იმყოფებით, არ ისაუბროთ გარკვევით ან არ გამოიყენოთ ორაზროვანი სიტყვები, ის შეასრულებს თქვენს მოთხოვნას კონტექსტისა და სტატისტიკის საფუძველზე. მაგალითად, პროგრამა უფრო მეტად აგრძელებს ფრაზას „დედამ დაიბანა…“ როგორც „დედამ დარეცხა ჩარჩო“ და არა „დედამ დაიბანა ჭრილობა“. მრავალფეროვან მონაცემებზე მანქანური სწავლის წყალობით, ჩვენი პროგრამა მდგრადია ხმაურის მიმართ, კარგად ამოიცნობს აქცენტირებულ მეტყველებას და ამოცნობის ხარისხი პრაქტიკულად დამოუკიდებელია მომხსენებლის სქესისა და ასაკისგან.

ამჟამად, ჩვენი მეტყველების ამოცნობის ტექნოლოგია სწორად ამოიცნობს სიტყვების 94%-ს Navigator-სა და Mobile Maps-ში და სიტყვების 84%-ს მობილური ბრაუზერში. ამ შემთხვევაში, ამოცნობას დაახლოებით ერთი წამი სჭირდება. ეს უკვე ძალიან ღირსეული შედეგია და მის გასაუმჯობესებლად აქტიურად ვმუშაობთ. ჩვენ გვჯერა, რომ რამდენიმე წელიწადში ხმის შეყვანის ინტერფეისი ისეთივე კარგი იქნება, როგორც კლასიკური მეთოდები.

ზოგადი განმარტებებითავად ტექნოლოგიის გარდა, YaC 2013-ზე წარმოვადგინეთ საჯარო API მეტყველების ამოცნობისთვის - SpeechKit. მისი დახმარებით, დეველოპერებს შეუძლიათ დაამატონ Yandex ხმოვანი ძებნა თავიანთ აპლიკაციებში Android-ისა და iOS-ისთვის. შეგიძლიათ ჩამოტვირთოთ SpeechKit და ასევე წაიკითხოთ დოკუმენტაცია.

YaC 2013

აკუსტიკური მოდელი

როგორ მუშაობს მეტყველების ამოცნობის ტექნოლოგია Yandex-ის მეტყველების ნაკრები Yandex-დან | 

თუ ხმოვან ძიებას იტყვით „ლევ ტოლსტოი“, სმარტფონი მოისმენს არა სახელსა და გვარს, არა ორ სიტყვას, არამედ ხმოვან სიგნალს, რომელშიც ხმები შეუფერხებლად მიედინება ერთმანეთში, მკაფიო საზღვრების გარეშე. მეტყველების ამოცნობის სისტემის ამოცანაა აღადგინოს ამ სიგნალიდან ნათქვამი. სიტუაციას ართულებს ის ფაქტი, რომ სხვადასხვა სიტუაციებში სხვადასხვა ადამიანის მიერ წარმოთქმული ერთი და იგივე ფრაზა სრულიად განსხვავებულ სიგნალებს მისცემს. აკუსტიკური მოდელირების სისტემა ხელს უწყობს მათ სწორად ინტერპრეტაციას.

როდესაც თქვენ აკეთებთ ხმოვან მოთხოვნას, მაგალითად, Yandex.Navigator-ში, სმარტფონი ჩაწერს მას და აგზავნის Yandex სერვერზე. სერვერზე ჩანაწერი დაყოფილია ბევრ პატარა ფრაგმენტად (ჩარჩოებად) 25 მილიწამიანი სიგრძით, გადახურვით, 10 მილიწამიანი ნაბიჯით. ანუ შენი გამოსვლის ერთი წამი იქცევა ას კადრად.

შემდეგ თითოეულ მათგანს გადაეცემა აკუსტიკური მოდელი - ფუნქცია, რომელიც განსაზღვრავს თუ რა ხმები გამოუშვით. ამ მონაცემებზე დაყრდნობით, სისტემა, რომელიც გაწვრთნილი იყო მანქანური სწავლების მეთოდების გამოყენებით, განსაზღვრავს სიტყვების ვარიაციებს, რომლებსაც ხედავთ ძიების შედეგებში. მობილური ბრაუზერი, „ლეო ტოლსტოის“ მოთხოვნის საპასუხოდ, იპოვის საიტებს დიდი მწერლის შესახებ, ხოლო ნავიგატორი და Maps შესთავაზებენ ლეო ტოლსტოის ქუჩას.

შედეგების სიზუსტე პირდაპირ დამოკიდებულია იმაზე, თუ რამდენად კარგად ამოიცნობს სისტემა სალაპარაკო ბგერებს. ამისათვის ფონეტიკური ანბანი, რომლითაც ის მუშაობს, უნდა იყოს საკმარისად ზუსტი და სრული.

ჰაბრაჰაბრი

რუსულ ენაში, სხვადასხვა თეორიის მიხედვით, 40-მდე ფონემა (ხმოვანი ერთეული) არსებობს. ჩვენი მეტყველების ამოცნობის სისტემა ასახავს შემომავალ მეტყველების სიგნალს ფონემებთან და შემდეგ აგროვებს მათგან სიტყვებს. მაგალითად, სიტყვა "Yandex" შედგება შვიდი ფონემისგან - [th][a][n][d][e][k][s]. ფონემებს შეიძლება ჰქონდეთ სხვადასხვა ხანგრძლივობა, ხოლო ჩარჩოებით რომ დაიშალოს, სიტყვა "yandex" შეიძლება გამოიყურებოდეს, მაგალითად, ასე - [th] [a] [a] [a] [a] [a] [a] [a] [a] [a] [a] [a] [a] [a] ][a][a][a][a][n][n][d][d][e][k][s]. ნებისმიერი ფონემის გამოთქმა დამოკიდებულია მის მეზობლებზე და სიტყვაში პოზიციაზე. ანუ, ბგერა [a] სიტყვის დასაწყისში, შუაში და ბოლოს არის სამი განსხვავებული [a], ხოლო ბგერა [a] ორ ხმოვანს შორის კომბინაციაში „აუდიო ჩანაწერზე“ განსხვავებულია. [a] თანხმოვნებს შორის სიტყვა „ბაკში“. ამიტომ, ფონემა ძალიან უხეში ერთეულია კარგი ამოცნობისთვის.

ფონემის გამოთქმის უფრო ზუსტად მოდელირებისთვის, პირველ რიგში, თითოეულ ფონემას ვყოფთ სამ ნაწილად: ჩვეულებრივი დასაწყისი, შუა და დასასრული. მეორეც, ჩვენ შევიმუშავეთ საკუთარი ფონეტიკური ანბანი, რომელიც ითვალისწინებს ფონემების პოზიციას და კონტექსტს. არაგონივრული იქნებოდა კონტექსტზე დამოკიდებული ფონემების ყველა შესაძლო ვარიანტის გათვალისწინება, რადგან ბევრი მათგანი რეალურ ცხოვრებაში არ გვხვდება. ამიტომ, ჩვენ ვასწავლეთ ჩვენს პროგრამას მსგავსი ბგერების ერთად განხილვა. შედეგად მივიღეთ 4000 ელემენტარული ერთეულის ნაკრები - სენონები. ეს არის Yandex-ის ფონეტიკური ანბანი, რომლითაც მუშაობს ჩვენი მეტყველების ამოცნობის ტექნოლოგია.

მეტყველების ამოცნობის ტექნოლოგია Yandex SpeechKit Yandex-ისგან

იდეალურ სამყაროში პროგრამა ზუსტად განსაზღვრავს, თუ რომელი ფონემა შეესაბამება ხმოვანი მოთხოვნის თითოეულ ფრაგმენტს. მაგრამ ზოგჯერ ადამიანმაც კი შეიძლება ვერ გაიგოს ან გაიგოს ყველა ბგერა და ასრულებს სიტყვას კონტექსტიდან გამომდინარე. და თუ ადამიანი ეყრდნობა საკუთარ მეტყველების გამოცდილებას, მაშინ ჩვენი სისტემა მუშაობს ალბათობით.

უპირველეს ყოვლისა, ხმოვანი მოთხოვნის (ჩარჩოს) თითოეული ფრაგმენტი შედარებულია არა ერთ ფონემასთან, არამედ რამდენიმესთან, შესაფერისია სხვადასხვა ხარისხის ალბათობით. მეორეც, არსებობს გადასვლის ალბათობების ცხრილი, რომელიც მიუთითებს, რომ "a"-ს შემდეგ იქნება "a" ერთი ალბათობით, "b" მეორესთან და ა.შ. ეს საშუალებას გაძლევთ განსაზღვროთ ფონემების თანმიმდევრობის ვარიანტები, შემდეგ კი, პროგრამისთვის ხელმისაწვდომი მონაცემების საფუძველზე გამოთქმის, მორფოლოგიისა და სემანტიკის შესახებ, სიტყვების ვარიანტები, რომელთა თქმაც შეგიძლიათ.

პროგრამას ასევე შეუძლია სიტყვების აღდგენა მათი მნიშვნელობის მიხედვით. თუ ხმაურიან ადგილას იმყოფებით, არ ისაუბროთ გარკვევით ან არ გამოიყენოთ ორაზროვანი სიტყვები, ის შეასრულებს თქვენს მოთხოვნას კონტექსტისა და სტატისტიკის საფუძველზე. მაგალითად, პროგრამა უფრო მეტად აგრძელებს ფრაზას „დედამ დაიბანა…“ როგორც „დედამ დარეცხა ჩარჩო“ და არა „დედამ დაიბანა ჭრილობა“. მრავალფეროვან მონაცემებზე მანქანური სწავლის წყალობით, ჩვენი პროგრამა მდგრადია ხმაურის მიმართ, კარგად ამოიცნობს აქცენტირებულ მეტყველებას და ამოცნობის ხარისხი პრაქტიკულად დამოუკიდებელია მომხსენებლის სქესისა და ასაკისგან.

ამჟამად, ჩვენი მეტყველების ამოცნობის ტექნოლოგია სწორად ამოიცნობს სიტყვების 94%-ს Navigator-სა და Mobile Maps-ში და სიტყვების 84%-ს მობილური ბრაუზერში. ამ შემთხვევაში, ამოცნობას დაახლოებით ერთი წამი სჭირდება. ეს უკვე ძალიან ღირსეული შედეგია და მის გასაუმჯობესებლად აქტიურად ვმუშაობთ. ჩვენ გვჯერა, რომ რამდენიმე წელიწადში ხმის შეყვანის ინტერფეისი ისეთივე კარგი იქნება, როგორც კლასიკური მეთოდები.

ზოგადი განმარტებებითავად ტექნოლოგიის გარდა, YaC 2013-ზე წარმოვადგინეთ საჯარო API მეტყველების ამოცნობისთვის - SpeechKit. მისი დახმარებით, დეველოპერებს შეუძლიათ დაამატონ Yandex ხმოვანი ძებნა თავიანთ აპლიკაციებში Android-ისა და iOS-ისთვის. შეგიძლიათ ჩამოტვირთოთ SpeechKit და ასევე წაიკითხოთ დოკუმენტაცია.

","contentType":"ტექსტი/html"),"authorId":"5105614","slug":"72171","canEdit":false,"canComment":false,"isBanned":false,"canPublish" :false,"viewType":"ძველი","isDraft":false,"isSubscriber":false,"commentsCount":13,"modificationDate":"პარ 22 ნოემბერი 2013 16:24:00 GMT+0000 (UTC)" ,"showPreview":true,"approvedPreview":("source":"დღეს ბევრი ადამიანი წყვეტს ყოველდღიურ პრობლემებს მოძრაობისას - მათი ტელეფონებიდან. მისი გამოყენება შეგიძლიათ თქვენი ელფოსტის შესამოწმებლად, დოკუმენტების და ფოტოების გასაგზავნად, უახლოესი ბანკომატის მოსაძებნად. ან მანქანის მარშრუტის შექმნა ყველა ასეთი ამოცანისთვის არ არის მოსახერხებელი კლავიატურის გამოყენება, ასე რომ, ახლა მობილურის განვითარების ერთ-ერთი ყველაზე მნიშვნელოვანი სფეროა ხმოვანი კონტროლი.","html":"დღეს ბევრი ადამიანი წყვეტს ყოველდღიურ დავალებებს მოძრაობისას. - მათი ტელეფონიდან შეგიძლიათ გამოიყენოთ ის, რომ შეამოწმოთ ელფოსტა, გაგზავნოთ დოკუმენტები და ფოტოები, იპოვოთ უახლოესი ბანკომატი ან ააწყოთ მანქანის მარშრუტი მობილურის განვითარება არის ხმის კონტროლი.","contentType":"text/html"),"proposedPreview" :("source":"დღეს ბევრი ადამიანი წყვეტს ყოველდღიურ პრობლემებს მოძრაობაში - მათი ტელეფონებიდან. მისი საშუალებით შეგიძლიათ შეამოწმოთ თქვენი ელფოსტა, გაგზავნოთ დოკუმენტები და ფოტოები, იპოვოთ უახლოესი ბანკომატი ან ააწყოთ მართვის მარშრუტი. არ არის მოსახერხებელი კლავიატურის გამოყენება ყველა ასეთი ამოცანისთვის, ამიტომ ახლა მობილურის განვითარების ერთ-ერთი ყველაზე აქტუალური სფეროა ხმის კონტროლი.","html":"დღეს ბევრი ადამიანი წყვეტს ყოველდღიურ პრობლემებს მოძრაობაში - ტელეფონიდან. მისი საშუალებით შეგიძლიათ შეამოწმოთ თქვენი ელფოსტა, გაგზავნოთ დოკუმენტები და ფოტოები, იპოვოთ უახლოესი ბანკომატი ან ააწყოთ მართვის მარშრუტი. არ არის მოსახერხებელი კლავიატურის გამოყენება ყველა ასეთი ამოცანისთვის, ამიტომ ახლა მობილურის განვითარების ერთ-ერთი ყველაზე აქტუალური სფეროა ხმის კონტროლი.","contentType":"ტექსტი/html"),"titleImage":null,"ტეგები" :[("displayName ":"Yandex technology","slug":"tekhnologii-yandeksa","categoryId":"150002777","url":"/blog/company??tag=tekhnologii-yandeksa"),( "displayName":" როგორ მუშაობს?","Slug":"kak-eto-rabotaet","categoryId":"150006149","url":"/blog/company??tag=kak-eto-rabotaet ")],"isModerator ":false,"commentsEnabled":true,"url":"/blog/company/72171","urlTemplate":"/blog/company/%slug%","fullBlogUrl":"https ://yandex.ru /blog/company","addCommentUrl":"/blog/createComment/company/72171","updateCommentUrl":"/blog/updateComment/company/72171","addCommentWithCaptcha":"/blog/ createWithCaptcha/company/72171" ,"changeCaptchaUrl":"/blog/api/captcha/new","putImageUrl":"/blog/image/put","urlBlog":"/blog/company","urlEditPost": "/blog/562886797eba6ef16f805641/ რედაქტირება","urlSlug":"/blog/post/generateSlug","urlPublishPost":"/blog/562886797eba6ef16f805641",27"urlSlug"/publish eba6ef16f805641/unpublish","urlRemovePost ":"/blog/ 562886797eba6ef16f805641/removePost","urlDraft":"/blog/company/72171/draft","urlDraftTemplate":"/blog/company/%slug%/draft"Draft"Draft" /562886797eba6ef16f805641/removeD raft", "urlTagSuggest":"/blog/api/suggest/company","urlAfterDelete":"/blog/company","isAuthor":false,"subscribeUrllog":"/b /562886797eba6ef16f805641","unsubscribeUrl" :"/blog/api/unsubscribe/562886797eba6ef16f805641","urlEditPostPage":"/blog/company/56285T,16280F slate":"/blog/post/translate","urlRelateIssue" :"/blog/post/ updateIssue","urlUpdateTranslate":"/blog/post/updateTranslate","urlLoadTranslate":"/blog/post/loadTranslate","urlTranslationStatus":"/blog/company/72171/translationInfo "urlRelatedArticles":"/ blog/api/relatedArticles/company/72171","author":("id":"5105614","uid":("მნიშვნელობა":"5105614","lite":false, "hosted":false), "aliases":("13":"kadaner"),"login":"minushuman","display_name":("name":"Alexey","avatar":("ნაგულისხმევი" :"21377/5105614-16014116 "," ცარიელი":false)),,"მისამართი":" [ელფოსტა დაცულია]","defaultAvatar":"21377/5105614-16014116","imageSrc":"https://avatars.mds.yandex.net/get-yapic/21377/5105614-16014116/islands-middleSta","is"და true),"originalModificationDate":"2013-11-22T12:24:47.000Z","socialImage":("oriig":("fullPath":"https://avatars.mds.yandex.net/get-yablogs /49865/file_1465551301378/orig"))))))">

როგორ მუშაობს ეს? მეტყველების ამოცნობა

YaC 2013

ხმის კონტროლი ეფუძნება მეტყველების ამოცნობის ტექნოლოგიას. იგი მოიცავს მიღწევებს სხვადასხვა სფეროში: გამოთვლითი ლინგვისტიკიდან ციფრული სიგნალის დამუშავებამდე. ოქტომბრის დასაწყისში გამართულ კონფერენციაზე Yandex-მა წარმოადგინა თავისი მეტყველების ამოცნობის ტექნოლოგია და დღეს გვსურს ვისაუბროთ იმაზე, თუ როგორ მუშაობს იგი.

როგორ მუშაობს მეტყველების ამოცნობის ტექნოლოგია Yandex-ის მეტყველების ნაკრები Yandex-დან | 

თუ ხმოვან ძიებას იტყვით „ლევ ტოლსტოი“, სმარტფონი მოისმენს არა სახელსა და გვარს, არა ორ სიტყვას, არამედ ხმოვან სიგნალს, რომელშიც ხმები შეუფერხებლად მიედინება ერთმანეთში, მკაფიო საზღვრების გარეშე. მეტყველების ამოცნობის სისტემის ამოცანაა აღადგინოს ამ სიგნალიდან ნათქვამი. სიტუაციას ართულებს ის ფაქტი, რომ სხვადასხვა სიტუაციებში სხვადასხვა ადამიანის მიერ წარმოთქმული ერთი და იგივე ფრაზა სრულიად განსხვავებულ სიგნალებს მისცემს. აკუსტიკური მოდელირების სისტემა ხელს უწყობს მათ სწორად ინტერპრეტაციას.

როდესაც თქვენ აკეთებთ ხმოვან მოთხოვნას, მაგალითად, Yandex.Navigator-ში, სმარტფონი ჩაწერს მას და აგზავნის Yandex სერვერზე. სერვერზე ჩანაწერი დაყოფილია ბევრ პატარა ფრაგმენტად (ჩარჩოებად) 25 მილიწამიანი სიგრძით, გადახურვით, 10 მილიწამიანი ნაბიჯით. ანუ შენი გამოსვლის ერთი წამი იქცევა ას კადრად.

შემდეგ თითოეულ მათგანს გადაეცემა აკუსტიკური მოდელი - ფუნქცია, რომელიც განსაზღვრავს თუ რა ხმები გამოუშვით. ამ მონაცემებზე დაყრდნობით, სისტემა, რომელიც გაწვრთნილი იყო მანქანური სწავლების მეთოდების გამოყენებით, განსაზღვრავს სიტყვების ვარიაციებს, რომლებსაც ხედავთ ძიების შედეგებში. მობილური ბრაუზერი, „ლეო ტოლსტოის“ მოთხოვნის საპასუხოდ, იპოვის საიტებს დიდი მწერლის შესახებ, ხოლო ნავიგატორი და Maps შესთავაზებენ ლეო ტოლსტოის ქუჩას.

შედეგების სიზუსტე პირდაპირ დამოკიდებულია იმაზე, თუ რამდენად კარგად ამოიცნობს სისტემა სალაპარაკო ბგერებს. ამისათვის ფონეტიკური ანბანი, რომლითაც ის მუშაობს, უნდა იყოს საკმარისად ზუსტი და სრული.

ჰაბრაჰაბრი

რუსულ ენაში, სხვადასხვა თეორიის მიხედვით, 40-მდე ფონემა (ხმოვანი ერთეული) არსებობს. ჩვენი მეტყველების ამოცნობის სისტემა ასახავს შემომავალ მეტყველების სიგნალს ფონემებთან და შემდეგ აგროვებს მათგან სიტყვებს. მაგალითად, სიტყვა "Yandex" შედგება შვიდი ფონემისგან - [th][a][n][d][e][k][s]. ფონემებს შეიძლება ჰქონდეთ სხვადასხვა ხანგრძლივობა, ხოლო ჩარჩოებით რომ დაიშალოს, სიტყვა "yandex" შეიძლება გამოიყურებოდეს, მაგალითად, ასე - [th] [a] [a] [a] [a] [a] [a] [a] [a] [a] [a] [a] [a] [a] ][a][a][a][a][n][n][d][d][e][k][s]. ნებისმიერი ფონემის გამოთქმა დამოკიდებულია მის მეზობლებზე და სიტყვაში პოზიციაზე. ანუ, ბგერა [a] სიტყვის დასაწყისში, შუაში და ბოლოს არის სამი განსხვავებული [a], ხოლო ბგერა [a] ორ ხმოვანს შორის კომბინაციაში „აუდიო ჩანაწერზე“ განსხვავებულია. [a] თანხმოვნებს შორის სიტყვა „ბაკში“. ამიტომ, ფონემა ძალიან უხეში ერთეულია კარგი ამოცნობისთვის.

ფონემის გამოთქმის უფრო ზუსტად მოდელირებისთვის, პირველ რიგში, თითოეულ ფონემას ვყოფთ სამ ნაწილად: ჩვეულებრივი დასაწყისი, შუა და დასასრული. მეორეც, ჩვენ შევიმუშავეთ საკუთარი ფონეტიკური ანბანი, რომელიც ითვალისწინებს ფონემების პოზიციას და კონტექსტს. არაგონივრული იქნებოდა კონტექსტზე დამოკიდებული ფონემების ყველა შესაძლო ვარიანტის გათვალისწინება, რადგან ბევრი მათგანი რეალურ ცხოვრებაში არ გვხვდება. ამიტომ, ჩვენ ვასწავლეთ ჩვენს პროგრამას მსგავსი ბგერების ერთად განხილვა. შედეგად მივიღეთ 4000 ელემენტარული ერთეულის ნაკრები - სენონები. ეს არის Yandex-ის ფონეტიკური ანბანი, რომლითაც მუშაობს ჩვენი მეტყველების ამოცნობის ტექნოლოგია.

მეტყველების ამოცნობის ტექნოლოგია Yandex SpeechKit Yandex-ისგან

იდეალურ სამყაროში პროგრამა ზუსტად განსაზღვრავს, თუ რომელი ფონემა შეესაბამება ხმოვანი მოთხოვნის თითოეულ ფრაგმენტს. მაგრამ ზოგჯერ ადამიანმაც კი შეიძლება ვერ გაიგოს ან გაიგოს ყველა ბგერა და ასრულებს სიტყვას კონტექსტიდან გამომდინარე. და თუ ადამიანი ეყრდნობა საკუთარ მეტყველების გამოცდილებას, მაშინ ჩვენი სისტემა მუშაობს ალბათობით.

უპირველეს ყოვლისა, ხმოვანი მოთხოვნის (ჩარჩოს) თითოეული ფრაგმენტი შედარებულია არა ერთ ფონემასთან, არამედ რამდენიმესთან, შესაფერისია სხვადასხვა ხარისხის ალბათობით. მეორეც, არსებობს გადასვლის ალბათობების ცხრილი, რომელიც მიუთითებს, რომ "a"-ს შემდეგ იქნება "a" ერთი ალბათობით, "b" მეორესთან და ა.შ. ეს საშუალებას გაძლევთ განსაზღვროთ ფონემების თანმიმდევრობის ვარიანტები, შემდეგ კი, პროგრამისთვის ხელმისაწვდომი მონაცემების საფუძველზე გამოთქმის, მორფოლოგიისა და სემანტიკის შესახებ, სიტყვების ვარიანტები, რომელთა თქმაც შეგიძლიათ.

პროგრამას ასევე შეუძლია სიტყვების აღდგენა მათი მნიშვნელობის მიხედვით. თუ ხმაურიან ადგილას იმყოფებით, არ ისაუბროთ გარკვევით ან არ გამოიყენოთ ორაზროვანი სიტყვები, ის შეასრულებს თქვენს მოთხოვნას კონტექსტისა და სტატისტიკის საფუძველზე. მაგალითად, პროგრამა უფრო მეტად აგრძელებს ფრაზას „დედამ დაიბანა…“ როგორც „დედამ დარეცხა ჩარჩო“ და არა „დედამ დაიბანა ჭრილობა“. მრავალფეროვან მონაცემებზე მანქანური სწავლის წყალობით, ჩვენი პროგრამა მდგრადია ხმაურის მიმართ, კარგად ამოიცნობს აქცენტირებულ მეტყველებას და ამოცნობის ხარისხი პრაქტიკულად დამოუკიდებელია მომხსენებლის სქესისა და ასაკისგან.

ამჟამად, ჩვენი მეტყველების ამოცნობის ტექნოლოგია სწორად ამოიცნობს სიტყვების 94%-ს Navigator-სა და Mobile Maps-ში და სიტყვების 84%-ს მობილური ბრაუზერში. ამ შემთხვევაში, ამოცნობას დაახლოებით ერთი წამი სჭირდება. ეს უკვე ძალიან ღირსეული შედეგია და მის გასაუმჯობესებლად აქტიურად ვმუშაობთ. ჩვენ გვჯერა, რომ რამდენიმე წელიწადში ხმის შეყვანის ინტერფეისი ისეთივე კარგი იქნება, როგორც კლასიკური მეთოდები.

ზოგადი განმარტებებითავად ტექნოლოგიის გარდა, YaC 2013-ზე წარმოვადგინეთ საჯარო API მეტყველების ამოცნობისთვის - SpeechKit. მისი დახმარებით, დეველოპერებს შეუძლიათ დაამატონ Yandex ხმოვანი ძებნა თავიანთ აპლიკაციებში Android-ისა და iOS-ისთვის. შეგიძლიათ ჩამოტვირთოთ SpeechKit და ასევე წაიკითხოთ დოკუმენტაცია.

მეცნიერები ამ პრობლემას დაახლოებით 70 წელი სწავლობდნენ, პირველი ინდუსტრიული სისტემა შეიქმნა იაპონიაში 80-იანი წლების მეორე ნახევარში, მას ეწოდა კომპიუტერზე ტექსტის კარნახის სისტემა (დიქტოგრაფები), ამ სისტემას ჰქონდა ვიწრო სპეციალიზაცია.

კომპიუტერის მეტყველების ამოცნობაში ვგულისხმობთ ისეთ ამოცნობას, რომელიც დეტალურად არის აღწერილი ადამიანის მიერ მეტყველების აღქმაში, ნებისმიერ პირობებში და ნებისმიერ ადამიანთან ურთიერთობისას.

პრობლემის გადაჭრას ხელს უშლის:

1) მკაფიო თეორიული იდეების ნაკლებობა, რომელიც აღწერს ნერვული სისტემის მიერ განხორციელებულ გარდაქმნების მთელ კომპლექსს სამეტყველო სიგნალების დამუშავებისას;

2) გამართული მეტყველების ფლობა:

3) ბუნდოვანი სიტყვის საზღვრები:

4) მეზობელი ბგერების გავლენა ერთმანეთზე;

5) ფუნქციური სიტყვების გაურკვეველი გამოთქმა და გაქრობაც კი;

7) ვერბალური კომუნიკაციის პროცესში დიდი მნიშვნელობა აქვს კომუნიკაციის პარალინგვისტურ საშუალებებს:

ა) კინესიკა (მიმიკა, ჟესტები);

გ) პროქსემიკა (ადამიანთა შორის მანძილი).

ამიტომ, დღეს ARR შეიძლება განხორციელდეს მხოლოდ გარკვეული შეზღუდვების ქვეშ:

1) სალაპარაკო სიტყვების ამოცნობა იზოლირებულად;

3) ამოცნობა მცირე, წინასწარ განსაზღვრულ ლექსიკონზე დაყრდნობით.

IBM ლიდერია ამ ტიპის პროდუქტებში ViaVoice-ით (140 სიტყვა წუთში). კარნახის პოპულარული სისტემაა DragonSystem.

ამოცნობის ალგორითმი:

1. სალაპარაკო მეტყველების შეყვანა, მონაცემთა დამუშავება (ხმაურის ამოღება);

2. ხმის ნაკადის სეგმენტებად დაყოფა;

3. იზოლაცია მინიმალური აკუსტიკური ერთეულის თითოეულ სეგმენტში - სიტყვა;

4. შერჩეული ერთეულების შედარება სტანდარტებთან.

მეტყველების ამოცნობის ინდუსტრიული სისტემები პირობითად იყოფა 4 ჯგუფად:

1. ხმის მართვის ხელსაწყოები (კომპიუტერი, ტელეფონი);

2. ტექსტის კარნახის ხელსაწყოები;

3. საინფორმაციო და საცნობარო სისტემები ინტერაქტიულ რეჟიმში, როგორც ავტომოპასუხე;



4. მეტყველების ნიმუშზე პირის იდენტიფიცირების საშუალებები.


კითხვა 27.

მეტყველების სინთეზის ავტომატური სისტემები

მეთოდები:

1) კოდირება (მეტყველების სიგნალების ჩაწერა ორობით სისტემაში მათი შემდგომი აღდგენით)

ა) არსებითად, კომპიუტერი აქ ემსახურება როგორც მეტყველების ჩაწერას, სიტყვები და ფრაზები წინასწარ ჩაწერილია კომპიუტერში და რეპროდუცირებულია ბრძანებების გამოყენებით;

ბ) მინუსი:

შეუძლებელია ისეთი ფრაზის თქმა, რომელიც მეხსიერებაში არ არის შესული;

მეტყველების სიგნალების პირდაპირი ფორმით შენახვა მოითხოვს მეხსიერების დიდ რაოდენობას;

გ) უპირატესობები:

მეტყველების ბუნებრივი ხმა;

მეტყველების ხარისხი უახლოვდება ადამიანის მეტყველებას;

2) მეტყველების ფონეტიკური სინთეზი (ადამიანის ვოკალური ტრაქტის აკუსტიკური მოდელირება)

ა) ამ მეთოდის გამოყენებით სინთეზატორი ძირეულად განსხვავდება პირველი მეთოდის სინთეზატორისგან - მას აქვს არაბუნებრივი ხმა, ლაპარაკობს რობოტის ხმით;

ბ) ჩვეულებრივ ხორციელდება პიროვნების მიერ დაწერილი ორთოგრაფიული ტექსტის გამოყენებით, მასში შემავალი კომპიუტერი შეუძლია ასოების ფონემებად გადაქცევა, ფონემების ალოფონებად და სინთეზირება უწყვეტი მეტყველების სიგნალის სპიკერის ალოფონების, არჩევადი და მონაცემთა ბაზის გამოყენებით;

გ) ყველაზე პერსპექტიული, რადგან მეტყველება რეალურად წარმოიქმნება თავად კომპიუტერის მიერ.

ა) ლექსიკონი ამ ტიპის სინთეზატორში, როგორც პირველ მეთოდში, იქმნება ადამიანის მონაწილეობით, მაგრამ აქ არ არის სიტყვები და ფრაზები, რომლებიც იწერება მეხსიერებაში, არამედ მეტყველების ბგერების რიცხვითი მახასიათებლები და ინტონაცია. ფრაზები იზოლირებულია, რაც შესაძლებელს ხდის მეხსიერების საჭირო რაოდენობის შემცირებას.

ბ) მეტყველება ბუნებრივია მისი გენერირებისთვის, რიცხობრივი მახასიათებლები გარდაიქმნება ხმოვან სიგნალებად სპეციალური ბრძანებების გამოყენებით.

ამჟამად მიმდინარეობს განვითარება იმის უზრუნველსაყოფად, რომ სინთეზირებული მეტყველება ჟღერდეს ცოცხალი, ემოციური და ბუნებრივი. ამ პრობლემის გადაჭრა შესაძლებელს გახდის ერთდროული თარგმანის სისტემების შექმნას, კომპიუტერების უფრო აქტიურ გამოყენებას ენის შესწავლაში და ასევე მხედველობის დარღვევის მქონე ადამიანებისთვის.


კითხვა 28.

მონაცემთა ბაზები (DB) და ენობრივი ინფორმაციის რესურსები (LIR)

DB- ინფორმაციის ერთობლიობა გარკვეული გზით შეკვეთილი გარკვეული ობიექტების შესახებ.

ობიექტები- ეს არის ინფორმაცია, ფაქტები, მოვლენები, პროცესები. ობიექტი შეიძლება იყოს მატერიალური (სტუდენტი, პროდუქტი, მანქანა) და არამატერიალური (ღონისძიება - ცირკში წასვლა, პროცესი - ტექსტის თარგმანი, ფაქტი - უნივერსიტეტში მიღება). ცხოვრებაში, თითოეულ ობიექტს აქვს გარკვეული თვისებები ან ატრიბუტები (წონა, სიჩქარე, ფერი), რომელსაც ენიჭება გარკვეული მნიშვნელობები: პური იწონის 400 გრამს, მანქანის სიჩქარე 90 კმ/სთ.

მონაცემთა ბაზაში ატრიბუტები წარმოდგენილია მონაცემთა ელემენტებით ან უბრალოდ მონაცემებით და მათი მნიშვნელობები არის მონაცემთა მნიშვნელობები.

ამრიგად, მოცემული– ეს არის რაღაც მაჩვენებელი, რომელიც ახასიათებს მოცემულ ობიექტს და იღებს გარკვეულ მნიშვნელობას ობიექტის კონკრეტული ელემენტისთვის. მონაცემთა ჯგუფს, რომელიც ქმნის ერთ რიგს, ეწოდება ჩანაწერი. თუ რამდენიმე ჩანაწერს აქვს მონაცემთა ერთნაირი ნაკრები ერთი და იგივე ტიპის ინფორმაციით, მაშინ ამ ჩანაწერებს აქვთ იგივე ფორმატი. იგივე ფორმატის ბევრ ჩანაწერს ფაილი ეწოდება. და მრავალი ფაილი ქმნის მონაცემთა ბაზას.

ბაზის ძირითადი ფუნქციები

1) მონაცემთა ბაზაში ინფორმაციის მოძიება

ა) დამატება;

ბ) მოცილება

გ) რედაქტირება

მონაცემთა ბაზის მართვის სისტემები (DBMS)

DBMS– პროგრამული ინსტრუმენტების ერთობლიობა, რომელიც იძლევა მონაცემთა ბაზის შექმნას და შენარჩუნებას.

DBMS ტიპები:

1. დესკტოპის DBMS იყოფა სირთულის ხარისხის მიხედვით:

ა) DBMS მცირე მოცულობის ინფორმაციის დასამუშავებლად (MS OUTLOOK)

ბ) DBMS მიმართული მომხმარებლებისთვის, რომლებმაც არ იციან დაპროგრამება (EXCEL, LOTUS)

გ) აპლიკაციის შემუშავებაზე ორიენტირებული რთული DBMS (Fox Base, MS Access)

2. სერვერის DBMS - გამოიყენეთ "კლიენტ-სერვერის" არქიტექტურა, ე.ი. განახორციელოს მონაცემთა ცენტრალიზებული შენახვა და დამუშავება (Informix, MS SQL Server).

DBMS-ის ძირითადი ფუნქციები

1) უზრუნველყოს მონაცემთა ბაზის სტრუქტურის შექმნა (განისაზღვრე რა ინფორმაცია იქნება შენახული, რა ატრიბუტები, მონაცემთა ტიპები)

2) მონაცემთა ბაზაში განთავსებული ინფორმაციის მოდიფიკაცია:

ა) დამატება;

ბ) მოცილება

გ) რედაქტირება

3) მოიძიეთ ინფორმაცია


კითხვა 29.

LIR -

აქტიური ფორმები

ყველაზე ზოგადი თვალსაზრისით LIR

პასიური ენობრივი ინფორმაციის რესურსები მოიცავს:

1) წერილობითი ლექსიკა წარმოდგენილია ერთენოვანი და მრავალენოვანი ლექსიკონებით. ზოგადი გაგებით ლექსიკონი - ეს არის საცნობარო წიგნი, რომელიც შეიცავს სიტყვებს (მორფემები, ფრაზები, იდიომები და ა.შ.) დალაგებული გარკვეული თანმიმდევრობით (სხვადასხვა ტიპის ლექსიკონებში). ის შეიძლება შეიცავდეს აღწერილი ერთეულების მნიშვნელობის ინტერპრეტაციას, ასევე სხვადასხვა ინფორმაციას მათ. ნებისმიერი ლექსიკონი შეიძლება წარმოდგენილი იყოს როგორც რელაციური მონაცემთა ბაზა

ა) სიტყვაფორმების სიხშირე-ანბანური ლექსიკონინებისმიერი ტექსტი – უმარტივესი ენობრივი მონაცემთა ბაზა;

ბ) სიტყვების ინდექსიუფრო რთული მონაცემთა ბაზა. მასში, ტექსტში სიტყვის ფორმის გამოყენების აბსოლუტური სიხშირის გარდა, მითითებულია გვერდების და სტრიქონების რიცხვი იმ გვერდზე, სადაც ნაპოვნია ეს სიტყვა ფორმა.

V) კონკორდანსებიკიდევ უფრო რთული ტიპის მონაცემთა ბაზა . მათში ტექსტის თითოეული სიტყვის ფორმა ხასიათდება არა მხოლოდ რიცხვითი მაჩვენებლებით (სიხშირე, გვერდის ნომერი, სტრიქონის ნომერი და ა.შ.), არამედ გარკვეული კონტექსტითაც. , რომელშიც იგი გამოიყენება. როგორც წესი, ეს კონტექსტი შედგება 3 წინადადებისგან: წინადადება, რომელშიც წარმოიქმნება სიტყვის ფორმა, წინადადება მთავარი წინადადების წინ და წინადადება მის შემდეგ.

გ) ენციკლოპედიებილექსიკონები, რომლებიც შეიცავს არა სიტყვის, როგორც ასეთის, არამედ მის მიერ განსაზღვრული საგნის, ფაქტის ან ფენომენის მახასიათებლებს. საკმაოდ დიდი რაოდენობითაა სხვადასხვა ენციკლოპედიები კომპიუტერის შესანახ მედიაზე. მათ შორის ყველაზე ცნობილია ენციკლოპედია „ბრიტანიკა“. მასში შედის 82000 სტატია და 700 დამატებითი მასალა, რომელიც გამოქვეყნდა 1768 წლიდან. არანაკლებ ცნობილია ფრანგული ენციკლოპედიები "Tons les savoire du Monde", "Le monde sur CD-ROM", "ვერსალი" და ა.შ. "კირილესა და მეთოდეს დიდი ენციკლოპედია" გამოიცა რუსულად.

დ) თეზაურუსი- ფუნდამენტურად განსხვავებული ტიპის ლექსიკონი. იგი ცალსახად მიუთითებს სემანტიკურ კავშირებზე მისი ლექსიკური ერთეულების გარკვეულ ნაწილს შორის. როგორც წესი, ასეთი ლექსიკონები აგებულია ტექსტებისთვის საკმაოდ ვიწრო პრობლემურ ზონაში: კომპიუტერული ტექნოლოგია, მუსიკა, გემთმშენებლობა, სოფლის მეურნეობა და ა.შ.

ე) ტერმინოლოგიური ლექსიკონი(TS) – ლექსიკონი, რომლის ძირითადი ერთეული ტერმინია .
ვადა არის სიტყვა ან დაქვემდებარებული ფრაზა, რომელსაც აქვს განსაკუთრებული მნიშვნელობა, გამოხატავს და აყალიბებს პროფესიულ კონცეფციას და გამოიყენება სამეცნიერო და პროფესიულ-ტექნიკური ობიექტების და მათ შორის ურთიერთობის შემეცნებისა და განვითარების პროცესში.


კითხვა 30.

LIR -კომპიუტერზე შენახული მონაცემების კოლექცია.

ლინგვისტური საინფორმაციო რესურსები– საინფორმაციო რესურსის ერთ-ერთი კომპონენტი გაგებულია, როგორც ინტელექტუალური რესურსი, კოლექტიური შემოქმედების შედეგი

საინფორმაციო რესურსების პასიური ფორმებია წიგნები, ჟურნალები, გაზეთები, ლექსიკონები, ენციკლოპედიები, პატენტები, მონაცემთა ბაზები და მონაცემთა ბანკები და ა.შ.

აქტიური ფორმებიმოიცავს ალგორითმებს, მოდელებს, პროგრამებს, ცოდნის ბაზებს

ყველაზე ზოგადი თვალსაზრისით LIR- ეს არის ერთგვარი ენობრივი მონაცემთა ბაზა, რომელიც შეიძლება განახლდეს და რომელშიც შეგიძლიათ მოძებნოთ ესა თუ ის ინფორმაცია. ლინგვისტური რესურსები აუცილებელია როგორც კომპიუტერის მომხმარებლებისთვის, ასევე მეტყველების ტექსტის დამუშავებასთან დაკავშირებული სხვადასხვა კომპიუტერული სისტემებისთვის: ტექსტების შეჯამება, ანოტაცია და თარგმნა, ტექსტის ავტომატური ანალიზი, მეტყველებისა და ტექსტის სინთეზი.

2) დაწერილი ტექსტის მასივი ( სხეულის ტექსტი in, ე.ი. ტექსტების ერთობლიობა, რომელიც საკმარისია ენის, დიალექტის ან ენის სხვა ქვეჯგუფის შესახებ სანდო სამეცნიერო დასკვნების მისაღებად).

ა) შეიძლება გამოყენებულ იქნას:

ლექსიკოგრაფიასა და ლექსიკოლოგიაში (სხვადასხვა ლექსიკონების შედგენისთვის, პოლისემანტიკური სიტყვების მნიშვნელობების განსაზღვრისთვის, ტექსტში სიტყვების ასოციაციური კავშირების ამოცნობისთვის, ტერმინებისა და ტერმინოლოგიური ფრაზების გამოკვეთისთვის და ა.შ.).

გრამატიკაში (სხვადასხვა ტიპის ტექსტებში გრამატიკული მორფემების გამოყენების სიხშირის დასადგენად, ფრაზებისა და წინადადებების ყველაზე ხშირად გამოყენებული ტიპების იდენტიფიცირება, სინონიმური მორფოლოგიური ერთეულების მნიშვნელობების განსაზღვრა, სიტყვების კლასების გამოყენების სიხშირე და ა.შ.).

ტექსტის ლინგვისტიკაში (ტექსტის ტიპების დიფერენცირება, თანხვედრის შექმნა, აბზაცებში წინადადებებსა და აბზაცებს შორის კავშირის დადგენა და ა.შ.).

ტექსტების ავტომატურად თარგმნისას (სიტყვების კონტექსტების ძიება, რომლებსაც აქვთ რამდენიმე თარგმანის ეკვივალენტი, პარალელურ ტექსტებში ტერმინოლოგიური და ფრაზეოლოგიური ფრაზების თარგმანის ეკვივალენტების ძიება და ა.შ.).

საგანმანათლებლო მიზნებისთვის (ციტატების, ნამუშევრების ცალკეული ფრაგმენტების შესარჩევად, სახელმძღვანელოებისა და სასწავლო საშუალებების შექმნის პროცესში გამოყენებული მაგალითები.

ბ) მონიშნული ტექსტური კორპუსი(ინგლისურიდან, ტეგი -"ინდექსი, ნაგავი"). ასეთ კორპუსში ყველა სიტყვა იღებს ასოებს ან რიცხვობრივ ინდექსებს, რომლებიც მიუთითებს მათ გრამატიკულ, ლექსიკურ, სემანტიკურ ან სტრუქტურულ მახასიათებლებზე. შეიძლება არსებობდეს რამდენიმე ასეთი ინდექსი.

3) ფონეტიკური ენობრივი რესურსები
ამჟამად ზოგადად მიღებულია, რომ მანქანით წაკითხვადი ფონეტიკური კორპუსების შესაქმნელად, ტრანსკრიფცია გამოიყენება ბგერის მეტყველების ორთოგრაფიული წარმოდგენის საფუძველზე დამატებითი სიმბოლოებით, რომლებიც გადმოსცემენ (საჭიროების შემთხვევაში) პროსოდიურ, პარალინგვისტურ და გამოთქმის სხვა მახასიათებლებს.

ა) ტექსტების ფონეტიკური კორპუსი ფართოდ გამოიყენება შემდეგი ამოცანების გადასაჭრელად:

ენის ზეპირი და წერილობითი ფორმების შედარებითი შესწავლა;

ზეპირი მეტყველების გრამატიკული და ლექსიკური თავისებურებების შესწავლა;

დიალექტების ფონეტიკური თავისებურებების კვლევა;

ფონემების და მათი კომბინაციების სიხშირის სიების აგება;

სამეტყველო ერთეულების აკუსტიკური თვისებების შესწავლა და მათი გამოყენება ფსიქოლინგვისტურ და ლინგვისტურ ექსპერიმენტებში;

კომპიუტერული სისტემების შექმნა, ზეპირი მეტყველების ამოცნობა და სინთეზი.

მოწყობილობის სახელი (კომპანია, ქვეყანა) ანალიზისა და ამოცნობის მეთოდი აღიარებული მეტყველების ტიპი ლექსიკონის მოცულობა, სიტყვები ამოცნობის სანდოობა, % ჩარევის მისაღები დონე რეჟისორთან ადაპტაციის მეთოდი სატელეფონო ინტერფეისის ხელმისაწვდომობა მეტყველების სინთეზატორის ხელმისაწვდომობა გამოყენების სფერო
RECH-121 (სსრკ) ზოლები, DP იზოლირებული სიტყვები (უწყვეტი მეტყველება) 99 (93 200 სიტყვაზე) (1-10) ჯერ ჩამოსხმული ჭამე ჭამე CAD, ACS, ASUPT
ბარები (სსრკ) იგივე იზოლირებული სიტყვები ერთჯერადი მსახიობი იგივე იგივე CAD
ციმბირი-1 (სსრკ) » იგივე იგივე არა » დისპეტჩერიზაციის სისტემები
SIRIUS-1 (სსრკ) ამოჭრილი სიგნალი, DP » » იგივე » განსაკუთრებული

4.4. პერსპექტიული უცხოური სისტემები
ვერბალური კომუნიკაცია

უცხოური სამრეწველო SRO-ების მრავალფეროვნებიდან განვიხილავთ სისტემებს, რომლებიც, ჩვენი აზრით, ყველაზე პერსპექტიულია მათში როგორც ახალი თეორიული მოდელების, ასევე მეტყველების სინთეზისა და ამოცნობის მიღწეული ხარისხის მაჩვენებლების განხორციელების თვალსაზრისით.

მაღალი ხარისხის სინთეზატორის მაგალითი, რომელიც შეიძლება გამოყენებულ იქნას სხვადასხვა ტემპებისა და ჩრდილების ბუნებრივთან ახლოს მეტყველების რეპროდუცირებისთვის, პირდაპირ შეუზღუდავი ლექსიკონის ტექსტიდან, არის DES-talk მოწყობილობა. DES-talk მოწყობილობა (იხ. ცხრილი 1.1) არის ბლოკი, რომლის ზომებია 10 ´ 45 ´ 30 სმ, რომლის უკანა პანელზე არის კონექტორები კომპიუტერის დასაკავშირებლად, ვიდეო ტერმინალი და საბეჭდი მოწყობილობა, ინფორმაციის გამომავალი სხვადასხვა მოწყობილობები, მათ შორის ტელეფონი და LED ინდიკატორი, ხმის კონტროლი. DES-talk სინთეზატორის მაღალი ხარისხი განპირობებულია გამოყენებული წესების დიდი ბიბლიოთეკით, მომხმარებლის მოთხოვნით ლექსიკონის არჩევის შესაძლებლობით და მეტყველების კონვერტაციისთვის ტექნიკის ხარისხით. მომხმარებელს შეუძლია აირჩიოს შვიდი განსხვავებული ხმა, მათ შორის სტანდარტული ქალის, მამრობითი, ბავშვური, ასევე ღრმა მამრობითი და ხანდაზმული ხმა.

DES-talk მოწყობილობაში ტექსტური ინფორმაციის მეტყველებად გადაქცევის პროცესი დაყოფილია სამ დონეზე. პირველში სიტყვები გარდაიქმნება ციფრულ ფორმაში ASCII კოდის მიხედვით და იშლება ფონემებად. ეს იყენებს წესების კომპლექტს ასოების ბგერებად გადაქცევისთვის და ორ ლექსიკონში. ერთი შეიცავს 6000 სიტყვას, მეორე შეიცავს დაახლოებით 150 სპეციფიკურ ტერმინს, მომხმარებლის მიერ შეყვანილ უცხო სიტყვას და აბრევიატურებს. პირველი დონის ტრანსფორმაციები იწყება საცნობარო სიტყვების ძიებით, რომლებიც შეესაბამება შეყვანილ ორთოგრაფიულ ტექსტს დიდ ლექსიკონში. თუ სტანდარტები იქნა ნაპოვნი, მაშინ ტექსტი, რომელიც გარდაიქმნება ფონემატურ ფორმაში, დაუყოვნებლივ გადადის მეორე დამუშავების დონეზე. თუ სტანდარტები არ არის ნაპოვნი რომელიმე ლექსიკონში, მაშინ შეყვანის ტექსტი მუშავდება ასოების ბგერებად გადაქცევის წესების შესაბამისად და შემდეგ გადადის მეორე დონეზე. მეორე დონეზე იკითხება ფონემები, კეთდება სინტაქსური ანალიზი, დგინდება ინტონაცია, ხანგრძლივობა და სტრესი სიტყვებში, კეთდება აკუსტიკური გამოთვლები. მესამე დონეზე ხორციელდება შეყვანის ტექსტის ინფორმაციის საბოლოო გარდაქმნები და მეტყველების სინთეზი. სინთეზირებული ციფრული სიგნალები გადაიცემა მინიმუმ 120 Kbps სიჩქარით სტანდარტულ ციფრულ-ანალოგურ გადამყვანზე (DAC). DES-talk სინთეზატორი იყენებს ევრისტიკას მიმდებარე სიტყვების გავლენის შესაფასებლად მოცემული სიტყვის გამოთქმაზე, ინტონაციაზე, ხანგრძლივობასა და სტრესზე.

DES-talk სინთეზატორის პროგრამული უზრუნველყოფა თითქმის იდენტურია ASCII სტანდარტით მოქმედი არსებული ალფანუმერული ტერმინალების პროგრამული უზრუნველყოფისა, გარდა მოდულებისა, რომლებიც განსაზღვრავენ მონაცემთა ფორმატს. ამიტომ, პროგრამული უზრუნველყოფის შექმნა მარტივია, რაც ხსნის გამოყენების ფართო სფეროებს DES-talk სინთეზატორისთვის.

მეტყველების ამოცნობის პერსპექტიული მოდელების შექმნა ასოცირდება უწყვეტი გამოთქმის რეჟიმში დიდ ლექსიკონებთან (1000 სიტყვაზე მეტი) მუშაობისას მაღალი საიმედოობის მიღწევის სურვილთან. KVS-3000 სისტემა ყველაზე ახლოსაა ამ იდეალთან, მისი ლექსიკონი შეიცავს 10000 სიტყვას და ამოცნობის სიზუსტე 95%. მოწყობილობის მუშაობისთვის მოსამზადებლად, საცნობარო სიტყვების მთელი ნაკრები სამჯერ უნდა იყოს წარმოთქმული, ამიტომ KVS-30,000 მოწყობილობის მეხსიერება შექმნილია 30,000 სიტყვის შესანახად. ამოცნობის საშუალო დრო დაახლოებით 500 ms.

კომპანია Verbex-მა (აშშ) შეიმუშავა მძლავრი უწყვეტი მეტყველების ამოცნობის სისტემა - Verbex-30,000 მოდელი, რომელიც საშუალებას გაძლევთ ამოიცნოთ ნებისმიერი სიგრძის წინადადებები, რომლებიც შედგება ინდივიდუალური ან განუწყვეტლივ წარმოთქმული სიტყვებისგან. ეს სისტემა ორიენტირებულია ერთი სპიკერის ხმაზე, როდესაც სპიკერი იცვლება, აუცილებელია მისი გადაწერა RAM-ში სიტყვის სტანდარტების შესანახად. Verbex-30,000 მოდელი, რომელიც აგებულია "ვარსკვლავურ" არქიტექტურაზე, მოიცავს 2-4 ასეთ მეტყველების პროცესორს და შეუძლია მუშაობა 120-360 სიტყვით. თითოეული პროცესორი შეიცავს 0,25 მბ მეხსიერებას მონაცემთა შესანახად, ასევე მეხსიერებას 4000 მიკროკოდის ინსტრუქციის შესანახად, თითოეული 64 ბიტიანი. გარდა ამისა, სისტემის დიზაინის მოქნილობა, რომელიც უზრუნველყოფილია ინტერფეისის ელემენტების განვითარებული სტრუქტურით, საშუალებას იძლევა გამოიყენოს ცენტრალური კომპიუტერის მეხსიერება. მეტყველების პროცესორის სიჩქარეა 5 მილიონი ოპერაცია/წმ.

სისტემის მიკროპროცესორული არქიტექტურა იძლევა მაღალსიჩქარიან ოპერაციებს, რაც აუცილებელი პირობაა უწყვეტი მეტყველების ამოცნობის ალგორითმის განხორციელებისთვის. ამოცნობის პროცესი, რომელიც შედგება სტანდარტული სიტყვების თანმიმდევრობის შერჩევაში, რომელიც საუკეთესოდ ემთხვევა მომხმარებლის მიერ წარმოთქმულს, ხორციელდება DP მეთოდით. შეყვანის მეტყველების სიგნალები გაძლიერებულია, იფილტრება და კოდირდება აუდიო პროცესორით, შემდეგ კი გადაეცემა საკონტროლო პროცესორს 10 μs ინტერვალით. საკონტროლო პროცესორი ანაწილებს სიგნალს მეტყველების პროცესორებს შორის, რაც ხაზს უსვამს მის ფონეტიკურ მახასიათებლებს. სისტემის შემქმნელებმა დაადგინეს, რომ 16 ასეთი მახასიათებელი საკმარისია 99% ამოცნობის სიზუსტის უზრუნველსაყოფად. საკონტროლო პროცესორში ამოცნობის პროცესი და სტანდარტის ძებნა ერთდროულად ხორციელდება, ანუ როდესაც პროცესორი „იჭერს“ მეტყველების დასასრულს.

იმისათვის, რომ თავიდან იქნას აცილებული შეცდომების ამოცნობა პირველ ეტაპზე, რომლებიც გავლენას ახდენენ საბოლოო შედეგზე, სისტემა მუდმივად ამოწმებს ბევრ პარალელურ ჰიპოთეზას, ადარებს შეყვანის მონაცემებს ყველა ნორმალური გამოთქმის გრამატიკულად განსაზღვრულ კომპლექტს. პასუხი იგვიანებს, სანამ ყველა ჰიპოთეზა არ შემოწმდება და ნათქვამი არ შეესაბამება სტანდარტს.

4.5. პროდუქტის გამოყენების ტენდენციები
ვერბალური კომუნიკაცია

ბოლო დრომდე, SRO-ების შექმნასთან დაკავშირებული სამუშაოების უმეტესობა ეფუძნებოდა სხვადასხვა დონის მეტყველების ელემენტების აკუსტიკური სტანდარტების ფორმირების იდეას (ფონემები, სილაბები, სიტყვები). ამ შემთხვევაში, აღიარება განხორციელდა, როგორც ამ აკუსტიკური სტანდარტების გამოვლენა და იდენტიფიკაცია მეტყველების ნაკადში. ახლა აშკარა გახდა, რომ ეს მიდგომა არაპერსპექტიულია მეტყველების სიგნალის აკუსტიკური მახასიათებლების მნიშვნელოვანი ცვალებადობის გამო, რომელიც დაკავშირებულია როგორც ლინგვისტურ (კოარტიკულაციის, შემცირების, ასიმილაციის ეფექტები) ასევე ექსტრალინგვისტურ ფაქტორებთან (მოსაუბრეთა ხმის ინდივიდუალური მახასიათებლები, განსხვავებები). მათი გამოთქმის უნარებში, დირიჟორული საშუალების მდგომარეობა და ა.შ.). განსაკუთრებით დიდი ცვალებადობა აქვს ფონემების აკუსტიკური მახასიათებლებს. ამიტომ, მეტყველების ამოცნობის ინდუსტრიული სისტემების უმეტესობამ მიატოვა ფონემური ანალიზი და მიიღეს სიტყვა, როგორც მინიმალური აღიარებული ელემენტი. ეს მიდგომა, მიუხედავად იმისა, რომ მეტყველების კვლევის გარკვეულ ეტაპზე თვალსაჩინო შედეგს იძლეოდა, უნაყოფო აღმოჩნდა ამოცნობის რთული პრობლემების გადაჭრისას, როგორიცაა მეტყველების ამოცნობა მოსაუბრეზე მორგების გარეშე ან დიდი ლექსიკონებით სისტემების შექმნა. ამან გვაიძულებს დავუბრუნდეთ მეტყველების ფონემატური ანალიზის იდეას ახალ ხარისხობრივ დონეზე, რაც გულისხმობს მეტყველების აღქმის დროს ადამიანის ინფორმაციის დამუშავების პროცესის სხვადასხვა ასპექტის მოდელირებას, ლინგვისტიკაში, აღქმის თეორიასა და ფსიქოლოგიაში დაგროვილი ცოდნის გამოყენებით. ამ მიდგომით, მეტყველების ამოცნობის ერთ-ერთი მთავარი ამოცანაა ადამიანის მეტყველების აღქმის იმ მექანიზმების გამოვლენა და მოდელირება, რომლებიც უზრუნველყოფენ აღქმული მეტყველების ელემენტების სტაბილურობას და სტაბილურობას მათი უზარმაზარი აკუსტიკური ცვალებადობის პირობებში.

მეტყველების ამოცნობის პრობლემის გადაჭრის მიდგომა, რომელიც მოიცავს ექსპერტი ფონეტიკოსის მიერ უცნობი სამეტყველო სიგნალის დინამიური სპექტროგრამების წაკითხვას, სულ უფრო ფართოვდება. სპექტროგრამის წაკითხვის ექსპერიმენტებისადმი ინტერესი განპირობებულია, პირველ რიგში, იმით, რომ ისინი აჩვენებენ მეტყველების სიგნალში შემავალი ფონეტიკური ინფორმაციის სიმდიდრეს, რომელიც წარმოდგენილია სამგანზომილებიანი (სიხშირე - დრო - ინტენსივობა) სპექტრული ნიმუშით და მეორეც, იმით. რომ ისინი საშუალებას აძლევენ ექსპერტის ცოდნისა და პროცედურული უნარების გადატანას მეტყველების ამოცნობის სისტემებში. სპექტროგრამის წაკითხვის კვლევა სხვადასხვა ქვეყანაში ტარდება და ამჟამად ამ კვლევების მთავარი საკითხი ცოდნის იდენტიფიცირებისა და ფორმალიზების პრობლემაა.
და ექსპერტების პროცედურული უნარები. აღმოჩნდა, რომ ეს ძალიან რთული პროცესია, რადგან ექსპერტებს ყოველთვის არ შეუძლიათ გამოხატონ პრინციპები და წესები, რომლებიც მათ ხელმძღვანელობენ მეტყველების სპექტროგრამების აკუსტიკურ-ფონეტიკური დეკოდირების დროს. ერთ-ერთი მნიშვნელოვანი პრობლემაა წესებისა და ცოდნის ალგორითმში დანერგვა, რომელიც აშკარად ჩანს ექსპერტისთვის (მაგალითად, F 420 არ შეიძლება იყოს 2500 ჰც-ზე მაღალი) ან ძნელად ჩამოყალიბებული (მაგალითად, კომპაქტურობის განსაზღვრის წესი. გაჩერებების აფეთქება). საექსპერტო ცოდნის მოპოვებასთან და ჩაწერასთან დაკავშირებული ამ სირთულეების დასაძლევად გამოიყენება საექსპერტო სისტემები. საექსპერტო სისტემები განსხვავდება ჩვეულებრივი კომპიუტერული პროგრამებისგან იმით, რომ მათ შეუძლიათ ამოხსნან პრობლემები, რომლებსაც არ აქვთ მკაცრი ალგორითმული გადაწყვეტილებები და დასკვნების გაკეთება არასრული ან არასანდო ინფორმაციის საფუძველზე. აქედან გამომდინარე, ისინი ბევრად უფრო შესაფერისია ადამიანის მოქნილი აქტივობის მოდელირებისთვის, რომელიც გამოიყენებოდა მეტყველების კვლევაში. ხაზგასმით უნდა აღინიშნოს, რომ ამ კვლევებში ES გამოიყენება ზუსტად როგორც ანალიზის ინსტრუმენტი სისტემისა და ექსპერტის ურთიერთქმედების პროცესში ცოდნის ბაზის დასაგროვებლად. ES-ის, როგორც ამოცნობის სისტემის გამოყენება არაეფექტურია.

მეორე მნიშვნელოვანი სირთულე ექსპერტი ფონეტიკოსის საქმიანობის მოდელირებაში არის ის, რომ სპექტროგრამების ვიზუალური ანალიზი, რომელიც ეფუძნება ექსპერტის დეკოდირების მოქმედებებს, არანაკლებ რთულია, ვიდრე მეტყველების სიგნალის სმენითი დამუშავება. სპექტროგრამების წაკითხვის ფორმალიზებისას წარმოიქმნება რთული პრობლემა აკუსტიკური მახასიათებლების ამოღებისას, რომლებიც ადვილად გამოირჩევა ადამიანის ვიზუალური სისტემის მიერ. ES-ის შემუშავებისას, ბევრი მკვლევარი უბრალოდ გვერდს უვლის ამ სირთულეს. ამასთან, მხოლოდ წარმოქმნილი სიტუაციის გათვალისწინებით, ლოგიკურია მეტყველების ინფორმაციის კოდირების გარკვეული შუალედური დონის არსებობის იდეა სპექტრის პარამეტრული აღწერიდან მის ფონეტიკურ ინტერპრეტაციაზე გადასვლაში. უფრო მეტიც, მეტყველების სიგნალების შუალედური აღწერის პრინციპების შემუშავების აუცილებლობა ხაზგასმულია, როგორც მეტყველების ავტომატური ამოცნობის ცენტრალური პრობლემა. აღნიშნულია, რომ მხოლოდ შუალედური აღწერილობა იძლევა საშუალებას ააწყოს ხიდი პირდაპირ დაკვირვებულ უწყვეტ აკუსტიკური სიგნალსა და დისკრეტულ ენობრივ აღწერას შორის. შუალედური წარმოდგენა აღწერს აკუსტიკური მახასიათებლების „ქცევას“, რომელიც დიდწილად უცვლელია მოსაუბრედან მოსაუბრეზე და ძირითადად დამოკიდებულია ფონეტიკური ერთეულების კონტექსტურ ურთიერთქმედებებზე. ამ შემთხვევაში, შუალედური წარმოდგენა, როგორც წესი, გამოიხატება ხარისხობრივი ფორმით და აღწერილია გარკვეული აკუსტიკური ობიექტების არსებობით - არარსებობით, სპექტრში მაღალი - დაბალი პოზიციით, ან კონკრეტული ენერგიის ძლიერი - სუსტი გამოვლინებით. კომპონენტი.

ამრიგად, აკუსტიკურ-ფონეტიკური დეკოდირების პროცესში ჯერ ხდება გადასვლა რაოდენობრივი ცვლილებებიდან თვისობრივ აღწერაზე, შემდეგ კი თვისებრივი აღწერებიდან ფონემების მახასიათებლებზე. როგორც წესი, მეტყველების ინფორმაციის წარმოდგენის შუალედური დონის ერთეულებს უწოდებენ აკუსტიკური გასაღებები, აკუსტიკური ნიშნები ან აღწერები.

რუსეთში ფონეტიკური ექსპერტების მიერ სპექტროგრამების წაკითხვაზე და მათი ფონემური და ვერბალური ინტერპრეტაციის წესების შემუშავებაზე მუშაობა 1980 წლიდან მიმდინარეობს. მიღებულმა შედეგებმა მოგვცა საშუალება დაგვეწყო მეტყველების ანალიზისთვის აპარატურულ-პროგრამული მოდელის შექმნა, რომელიც დაფუძნებულია სპექტროგრამების წაკითხვის ალგორითმებზე.

რა კარგი იყო ადრე! დახმარების მაგიდასთან დარეკვით შეგეძლო გოგო ოპერატორთან საუბარი და მასთან შეხვედრაც კი დაგეწერა. ახლა, ხაზის მეორე ბოლოში, ისმის სასიამოვნო, მაგრამ უსიცოცხლო ქალის ხმა, რომელიც გვთავაზობს აკრიფოთ 1 ამა თუ იმ ინფორმაციის მისაღებად, 2 ამათთან დასაკავშირებლად, 3 მენიუში წასვლას და ა.შ. ინფორმაციაზე წვდომას სულ უფრო და უფრო აკონტროლებს სისტემა და არა პირი. ამას თავისი ლოგიკა აქვს: ერთფეროვან, უინტერესო სამუშაოს ასრულებს არა ადამიანი, არამედ მანქანა. მომხმარებლისთვის კი ინფორმაციის მოპოვების პროცედურა გამარტივებულია: მან დაასახელა ნომრების გარკვეული ნაკრები და მიიღო საჭირო ინფორმაცია.

როგორ მუშაობს ასეთი სისტემა?

შევეცადოთ გავერკვეთ.

მეტყველების ამოცნობის პროგრამული უზრუნველყოფის ორი ძირითადი ტიპია:

კარნახის პროგრამები ტექსტისა და ციფრული მონაცემების შეყვანისას.

მოდით, დაუყოვნებლივ გავაკეთოთ დათქმა, რომ არ განვიხილავთ ტექსტ-სიტყვისა და მეტყველების ტექსტის სისტემებს, ანუ ტექსტის ზეპირ მეტყველებაში თარგმნას და პირიქით. ჩვენ შემოვიფარგლებით მხოლოდ ავტომატური ბრძანებების ამოცნობის სისტემებით, ან ხმოვანი ნავიგატორებით.

SAPP რა არის?

მეტყველების ავტომატური ამოცნობის სისტემები (ASRR) არის მეტყველების დამუშავების პროცესის ელემენტი, რომლის მიზანია მომხმარებელსა და მანქანას შორის მოსახერხებელი დიალოგის უზრუნველყოფა. ფართო გაგებით, ჩვენ ვსაუბრობთ სისტემებზე, რომლებიც ახორციელებენ მეტყველების აკუსტიკური სიგნალის ფონემატურ გაშიფვრას თვითნებური სპიკერის მიერ მეტყველების შეტყობინებების თავისუფალ სტილში წარმოთქმისას, პრობლემის ორიენტაციისა და ლექსიკონის მოცულობის შეზღუდვის გათვალისწინების გარეშე. ვიწრო გაგებით, CAPP ხელს უწყობს კონკრეტული პრობლემების გადაჭრას, აწესებს გარკვეულ შეზღუდვებს ბუნებრივი ჟღერადობის მეტყველების კლასიკური გაგებით ამოცნობის მოთხოვნებზე. ამრიგად, CAPP ჯიშების დიაპაზონი ვრცელდება მარტივი ცალკეული მოწყობილობებიდან და საბავშვო სათამაშოებიდან, რომლებსაც შეუძლიათ ამოიცნონ ან სინთეზირონ ცალკე გამოთქმული სიტყვები, რიცხვები, ქალაქები, სახელები და ა.შ. გამოსაყენებლად, მაგალითად, მდივნის თანაშემწედ (IBM VoiceType Simply Speaking Gold).

CAPP ძალიან სასარგებლოა, როგორც ჩაწერილი აუდიო და ვიდეო მონაცემების ძებნისა და დახარისხების საშუალება.

მეტყველების ამოცნობა ასევე გამოიყენება ინფორმაციის შეყვანისას, რაც განსაკუთრებით სასარგებლოა, როცა ადამიანის თვალები ან ხელებია დაკავებული. CAPP საშუალებას აძლევს ადამიანებს, რომლებიც მუშაობენ სტრესულ გარემოში (ექიმები საავადმყოფოებში, ინდუსტრიის მუშები, მძღოლები) გამოიყენონ კომპიუტერი საჭირო ინფორმაციის მისაღებად ან შეყვანისთვის.

CAPP ჩვეულებრივ გამოიყენება ისეთ სისტემებში, როგორიცაა სატელეფონო აპლიკაციები, ჩაშენებული სისტემები (აკრეფის სისტემები, PDA ოპერაცია, მართვა და ა.შ.), მულტიმედიური აპლიკაციები (ენის სწავლის სისტემები).

ხმის გასაღებები

ხმის კლავიშებს ზოგჯერ უწოდებენ პიროვნების ამოცნობის ავტომატურ სისტემებს მეტყველების საფუძველზე. როგორც წესი, ეს არის ბიომეტრიული სისტემები ინფორმაციაზე ავტორიზებული წვდომისთვის ან ობიექტებზე ფიზიკური წვდომისთვის. აუცილებელია განასხვავოთ ასეთი სისტემების ორი ტიპი: ვერიფიკაციის სისტემები და საიდენტიფიკაციო სისტემები. გადამოწმების დროს მომხმარებელი ჯერ წარმოაჩენს თავის კოდს, ანუ ამა თუ იმ გზით აცხადებს საკუთარ თავს, შემდეგ კი ხმამაღლა ამბობს პაროლს ან რაიმე თვითნებურ ფრაზას. სისტემა ამოწმებს, შეესაბამება თუ არა მოცემული ხმა იმ სტანდარტებს, რომლებიც კომპიუტერის მეხსიერებიდან იქნა გამოძახებული წარმოდგენილი კოდის გამოყენებით.

იდენტიფიკაციისას მომხმარებლის შესახებ წინასწარი განცხადება არ კეთდება. ამ შემთხვევაში ხდება ამ ხმის შედარება ყველა სტანდარტთან და შემდეგ კონკრეტულად დგინდება, ვინ არის ხმით იდენტიფიცირებული პირი. დღეს ასეთი სისტემების დანერგვის მრავალი მიდგომა და მეთოდია ცნობილი და ყველა მათგანი, როგორც წესი, განსხვავდება ერთმანეთისგან - იმდენი დეველოპერი, რამდენი ჯიშია. იგივე შეიძლება ითქვას მეტყველების ამოცნობის სისტემებზე. მაშასადამე, დასაშვებია მხოლოდ კონკრეტული მეტყველების ამოცნობისა და პიროვნების ამოცნობის სისტემების მახასიათებლების მსჯელობა მეტყველების გამოყენებით სპეციალური ტესტის მონაცემთა ბაზების გამოყენებით.

ცოტა ისტორია

მიუხედავად იმისა, რომ მეტყველების ამოცნობის ადრეული განვითარება თარიღდება 1920-იანი წლებით, პირველი სისტემა შეიქმნა მხოლოდ 1952 წელს Bell Laboratories-ის მიერ (დღეს Lucent Technologies-ის ნაწილია). პირველი კომერციული სისტემა კი მოგვიანებით შეიქმნა: 1960 წელს IBM-მა გამოაცხადა ასეთი სისტემის შემუშავება, მაგრამ პროგრამა ბაზარზე არასოდეს შემოსულა.

შემდეგ, 1970-იან წლებში, Eastern Airlines-მა შეერთებულ შტატებში დააინსტალირა განმცხადებელზე დამოკიდებული ბარგის დისპეტჩერიზაციის სისტემა: ოპერატორმა დარეკა დანიშნულების ადგილზე და ბარგი გაიგზავნა გზაში. თუმცა, დაშვებული შეცდომების რაოდენობის გამო, სისტემამ არასოდეს გაიარა საცდელი პერიოდი.

ამის შემდეგ ამ სფეროში მოვლენები, თუ ასეთი იყო, საკმაოდ ნელა მიმდინარეობდა. 1980-იან წლებშიც კი, სიტყვის ამოცნობის სისტემების გამოყენებით რეალური კომერციული აპლიკაციები საკმაოდ ცოტა იყო.

დღეს ამ მიმართულებით მუშაობს არა ათეულობით, არამედ ასობით კვლევითი ჯგუფი სამეცნიერო და საგანმანათლებლო დაწესებულებებში, ასევე მსხვილ კორპორაციებში. ამის შესახებ შეიძლება ვიმსჯელოთ მეტყველების ტექნოლოგიების დარგის მეცნიერთა და სპეციალისტთა საერთაშორისო ფორუმებით, როგორებიცაა ICASSP, EuroSpeech, ICPHS და ა.შ. სამუშაოს შედეგები, რომლებიც, როგორც ფიგურალურად ვამბობთ, „მთელმა მსოფლიომ დაასხა“. ძნელად შეიძლება გადაჭარბებული შეფასება.

უკვე რამდენიმე წელია, ხმის ნავიგატორები, ანუ ბრძანების ამომცნობი სისტემები წარმატებით გამოიყენება საქმიანობის სხვადასხვა სფეროში. მაგალითად, ალკატელის მიერ ვატიკანისთვის მიწოდებული OmniTouch ქოლ ცენტრი გამოიყენებოდა ქრისტეს 2000 წლის იუბილეს აღნიშვნის ფარგლებში ჩატარებულ ღონისძიებებზე. მომლოცველმა, რომელიც სატელეფონო ცენტრში დარეკავდა, დასვა თავისი შეკითხვა და მეტყველების ამოცნობის ავტომატური სისტემა "მოუსმინა". თუ სისტემამ დაადგინა, რომ დასმული იყო შეკითხვა ხშირად ნაცნობ თემაზე, როგორიცაა ღონისძიებების განრიგი ან სასტუმროს მისამართები, ჩართული იყო წინასწარ ჩაწერილი ჩანაწერი. თუ საჭირო იყო კითხვის გარკვევა, შესთავაზეს მეტყველების მენიუ, რომელშიც ხმით უნდა მიეთითებინა ერთ-ერთი ელემენტი. თუ ამოცნობის სისტემამ დაადგინა, რომ დასმულ კითხვაზე არ იყო წინასწარ ჩაწერილი პასუხი, მაშინ პილიგრიმი დაკავშირებული იყო ადამიანის ოპერატორთან.

შვედეთმა ახლახან გამოუშვა ავტომატური სატელეფონო დახმარების ხაზი Philips-ის მეტყველების ამოცნობის პროგრამული უზრუნველყოფის გამოყენებით. Autosvar სერვისის ფუნქციონირების პირველ თვეში, რომელმაც ოფიციალური განცხადების გარეშე დაიწყო მუშაობა, მისი მომსახურებით 200 ათასმა კლიენტმა ისარგებლა. ადამიანმა უნდა აკრიფოს კონკრეტული ნომერი და ავტომატური ასისტენტის პასუხების შემდეგ დაასახელოს ინფორმაციის დირექტორიის ის განყოფილება, რომელიც მას აინტერესებს.

ახალი სერვისი გათვლილია ძირითადად კერძო კლიენტებზე, რომლებიც უპირატესობას ანიჭებენ მას მომსახურების მნიშვნელოვნად დაბალი ღირებულების გამო. Autosvar სერვისი არის პირველი ასეთი სისტემა ევროპაში (აშშ-ში AT&T-მა მსგავსი სერვისის ტესტირება გასული წლის დეკემბერში დაიწყო).

აქ მოცემულია ამ ტექნოლოგიის რამდენიმე მაგალითი, რომელიც გამოიყენება აშშ-ში.

რეალტორები ხშირად მიმართავენ Newport Wireless-ს მათი მომსახურებისთვის. როდესაც რეალტორი მიდის ქუჩაში და ხედავს აბრას "იყიდება" სახლის გვერდით, ის ურეკავს Newport Wireless-ს და ითხოვს ინფორმაციას ამა თუ იმ ქუჩის სახლის ნომრის შესახებ. ავტომოპასუხე სასიამოვნო ქალის ხმით უყვება სახლის კვადრატულ მეტრს, მშენებლობის თარიღს და მფლობელებს. ყველა ეს ინფორმაცია მდებარეობს Newport Wireless მონაცემთა ბაზაში. რეალტორებს შეუძლიათ მხოლოდ შეტყობინების გაგზავნა კლიენტისთვის.

გამოწერის საფასური თვეში დაახლოებით 30 დოლარია.

ჯული, Amtrak-ის ვირტუალური აგენტი, ემსახურება სარკინიგზო მგზავრებს 2001 წლის ოქტომბრიდან. ის ტელეფონით გაცნობებთ მატარებლის განრიგს, მათ ჩამოსვლას და გამგზავრებას, ასევე აკეთებს ბილეთების დაჯავშნას. Julie არის SpeechWorks Software-ისა და Intervoice Hardware-ის პროდუქტი. მან უკვე გაზარდა მგზავრების კმაყოფილება 45%-ით; 50 კლიენტიდან 13 იღებს ყველა საჭირო ინფორმაციას ჯულის პირიდან. Amtrak იყენებდა ტონზე დაფუძნებულ საინფორმაციო სისტემას, მაგრამ კმაყოფილების მაჩვენებელი უფრო დაბალი იყო: 50 კლიენტიდან მხოლოდ 9.

Amtrak აღიარებს, რომ ჯულიმ თავისი ფასი (4 მილიონი დოლარი) 12-18 თვეში აინაზღაურა.

ძვირადღირებული მანქანები, როგორიცაა Infinity და Jaguar, რამდენიმე წელია იყენებენ სიტყვიერ კონტროლს მართვის პანელზე: რადიოს, ტემპერატურის კონტროლისა და სანავიგაციო სისტემა ესმის მანქანის მფლობელის ხმას და უდავოდ ემორჩილება მფლობელს.

მაგრამ ახლა ხმის ამოცნობის ტექნოლოგია იწყება საშუალო კლასის მანქანებში. ამრიგად, 2003 წლიდან Honda Accord-ს აქვს ჩაშენებული ხმის იდენტიფიკატორი IBM-ისგან. მას ViaVoice ჰქვია და 2000 დოლარიანი სანავიგაციო სისტემის ნაწილია, Honda Accord-ის მყიდველების მეხუთედმა აირჩია მოდელი ხმით გააქტიურებული სანავიგაციო სისტემით.

მედიცინაშიც კი, ხმის ამოცნობის ტექნოლოგიამ იპოვა თავისი ადგილი. უკვე შემუშავებულია კუჭის გამოკვლევის მოწყობილობა, რომელიც ემორჩილება ექიმის ხმას. მართალია, ეს მოწყობილობები, ექსპერტების აზრით, ჯერ კიდევ არასრულყოფილია: მათ აქვთ ნელი რეაქცია ექიმის ბრძანებებზე.

მაგრამ ჯერ კიდევ მეტია. მემფისში, VA სამედიცინო ცენტრმა 277,000 დოლარის ინვესტიცია ჩადო Dragon-ის პროგრამულ უზრუნველყოფაში, რომელიც ექიმებს და ექთნებს საშუალებას აძლევს, კარნახონ ინფორმაცია კომპიუტერულ მონაცემთა ბაზაში. ალბათ, მალე აღარ მოგიწევთ ბრძოლა სამედიცინო ჩანაწერში ექიმის ხელწერის გასარკვევად.

ასობით მსხვილი კომპანია უკვე იყენებს ხმის ამოცნობის ტექნოლოგიას თავის პროდუქტებსა თუ სერვისებში; მათ შორისაა AOL, FedEx, Honda, Sony, Sprint, T. Rowe Price, United Airlines და Verizo. ექსპერტების აზრით, ხმის ტექნოლოგიების ბაზარმა 2002 წელს მიაღწია დაახლოებით 695 მილიონ დოლარს, რაც 10%-ით მეტია 2001 წელთან შედარებით.

დღეს მეტყველების ამოცნობის ტექნოლოგიები მსოფლიოში ერთ-ერთ ყველაზე პერსპექტიულად ითვლება. ამრიგად, ამერიკული კვლევითი კომპანიის Cahners In-Stat-ის პროგნოზით, 2005 წლისთვის სიტყვის ამომცნობი პროგრამული უზრუნველყოფის გლობალური ბაზარი 200 მილიონიდან 2,7 მილიარდ დოლარამდე გაიზრდება. კომპანია Datamonitor-ის მონაცემებით, ხმოვანი ტექნოლოგიების ბაზრის მოცულობა გაიზრდება. წელიწადში საშუალოდ 43%-ით: 2000 წლის 650 მილიონი დოლარიდან 2006 წელს 5,6 მილიარდ დოლარამდე (ნახ. 1).

ექსპერტებმა, რომლებიც თანამშრომლობენ მედია კორპორაცია CNN-თან, მეტყველების ამოცნობა წელს ერთ-ერთ რვა ყველაზე პერსპექტიულ ტექნოლოგიას ასახელებენ. და IDC-ის ანალიტიკოსები ამბობენ, რომ 2005 წლისთვის მეტყველების ამოცნობა მთლიანად ჩაანაცვლებს მეტყველების ყველა სხვა ტექნოლოგიას ბაზრიდან (ნახ. 2).

ძირითადი სირთულეები

მთავარი პრობლემა, რომელიც ჩნდება CAPP-ის შემუშავებისას, არის ერთი და იგივე სიტყვის ცვლადი გამოთქმა როგორც სხვადასხვა ადამიანების, ისე ერთი და იმავე ადამიანის მიერ სხვადასხვა სიტუაციაში.

ეს არ შეაწუხებს ადამიანს, მაგრამ კომპიუტერი შეიძლება. გარდა ამისა, შემომავალ სიგნალზე გავლენას ახდენს მრავალი ფაქტორი, როგორიცაა გარემოს ხმაური, ასახვა, ექო და არხის ჩარევა. ეს ართულებს იმ ფაქტს, რომ ხმაური და დამახინჯება წინასწარ უცნობია, ანუ სისტემის მორგება მათზე მუშაობის დაწყებამდე შეუძლებელია.

მეორეც, სისტემები იყოფა ისეთებად, რომლებიც მუშაობენ მხოლოდ იზოლირებული ბრძანებებით და მათ, რომლებსაც შეუძლიათ თანმიმდევრული მეტყველების ამოცნობა. მეტყველების ამოცნობა ბევრად უფრო რთული ამოცანაა, ვიდრე ინდივიდუალურად წარმოთქმული სიტყვების ამოცნობა. მაგალითად, იზოლირებული სიტყვების ამოცნობიდან მეტყველების ამოცნობაზე 1000 სიტყვიანი ლექსიკონით გადასვლისას, შეცდომის მაჩვენებელი იზრდება 3.1-დან 8.7-მდე, გარდა ამისა, მეტყველების დამუშავებას სამჯერ მეტი დრო სჭირდება.

იზოლირებული ბრძანების გამოთქმის რეჟიმი არის უმარტივესი და ნაკლებად რესურსზე ინტენსიური.

ამ რეჟიმში მუშაობისას, ყოველი სიტყვის შემდეგ მომხმარებელი ჩერდება, ანუ ნათლად აღნიშნავს სიტყვების საზღვრებს. სისტემას არ სჭირდება ფრაზაში სიტყვის დასაწყისი და დასასრულის ძიება. შემდეგ სისტემა ადარებს აღიარებულ სიტყვას ლექსიკონში არსებულ მაგალითებთან და ყველაზე სავარაუდო მოდელი მიიღება სისტემის მიერ. ამ ტიპის ამოცნობა ფართოდ გამოიყენება ტელეფონში, ჩვეულებრივი DTMF მეთოდების ნაცვლად.

მეტყველებაში დამატებითი ვარიაციები ასევე წარმოიქმნება თვითნებური ინტონაციების, სტრესის, ფრაზის თავისუფალი სტრუქტურის, პაუზების, გამეორებების და ა.შ.

სიტყვების უწყვეტი და ცალკეული გამოთქმის შეერთებისას წარმოიშვა საკვანძო სიტყვების ძიების რეჟიმი. ამ რეჟიმში, CAPP პოულობს წინასწარ განსაზღვრულ სიტყვას ან სიტყვების ჯგუფს ზოგადი მეტყველების ნაკადში. სად შეიძლება ამის გამოყენება? მაგალითად, მოსასმენ მოწყობილობებში, რომლებიც ჩართულია და იწყებს ჩაწერას, როდესაც გარკვეული სიტყვები გამოჩნდება მეტყველებაში, ან ელექტრონულ საცნობარო წიგნებში. ნებისმიერი ფორმით მოთხოვნის მიღების შემდეგ, სისტემა იდენტიფიცირებს სემანტიკურ სიტყვებს და მათი ამოცნობის შემდეგ უზრუნველყოფს საჭირო ინფორმაციას.

გამოყენებული ლექსიკის ზომა CAPP-ის მნიშვნელოვანი კომპონენტია. ცხადია, რაც უფრო დიდია ლექსიკონი, მით უფრო მაღალია სისტემის შეცდომის დაშვების ალბათობა. ბევრ თანამედროვე სისტემაში შესაძლებელია ლექსიკონების დამატება ახალი სიტყვებით საჭიროებისამებრ, ან ახალი ლექსიკონების ჩატვირთვა. ტიპიური შეცდომის კოეფიციენტი სპიკერისგან დამოუკიდებელი სისტემისთვის იზოლირებული ბრძანების გამოთქმით არის დაახლოებით 1% 100-სიტყვიანი ლექსიკონისთვის, 3% 600-სიტყვიანი ლექსიკონისთვის და 10% 8000-სიტყვიანი ლექსიკონისთვის.

თანამედროვე CAPP ბაზრის შეთავაზებები

და დღეს ბაზარზე წარმოდგენილია სხვადასხვა კომპანიის CAPP-ები. მოდით შევხედოთ ზოგიერთ მათგანს.

აკულაბი

ამოცნობის სიზუსტე არის 97%.

სისტემა მხარს უჭერს დამატებითი ლექსიკონების შექმნის შესაძლებლობას, რომლებიც ითვალისწინებენ გამოთქმისა და აქცენტების თავისებურებებს. ეს განსაკუთრებით სასარგებლოა იმ შემთხვევებში, როდესაც სისტემას იყენებენ ადამიანები, რომელთა გამოთქმა ძალიან განსხვავდება ზოგადად მიღებულიდან.

სისტემა მხარს უჭერს ყველაზე გავრცელებულ ენებს, როგორიცაა ბრიტანული და ამერიკული ინგლისური, ფრანგული, გერმანული, იტალიური, ჩრდილოეთ ამერიკის ესპანური. ლექსიკონის კონფიგურაცია შესაძლებელია რომელიმე ამ ენისთვის, მაგრამ შეუძლებელია რამდენიმე ენის ერთდროულად გამოყენება იმავე ლექსიკონში.

პროდუქტი ხელმისაწვდომია Windows NT/2000, Linux და Sun SPARC Solaris-ზე.

Babear SDK ვერსია 3.0

სპიკერისგან დამოუკიდებელი სისტემა, რომელიც არ საჭიროებს ტრენინგს კონკრეტული მომხმარებლისთვის.

მომხმარებლისადმი ადაპტაცია ხდება ოპერაციის დროს და უზრუნველყოფს საუკეთესო ამოცნობის შედეგს. ხმის აქტივობის ავტომატური რეგულირება საშუალებას გაძლევთ ამოიცნოთ მეტყველება ძალიან ხმაურიან გარემოში, როგორიცაა მანქანის შიგნით.

სისტემა არ აღმოაჩენს სიტყვებს, რომლებიც არ არის შეტანილი ლექსიკონში. შესაძლებელია საკვანძო სიტყვების ძიება. სისტემის კონფიგურაცია შესაძლებელია იმუშაოს როგორც მცირე ლექსიკონთან (ბრძანებების იზოლირებული წარმოთქმა) ასევე დიდ ლექსიკონთან (მეტყველება).

სისტემა მხარს უჭერს შემდეგ ენებს: ბრიტანული და ამერიკული ინგლისური, ესპანური გერმანული, ფრანგული, დანიური, შვედური, თურქული, ბერძნული, ისლანდიური და არაბული.

სისტემა მუშაობს Windows 98 (SE)/NT 4.0/2000/CE, Mac OS X და Linux.

ლოკენდო ASR

დინამიკებისგან დამოუკიდებელი სისტემა ოპტიმიზირებულია ტელეფონში გამოსაყენებლად.

შესაძლებელია ცალკეული სიტყვების და მეტყველების ამოცნობა, საკვანძო სიტყვების ძიება (500 სიტყვამდე ლექსიკონი). საშუალებას გაძლევთ შექმნათ მოსახერხებელი აპლიკაციები დიდი ლექსიკისა და სისტემის მოქნილობის გამო.

მხარს უჭერს 12 ენას, მათ შორის ყველაზე გავრცელებულ ევროპულ ენებს (იტალიური, ესპანური, ბრიტანული და ამერიკული ინგლისური, ფრანგული, გერმანული, ბერძნული, შვედური და ა.შ.).

შედის Loquendo Speech Suite-ში ტექსტის მეტყველებასთან ერთად და Loquendo VoiceXML თარჯიმანი, რომელიც მხარს უჭერს მრავალ ხმას და ენას.

მხარს უჭერს სხვადასხვა აუდიო ფაილის ფორმატს: (u-law 8 kHz, PCM 8 kHz, PCM 16 kHz). არ აქვს მკაცრი მოთხოვნები ტექნიკის რესურსებზე. მუშაობს Windows NT/2000/XP და Linux-ზე.

სისტემის მოთხოვნები (Windows დაფუძნებული):

Windows NT 4.0 Service Pack 6a, Windows 2000 ან Windows XP Pro;

მეხსიერების მინიმალური ზომაა 512 მბ.

სისტემის მოთხოვნები (Red Hat Linux-ზე დაყრდნობით):

Red Hat Linux 7.2;

Intel Pentium III 800 MHz ან უფრო მაღალი;

მეხსიერების მოცულობა 256 მბ;

დისკის ზომა 17 მბ (დეკომპრესიის შემდეგ).

ნიუანსი

მწარმოებლების თქმით, სისტემა ოპტიმიზებულია მეხსიერების და სხვა სისტემის რესურსების ყველაზე დაბალი მოხმარებისთვის. ამოცნობის სიზუსტე 96%-მდეა და მაღალი რჩება ხმაურიან ოთახშიც კი.

შესაძლებელია სისტემამ თავად ისწავლოს და მოარგოს იგი თითოეულ მომხმარებელს.

მუშაობს Windows 2000 და Linux-ზე.

სული

ენა შეიძლება იყოს ნებისმიერი (ლექსიკონი შედგენილია კლიენტის სპეციფიკური მოთხოვნების შესაბამისად და მოიცავს იმ სიტყვებს იმ ენაზე, რომელიც კლიენტმა მიუთითა სისტემის პარამეტრების მოთხოვნებში. ლექსიკონი შეიძლება შეიცავდეს სიტყვებს სხვადასხვა ენებიდან, ანუ სიტყვის შეცვლის გარეშე. პარამეტრებში, სისტემას შეუძლია ამოიცნოს სიტყვები, მაგალითად, როგორც ჩინურ, ასევე ფინურ ენებზე, თუ ისინი ადრე იყო შეყვანილი ლექსიკონში). ამრიგად, ამ სისტემას შეუძლია ნებისმიერ ენაზე იმუშაოს, ხოლო სხვა სისტემებს მხოლოდ მათი გარკვეული ნაკრებით შეუძლია მუშაობა.

ეს არის ავტომატური მეტყველების ამოცნობის სისტემა, რომელიც უზრუნველყოფს მაღალი ხარისხის ამოცნობას ძალიან ხმაურიან გარემოშიც კი. სისტემის ადვილად კონფიგურაცია შესაძლებელია ორიდან ერთ-ერთ რეჟიმში მუშაობისთვის: ფრაზების ამოცნობა ბრძანებების ფიქსირებული რაოდენობით (ინდივიდუალური ბრძანებების გამოთქმა, PIN კოდის რეჟიმი) და ფრაზების ამოცნობა ბრძანებების თვითნებური რაოდენობით (ბრძანებების უწყვეტი გამოთქმა, ” თანმიმდევრული მეტყველების რეჟიმი“).

შესაძლებელია საკვანძო სიტყვების მოძიება. ეს ხსნარი მუშაობს დანამატის არასტაციონარული ხმაურის პირობებში. სიგნალ-ხმაურის საჭირო თანაფარდობა არის 0 დბ-მდე „PIN კოდის რეჟიმში“ და +15 დბ-მდე თანმიმდევრული მეტყველების რეჟიმში.

ამოცნობის დაგვიანება 0.2 წმ. აკუსტიკური არხის პარამეტრები: გამტარუნარიანობა 300-3500 ჰც-ის ფარგლებში. აკუსტიკური გარემოსადმი ადაპტაცია ხორციელდება ხმაურის ფრაგმენტების საფუძველზე, რომელთა საერთო სიგრძეა მინიმუმ 3 წმ.

"PIN კოდის რეჟიმისთვის":

ლექსიკონი 50 ბრძანება;

სწორი ამოცნობის ალბათობა არის 95-99% SNR = 0...6 dB-ზე;

საჭირო აკუსტიკური პირობები: დანამატი ფართოზოლოვანი სტატიკური ხმაური SNR-ით (სიგნალი-ხმაურის თანაფარდობა) >= 15 დბ.

დაკავშირებული მეტყველების ამოცნობის რეჟიმისთვის:

ლექსიკონი 12 სიტყვა/რიცხვი;

სპეციფიკა: ადაპტაცია თვითნებურ ხმაურთან.

SPIRIT-ის მეტყველების ამოცნობის ავტომატური სისტემა ხელმისაწვდომია როგორც კომპიუტერის აპლიკაცია MS Windows-ისთვის ან როგორც ასამბლერის კოდი. მომხმარებლის მოთხოვნით, გამოსავალი შეიძლება პორტირებული იყოს ნებისმიერ DSP ან RISC პლატფორმაზე.

VoiceWare

სისტემას შეუძლია იმუშაოს როგორც დინამიკზე დამოკიდებული, ასევე დინამიკზე დამოუკიდებელ რეჟიმში, ამიტომ სისტემის სპეციალური მომზადება კონკრეტულ მომხმარებელთან მუშაობისთვის საჭირო არ არის.

უზრუნველყოფს ამოცნობის მაღალ სიზუსტეს და რეალურ დროში მუშაობას, თუნდაც ხმაურიან გარემოში.

სისტემა ცნობს თანმიმდევრულ მეტყველებას და რიცხვების თანმიმდევრულ სიას.

ლექსიკონში შეტანილი სიტყვები და ზედმეტი ხმაური არ აღიქმება და უაზრო სიტყვები, როგორიცაა „ა“, „კარგი“ და ა.შ.

შესაძლებელია ლექსიკონში ახალი სიტყვების დამატება.

სისტემა ავტომატურად არეგულირებს მომხმარებლის ტონს, გამოთქმას და მეტყველების სხვა მახასიათებლებს.

VoiceWare მხარს უჭერს აშშ-ს ინგლისურს და კორეულს; ჩინური და იაპონური განვითარების პროცესშია.

სისტემა მუშაობს Windows 95/98/NT 4.0, UNIX და Linux-ზე.