Xiaomi koristi vlastito razvijenu tehnologiju primjenom naprednih algoritama
Tehnologija Text-To-Speech, koju je razvio Xiaomi AI Lab, koristi se za generiranje jedinstvenog i prilagođenog glasa za korisnike s poremećajima govora. Korisnik sada može komunicirati s drugim ljudima koristeći „vlastiti glas“, umjesto tipičnog monotonog elektroničkog glasa.
Own My Voice naziv je predistraživačkog projekta kojeg provodi Xiaomi Technical Committee. Uspješno je demonstriran pokušaj ostvarivanja misije kako bi svi ljudi na svijetu uživali u boljem životu putem inovativnih tehnologija.
Želja mnogih korisnika s govornim poremećajima je korištenje vlastitog glasa za svakodnevnu komunikaciju. Xiaomi je osnovao projektni tim Own My Voice kako bi pozvao korisnike s govornim poremećajima kao primatelje glasa.
Projektni tim je angažirao više od 200 volontera unutar Xiaomia koji su donirali svoje glasove. Željeli su generirati najprikladniji, personalizirani glas za primatelja. Koristili su algoritam za podudaranje otiska glasa kako bi uparili značajke glasova doniranih volontera s onima glasa primatelja.
Pristup je bio uspješan i pronašli su najprikladniji glas kao osnovni zvuk glasovne reference za primatelja. S obzirom na personalizaciju i zaštitu privatnosti, odabranim stvarnim glasom manipulirano je složenim akustičnim modifikacijama kako bi se formirao novi i originalni zvuk glasa.
U sljedećem koraku upotrijebili su tehnologiju Text-To-Speech spontanog stila za treniranje AI modela čime je ovaj novi glas postupno dobio prirodan ritam i intonaciju koja može istinito izraziti emociju i ton čovjeka.
Projekt Own My Voice kombinira niz najnaprednijih algoritama s Xiaomijevom samorazvijenom govornom tehnologijom kako bi se osigurala specifičnost, sigurnost i visoka autentičnost sintetiziranog glasa stvarajući novu ideju o prilagođenoj sintezi govora za korisnike s govornim poremećajima.
Iza projekta stoji grupa stručnjaka za govornu tehnologiju iz Xiaomi AI Laba. Od 2017. godine objavili su 37 radova o govoru u zbornicima vrhunskih međunarodnih konferencija, poput Međunarodne konferencije o akustici, govoru i obradi signala (ICASSP).
Uspjeh Own My Voice uglavnom ovisi o Text-To-Speech tehnologiji spontanog stila koju su razvili. Sintetizirani glas zvuči poput ljudskog u svojoj intonaciji, pauzi, brzini i drugim značajkama čime se monoton i neprirodan osjećaj elektroničkog glasa zamjenjuje prirodnijim. Tehnologija se primjenjuje na mnoge pametne uređaje koji koriste Xiaoai, AI glasovnog asistenta kompanije Xiaomi.