Habari Njema kwa wadau wa AI hasa hasa NLP: Amazon wazindua dataset ya lugha 51 free kwa developers

Habari Njema kwa wadau wa AI hasa hasa NLP: Amazon wazindua dataset ya lugha 51 free kwa developers

kali linux

JF-Expert Member
Joined
May 21, 2017
Posts
2,192
Reaction score
5,685
Hello bosses....

Jana Tarehe 20 April 2022 ilikua ni siku ambayo itaingia kwenye record ya maendeleo kwenye field ya Artificial Intelligence hasa hasa upande wa NLP & NLU (Natural language processing & Natural Language Understanding). Siku hio Amazon walitoa wazi dataset yenye lugha 51 zikiwa na annotation za utterances zao. Hii inaleta uwezekano wa kuandika programs ambazo zitaweza kuwasiliana na binadamu moja kwa moja kupitia sauti (voice recognition) zenye ufanisi wa hali ya juu zaidi ya ilivyo sasa

Dataset hio kwa jina la MASSIVE inapatikana github kwenye repo yao ya alexa (alexa/massive).

Binafsi naamini kwamba computers ni kama Pets kwa binadam, kama walivyo paka na wanyama wengine wa kufugwa. Hivyo basi ili kurahisisha uhusiano uliopo kati ya computers na binadamu hii field ya NLP ni muhimu sana.

Kama unavyoweza mwambia Mbwa akimbize mtu au mnyama fln ndivo inavyobidi iwe kwa hizi gadgets. Commands kama kupiga simu, kupiga picha, kuzima, kuwaka etc.... ziwe zinaweza kufikishwa kwa njia ya sauti kiuhakika tofauti na sasa ambapo functionality hio iko limited kwa baadhi ya lugha na lafudhi tu.


UPDATE
Kiswahili pia kipo kwa ISO code ya sw-KE (Wakenya mnatuibia sana Haaahaaaaa Cc MK254)

Hii attachment ina list ya lugha zilizopo
IMG_20220421_105349.jpg


Kwa taaarifa zaidi soma kutoka kwenye blog ya amazon: Amazon releases 51-language dataset for language understanding


Peace........
~ kali linux
 
Kwa kufanya ivo amazon kuna fusa gani hapo world wide kwa wasaka tonge kama sisi mkuu
 
Kwa kufanya ivo amazon kuna fusa gani hapo world wide kwa wasaka tonge kama sisi mkuu
Kuna opportunities nyingi sana kwenye hilo ila kama wewe sio software developer itakua ngumu kuzipata.

Kuna watu wanataka automated customer care services, automatic subtitle generation kwa videos, etc...... opportunities ni nyingi sana
 
Pia inaweza tumika kutengeneza apps zinazotafsiri sauti papo hapo kwa ufanisi mkubwa

Mfano sihitaji kufahamu kichina nikiwa naongea na wachina. Tunaweza kuwa na software inayokaa kati na kutafsiri kila kitu. Hii itaondoa uhitaji wa wakarimani kwenye mazungumzo ya siri.

Japo Tayari software kama hizo zipo ila ufanisi wake uko limited kutokana na data zinazotumiwa kutrain hizo models zinazotafsiri. Uwepo wa dataset kama hii utaleta mapinduzi sana
 
Kiswahili kimo?
Kiswahili kipo, shida codename inayotumiwa ni sw-KE sasa sijajua kama hio itaaffect hadi accurancy ya data au la coz kiswahili standard huwa ni cha Tanzania sw-TZ.

Anyway nipo naitumia kwenye project fln hapa, nikiimaliza ntaleta feedback khs performance yake kwa kiswahili.

For future reference hii ni list ya languages zote na scripts zao kwenye hio dataset.

IMG_20220421_105349.jpg
 
Sijapata muda wa kuicheki lakini aina ya leseni ya matumizi muhimu sana
 
Pia inaweza tumika kutengeneza apps zinazotafsiri sauti papo hapo kwa ufanisi mkubwa

Mfano sihitaji kufahamu kichina nikiwa naongea na wachina. Tunaweza kuwa na software inayokaa kati na kutafsiri kila kitu. Hii itaondoa uhitaji wa wakarimani kwenye mazungumzo ya siri.

Japo Tayari software kama hizo zipo ila ufanisi wake uko limited kutokana na data zinazotumiwa kutrain hizo models zinazotafsiri. Uwepo wa dataset kama hii utaleta mapinduzi sana
Hili ni aadhimu kabisa!
 
Back
Top Bottom