Mfumo Mkubwa wa Lugha

Mfumo Mkubwa wa Lugha au Mfano Mkubwa wa Lugha (kifupi: MML kutoka kwenye Kiingereza Large Language Model au LLM kwa ufupi) ni programu ya akili bandia yenye uwezo wa kuelewa na kuunda lugha kwa ajili ya matumizi mbalimbali.^[1] Mifumo hiyo inapata uwezo huo kwa kutumia data nyingi mno za lugha husika kujifunza maana ya maneno na mahusiano yaliyopo baina ya maneno. Hujifunza pia kutofautisha maneno kulingana na muktadha wa mazungumzo na hutumia rasilimali kubwa za hesabu wakati wa mafunzo na operesheni zao.

Mifano hiyo ni mitandao ya neva za bandia (haswa Transfoma) na hupata mafunzo kwa kujifunza zenyewe au kwa kusimamiwa. Mifumo hiyo inajiongoza, hufanya kazi kwa kuchukua neno au sentensi (mwongozo) kisha kwa kurudiarudia zinatabiri neno au sentensi ambayo mara nyingi hufuatia mbele ya mwongozo.

Mifumo mikubwa ya lugha inayojulikana ni pamoja na GPT ya OpenAI (kama GPT-3.5 na GPT-4, inayotumika katika ChatGPT), PaLM ya Google (inayotumika katika Bard), na LLaMa ya Meta, pamoja na BLOOM, Ernie 3.0 Titan, na Claude 2 ya Anthropic.

Utendaji Kazi

Utendaji kazi wa mifumo mikubwa ya lugha kama ilivyo kwasasa ni fumbo ^[2]^[3] na bado haijafahamika kivipi inaweza kufanya kazi zinazohusisha lugha. Kimsingi, MMLs ni kama programu tata ya kukamilisha maneno, kwa kuipa maandishi ya awali (Mf: Haba na haba) MMLs hutoa maandishi ambayo kitakwimu yana nafasi kubwa ya kufatia (Mf: Hujaza kibaba) kulingana na alama ilizojifunza kutoka kwenye data ilizotumia kujifundisha ^[4].

MMLs ina idadi kubwa ya vipimo, mfano GPT-3 ina vipimo bilioni 175 huku mifumo ya hivi karibuni kama GPT-4 ikikadiriwa kuwa na vipimo zaidi ya trilioni 1 ^[5]. Ni ukubwa wa namna hii unaofanya iwe ngumu sana kuelewa kiundani utendaji kazi wa MMLs. Kila kipimo ndani ya MML kina athari yake kwenye tabia na utendaji kazi wa MML nzima, hivyo tabia ya jumla ya MML haiwezi kuelezewa na kanuni zinazotambulika.^[2]

Ugumu wa kung'amua utendaji kazi wa ndani wa MML huongezeka kadri idadi ya vipimo vyake inavyoongezeka. MML yenye vipimo angalau zaidi ya bilioni moja huanza kuonyesha "tabia zinazojitokeza" ^[6] - tabia zinazoonyeshwa na mfumo mzima kwa ujumla ambazo haziwezi kuonyeshwa na sehemu moja moja ya mfumo. Mfano wa tabia hizo ni kama akili ya kawaida, kutafsiri lugha na kuandika muhtasari wa kifungu cha habari. Ukubwa na utata wa MMLs inafanya iwe ngumu kuelewa utendaji kazi wake wa ndani hata kwa waundaji wake.

Vekta Maneno

Kuelewa maana ya neno na mahusiano yake na maneno mengine, MML inawakilisha kila neno kama nukta kwenye nafasi ya kufikirika yenye vipimo vingi ^[7] huku maneno yenye maana sawa yakiwa karibu sana kwenye nafasi.

Kwa kuwakilisha maneno kama vekta, MML inaweza kujifunza vingi kuhusu sifa za maneno na mahusiano yake, mfano kujua kua Berlin kwa ujerumani ni sawa Paris kwa ufaransa au mwanaume kwa mwanamke ni sawa na mfalme kwa malkia ^[3]. Kwasababu lugha ya binadamu imejaa utata, MML inahitaji kuwa na maarifa ya kutosha kuhusu ulimwengu ili iweze kujua maana ya maneno kwa kuzingatia muktadha wa mazungumzo.

Mafunzo

Wakati wa mafunzo, MML huonyeshwa idadi kubwa ya maandishi yaliyopo na kujifunza jinsi gani maneno huonekana kwenye maandishi ukilinganisha na maneno mengine. Kisha hutumia kile ilichojifunza kutabiri neno lenye uwezekano mkubwa wa kutokea mbele ya neno jingine na kila neno litakalofatia baada ya hapo. Hii haina tofauti na kile kinachofanywa na programu za kukamilisha maneno zinazotumika kwenye injini za utafutaji na simu janja ^[8].

Kazi kuu ya MML ni kukokotoa uwezekano wa neno kufatia mbele ya sentensi ^[9] , hii hufanywa kwa kuondoa neno la mwisho kwenye sentensi na kuifundisha MML kubashiri neno hilo. Kadri MML inavyopitia mifano mingi ndivyo inavyojifunza sheria za lugha, maana na mahusiano yaliyopo kati ya maneno, hapa mmoja anaweza sema kuwa MML inaunda uelewa wake wenyewe kuhusu lugha.

Mafunzo ya kujiimarisha kupitia maoni ya binadamu (MKKMB)

Ili mfumo mkubwa wa lugha uweze kuunda maandishi yanayovutia na yenye usahihi, watafiti na waundaji wa MMLs wanatumia mbinu ya kujifunza kwa mashine ya "mafunzo ya kujiimarisha kupitia maoni ya binadamu" ^[10]. Kupitia maoni ya binadamu, mfumo wa thawabu unaundwa wenye uwezo wa kutabiri maandishi gani yatapendwa na binadamu, kisha mfumo huu wa thawabu unatumika kuifundisha MML kuunda maandishi yanayopendwa na binadamu kwa kuipa thawabu pale inapopatia ^[11]

Ni mbinu hii inayowezesha MMLs kukataa maombi ya kuunda maandishi yoyote ya chuki, ubaguzi wa rangi, ubaguzi wa kijinsia, ya kingono na kadhalika. Moja kati ya mifumo mikubwa ya lugha iliyofanikiwa kwa kutumia MKKMB ni GPT-3.5 inayotumika kwenye roboti la mazungumzo la ChatGPT kutoka OpenAI.

Mapokeo

Mwaka 2023, jarida la kisayansi la Nature Biomedical Engineering liliandika "Dunia bado haiamini kuwa mtandao rahisi ila mkubwa wa neva bandia unaweza kuunda mazungumzo yanayofaulu Mtihani wa Turing. Ni vigumu kwasasa kutofautisha kati ya maandishi yaliyoandikwa na binadamu na yale yaliyoandikwa na mtandao rahisi wa neva bandia. Kama tukirudi miaka michache tu iliyopita, idadi kubwa ya wataalamu wa kujifunza kwa mashine na wa lugha wasingeweza kuamini kuwa kompyuta ingeweza kuelewa lugha za binadamu" ^[12].

Tafiti kutoka Goldman Sachs zilionyesha kuwa ndani ya mwaka 2023 akili bandia zalishaji kadri zinavyozidi kutumika kwenye biashara na jamii kwa ujumla zinaweza ongeza pato la dunia kwa 7% (sawa na dola za kimarekani trilioni 7) na kuchochea tija kwa 15% ndani ya kipindi cha miaka 10 ^[13] ^[14].

Hata hivyo baadhi ya wadau wameonyesha wasiwasi wao juu ya uwezekano wa mifumo mikubwa ya lugha kutumika kama zana za kupotosha habari na matumizi mengine mabaya ^[15]. Kwa mfano, upatikanaji wa mifumo mikubwa ya lugha inapunguza kiwango cha ujuzi kinachohitajika kutekeleza ugaidi wa kibaiolojia, mtafiti wa usalama wa viumbe Kevin Esvelt alitoa pendekezo kuwa waundaji wa MMLs wasiweke maandishi au taarifa zinazohusiana na kutengeneza au kuboresha vimelea vya magonjwa ^[16]

Orodha


Jina	Tarehe ya toleo	Msanidi	Idadi ya vipimo	Idadi ya maneno	Gharama ya mafunzo (petaFLOP - siku)	Leseni	Maelezo
BERT	Octoba 2018	Google	Milioni 340	Maneno bilioni 3.3	9	Apache 2.0
XLNet	Juni 2019	Google	~Milioni 340	Maneno bilioni 33			Mbadala wa BERT
GPT-2	Februari 2019	OpenAI	Bilioni 1.5	Maneno bilioni 10		MIT	MML kwa ajili ya matumizi ya jumla, umeundwa kwa kutumia usanifu wa Transfoma
GPT-3	Mei 2020	OpenAI	Bilioni 175	Maneno bilioni 300	3640	Inamilikiwa	Toleo lililoboreshwa la GPT-3 lililoitwa GPT-3.5 lilitolewa kwa umma kupitia kiolesura cha wavuti kiitwacho ChatGPT mnamo 2022
GPT-Neo	Machi 2021	EleutherAI	Bilioni 2.7	GiB 825 za maneno		MIT	Hii ni ya kwanza kati ya mfululizo wa mibadala ya bure ya GPT-3 iliyotolewa na EleutherAI. GPT-Neo ilifanya vyema zaidi ya GPT-3 ya ukubwa sawa kwenye baadhi ya vigezo, lakini iliachwa nyuma mno na GPT-3 kubwa zaidi yake.
GPT-J	Juni 2021	EleutherAI	Bilioni 6	GiB 825 za maneno	200	Apache 2.0	Mfumo wa lugha aina ya GPT-3
Megatron-Turing NLG	Octa 2021	Microsoft na Nvidia	Bilioni 530	Maneno bilioni 338.6
GPT-4	Machi 2023	OpenAI	Haijulikani	Haijulikani	Haijulikani	Inamilikiwa	Inapatikana kwa watumiaji wa ChatGPT Plus na bidhaa nyingine za OpenAI
LLaMA (Large Language Model Meta AI)	Februari 2023	Meta Platforms	Bilioni 65	Trilioni 1.4	6300	Kwa ajili ya tafiti zisizo za kibiashara	Watafiti kutoka chuo kikuu cha Stanford waliunda mfumo uliyoboreshwa kwa kutumia vipimo ya LLaMA walioupa jina la Alpaca
BLOOM	Julai 2022	Kwa ushirikiano mkubwa ulioongozwa na Hugging Face	Bilioni 175	Maneno bilioni 350 (TB 1.6)		Responsible AI	Kimsingi hii ni GPT-3, lakini imefundishwa lugha nyingi ikiwemo 30% ya kingereza bila kujumuisha lugha za programu.
PaLM (Pathways Language Model)	Aprili 2022	Google	Bilioni 540	Bilioni 768	29250	Inamilikiwa	Hapa lengo ni kufikia kiwango cha mwisho cha ukubwa wa MML
Minerva	Juni 2022	Google	Bilioni 540	Maneno / ishara bilioni 38.5 kutoka kwenye kurasa za tovuti kupata mahudhui ya hisabati zikiwemo karatasi zilizowasilishwa kwenye tovuti ya arXiv		inamilikiwa	MML iliyofundishwa kujibu maswali ya hisabati ya kisayansi hatua kwa hatua. Minerva imejengwa juu ya mfumo wa PaLM uliyoboreshwa kwa kutumia data za hisabati na sayansi.
LaMDA (Language Models for Dialog Applications)	Januari 2022	Google	Bilioni 137	Maneno trilioni 1.56 na ishara bilioni 168	4110	Inamilikiwa	Maalumu kwa ajili ya mazungumzo
GPT-NeoX	Februari 2022	EleutherAI	Bilioni 20	GiB 825	740	Apache 2.0
Llama 2	Julai 2023	Meta Platforms	Bilioni 70	Maneno / ishara trilioni 2		Leseni ya Llama 2	Mrithi wa LLaMA
Ernie 3.0 Titan	Desemba 2021	Baidu	Bilioni 260	TB 4		Inamilikiwa	MML kutoka China. Ernie Bot ya Baidu inatumia mfumo huu
Claude	Desemba 2021	Anthropic	Bilioni 52	Maneno / ishara bilioni 400		beta	Imeboreshwa kwa ajili ya mazungumzo
GLaM (Generalist Language Model)	Desemba 2021	Google	Trilioni 1.2	Maneno ./ ishara trilioni 1.6	5600	Inamilikiwa
Gopher	Desemba 2021	Deepmind	Bilioni 280	Maneno / ishara bilioni 300	5833	Inamilikiwa
YaLM 100B	Juni 2022	Yandex	Bilioni 100	TB 1.7		Apache 2.0	MML ya kingereza na kirusi iliyojengwa juu ya mfumo wa Megatron-LM
Galactica	Novemba 2022	Meta Platforms	Bilioni 120	Maneno / ishara bilioni 106	Haijulikani	CC-BY-NC-4.0	Imefundishwa njia na taarifa za kisayansi
AlexaTM (Teacher Models)	Novemba 2022	Amazon (kampuni)	Bilioni 20	Trilioni 1.3		Inamilikiwa
Cerebras-GPT	Machi 2023	Cerebras	Bilioni 13		270	Apache 2.0
Falcon	Machi 2023	Technology Innovation Institute	Bilioni 40	Maneno / ishara trilioni kutoka kwenye tovuti	2800	Apache 2.0
BloombergGPT	Machi 2023	Bloomberg L.P.	Bilioni 50	Maneno / ishara 363 kutoka kwenye data za Bloomberg, jumlisha na maneno / ishara bilioni 345 kutoka kwenye vyanzo vingine.		Inamilikiwa	Hii ni MML iliyofundishwa kwa kutumia taarifa za kifedha, hivyo inafanya vizuri zaidi kuliko mifumo mingine yote kwenye kazi za kifedha na bila kuachwa nyuma kwenye vigezo vingine vinavyotumika kupima MML
PanGu-Σ	Machi 2023	Huawei	Trilioni 1.085	Maneno / ishara bilioni 329		Inamilikiwa
OpenAssistan	Machi 2023	LAION	Bilioni 17	Maneno / ishara trilioni 1.5		Apache 2.0
Falcon 180B	Septemba 2023	Technology Innovation Institute	Bilioni 180	Maneno / ishara trilioni 3.5		Falcon 180B TII license
Mistral 7B	Septemba 2023	Mistral	Bilioni 7.3	Haijulikani		Apache 2.0
OpenHermes-7B	Septemba 2023	Nous Research	Bilioni 7	Haijulikani	Haijulikani	MIT
OpenHermes-15	Septemba 2023	Nous Research	Bilioni 13	Haijulikani	Haijulikani	MIT
Grok-1	Novemba 2023	X.AI	Haijulikani	Haijulikani	Haijulikani	Inamilikiwa	Inatumika kwenye roboti la mazungumzo la Grok. Grok-1 ina dirisha la muktadha lenye uwezo wa kupokea maneno 8,192. Grok-1 imeunganishwa na X (zamani Twitter)
Gemini	Desemba 2023	Google Deepmind	Haijulikani	Haijulikani	Haijulikani	Inamilikiwa	Huu ni mfumo wa taarifa nyingi uliogawanyika kwenye aina tatu, Gemini Utra, Gemini Pro na Gemini Nano. Unatumika kwenye roboti la mazungumzo la Bard
Phi-2	Desemba 2023	Microsoft	Bilioni 2.7	Maneno trilioni 1.4	Haijulikani	Inamilikiwa	Mfumo uliofunzwa kwa kutumia vitabu vya kiada pekee

Masoma zaidi

MMLs za bure

Tanbihi

↑ "Large language model", Wikipedia (kwa Kiingereza), 2023-12-01, iliwekwa mnamo 2023-12-02
↑ ^2.0 ^2.1 "The Black Box Problem: Opaque Inner Workings of Large Language Models". Prompt Engineering (kwa Kiingereza). 2023-10-23. Iliwekwa mnamo 2023-12-04.
↑ ^3.0 ^3.1 Timothy B. Lee. "Large language models, explained with a minimum of math and jargon". www.understandingai.org (kwa Kiingereza). Iliwekwa mnamo 2023-12-10.
↑ "LLM concepts guide". Google AI for Developers (kwa Kiingereza). Iliwekwa mnamo 2024-01-07.
↑ Matthias Bastian (2023-03-25). "GPT-4 has more than a trillion parameters - Report". THE DECODER (kwa American English). Iliwekwa mnamo 2023-12-04.
↑ Deepak Babu P. R (2023-06-05). "Emergent Abilities in LLM : Unpredictable Abilities in Large Language Models". Medium (kwa Kiingereza). Iliwekwa mnamo 2023-12-04.
↑ Dhruvil Karani (2020-09-02). "Introduction to Word Embedding and Word2Vec". Medium (kwa Kiingereza). Iliwekwa mnamo 2023-12-10.
↑ "How ChatGPT and Our Language Models Are Developed | OpenAI Help Center". help.openai.com (kwa Kiingereza). Iliwekwa mnamo 2023-12-04.
↑ "The Full Story of Large Language Models and RLHF". News, Tutorials, AI Research (kwa Kiingereza). 2023-05-03. Iliwekwa mnamo 2023-12-11.
↑ "What is reinforcement learning from human feedback (RLHF)?". WhatIs (kwa Kiingereza). Iliwekwa mnamo 2023-12-23.
↑ "Illustrating Reinforcement Learning from Human Feedback (RLHF)". huggingface.co. Iliwekwa mnamo 2023-12-23.
↑ "Prepare for truly useful large language models". Nature Biomedical Engineering (kwa Kiingereza). 7 (2): 85–86. 2023-02. doi:10.1038/s41551-023-01012-6. ISSN 2157-846X. {{cite journal}}: Check date values in: |date= (help)
↑ "Your job is (probably) safe from artificial intelligence", The Economist, ISSN 0013-0613, iliwekwa mnamo 2023-12-06
↑ "Generative AI Could Raise Global GDP by 7%". Goldman Sachs (kwa American English). Iliwekwa mnamo 2023-12-06.
↑ Davey Alba (2023-05-01). "AI chatbots have been used to create dozens of news content farms". The Japan Times (kwa Kiingereza). Iliwekwa mnamo 2023-12-06.
↑ Could chatbots help devise the next pandemic virus? [1]

[1] "Large language model", Wikipedia (kwa Kiingereza), 2023-12-01, iliwekwa mnamo 2023-12-02

[:8-2] 2.0 ^2.1 "The Black Box Problem: Opaque Inner Workings of Large Language Models". Prompt Engineering (kwa Kiingereza). 2023-10-23. Iliwekwa mnamo 2023-12-04.

[:9-3] 3.0 ^3.1 Timothy B. Lee. "Large language models, explained with a minimum of math and jargon". www.understandingai.org (kwa Kiingereza). Iliwekwa mnamo 2023-12-10.

[4] "LLM concepts guide". Google AI for Developers (kwa Kiingereza). Iliwekwa mnamo 2024-01-07.

[:0-5] Matthias Bastian (2023-03-25). "GPT-4 has more than a trillion parameters - Report". THE DECODER (kwa American English). Iliwekwa mnamo 2023-12-04.

[:1-6] Deepak Babu P. R (2023-06-05). "Emergent Abilities in LLM : Unpredictable Abilities in Large Language Models". Medium (kwa Kiingereza). Iliwekwa mnamo 2023-12-04.

[:10-7] Dhruvil Karani (2020-09-02). "Introduction to Word Embedding and Word2Vec". Medium (kwa Kiingereza). Iliwekwa mnamo 2023-12-10.

[:2-8] "How ChatGPT and Our Language Models Are Developed | OpenAI Help Center". help.openai.com (kwa Kiingereza). Iliwekwa mnamo 2023-12-04.

[9] "The Full Story of Large Language Models and RLHF". News, Tutorials, AI Research (kwa Kiingereza). 2023-05-03. Iliwekwa mnamo 2023-12-11.

[10] "What is reinforcement learning from human feedback (RLHF)?". WhatIs (kwa Kiingereza). Iliwekwa mnamo 2023-12-23.

[11] "Illustrating Reinforcement Learning from Human Feedback (RLHF)". huggingface.co. Iliwekwa mnamo 2023-12-23.

[:3-12] "Prepare for truly useful large language models". Nature Biomedical Engineering (kwa Kiingereza). 7 (2): 85–86. 2023-02. doi:10.1038/s41551-023-01012-6. ISSN 2157-846X. {{cite journal}}: Check date values in: |date= (help)

[:4-13] "Your job is (probably) safe from artificial intelligence", The Economist, ISSN 0013-0613, iliwekwa mnamo 2023-12-06

[:5-14] "Generative AI Could Raise Global GDP by 7%". Goldman Sachs (kwa American English). Iliwekwa mnamo 2023-12-06.

[:6-15] Davey Alba (2023-05-01). "AI chatbots have been used to create dozens of news content farms". The Japan Times (kwa Kiingereza). Iliwekwa mnamo 2023-12-06.

[:7-16] Could chatbots help devise the next pandemic virus? [1]

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]