Mfumo Mkubwa wa Lugha
Mfumo Mkubwa wa Lugha au Mfano Mkubwa wa Lugha (kifupi: MML kutoka kwenye Kiingereza Large Language Model au LLM kwa ufupi) ni programu ya akili bandia yenye uwezo wa kuelewa na kuunda lugha kwa ajili ya matumizi mbalimbali.[1] Mifumo hiyo inapata uwezo huo kwa kutumia data nyingi mno za lugha husika kujifunza maana ya maneno na mahusiano yaliyopo baina ya maneno. Hujifunza pia kutofautisha maneno kulingana na muktadha wa mazungumzo na hutumia rasilimali kubwa za hesabu wakati wa mafunzo na operesheni zao.
Mifano hiyo ni mitandao ya neva za bandia (haswa Transfoma) na hupata mafunzo kwa kujifunza zenyewe au kwa kusimamiwa. Mifumo hiyo inajiongoza, hufanya kazi kwa kuchukua neno au sentensi (mwongozo) kisha kwa kurudiarudia zinatabiri neno au sentensi ambayo mara nyingi hufuatia mbele ya mwongozo.
Mifumo mikubwa ya lugha inayojulikana ni pamoja na GPT ya OpenAI (kama GPT-3.5 na GPT-4, inayotumika katika ChatGPT), PaLM ya Google (inayotumika katika Bard), na LLaMa ya Meta, pamoja na BLOOM, Ernie 3.0 Titan, na Claude 2 ya Anthropic.
Utendaji Kazi
[hariri | hariri chanzo]Utendaji kazi wa mifumo mikubwa ya lugha kama ilivyo kwasasa ni fumbo [2][3] na bado haijafahamika kivipi inaweza kufanya kazi zinazohusisha lugha. Kimsingi, MMLs ni kama programu tata ya kukamilisha maneno, kwa kuipa maandishi ya awali (Mf: Haba na haba) MMLs hutoa maandishi ambayo kitakwimu yana nafasi kubwa ya kufatia (Mf: Hujaza kibaba) kulingana na alama ilizojifunza kutoka kwenye data ilizotumia kujifundisha [4].
MMLs ina idadi kubwa ya vipimo, mfano GPT-3 ina vipimo bilioni 175 huku mifumo ya hivi karibuni kama GPT-4 ikikadiriwa kuwa na vipimo zaidi ya trilioni 1 [5]. Ni ukubwa wa namna hii unaofanya iwe ngumu sana kuelewa kiundani utendaji kazi wa MMLs. Kila kipimo ndani ya MML kina athari yake kwenye tabia na utendaji kazi wa MML nzima, hivyo tabia ya jumla ya MML haiwezi kuelezewa na kanuni zinazotambulika.[2]
Ugumu wa kung'amua utendaji kazi wa ndani wa MML huongezeka kadri idadi ya vipimo vyake inavyoongezeka. MML yenye vipimo angalau zaidi ya bilioni moja huanza kuonyesha "tabia zinazojitokeza" [6] - tabia zinazoonyeshwa na mfumo mzima kwa ujumla ambazo haziwezi kuonyeshwa na sehemu moja moja ya mfumo. Mfano wa tabia hizo ni kama akili ya kawaida, kutafsiri lugha na kuandika muhtasari wa kifungu cha habari. Ukubwa na utata wa MMLs inafanya iwe ngumu kuelewa utendaji kazi wake wa ndani hata kwa waundaji wake.
Vekta Maneno
[hariri | hariri chanzo]Kuelewa maana ya neno na mahusiano yake na maneno mengine, MML inawakilisha kila neno kama nukta kwenye nafasi ya kufikirika yenye vipimo vingi [7] huku maneno yenye maana sawa yakiwa karibu sana kwenye nafasi.
Kwa kuwakilisha maneno kama vekta, MML inaweza kujifunza vingi kuhusu sifa za maneno na mahusiano yake, mfano kujua kua Berlin kwa ujerumani ni sawa Paris kwa ufaransa au mwanaume kwa mwanamke ni sawa na mfalme kwa malkia [3]. Kwasababu lugha ya binadamu imejaa utata, MML inahitaji kuwa na maarifa ya kutosha kuhusu ulimwengu ili iweze kujua maana ya maneno kwa kuzingatia muktadha wa mazungumzo.
Mafunzo
[hariri | hariri chanzo]Wakati wa mafunzo, MML huonyeshwa idadi kubwa ya maandishi yaliyopo na kujifunza jinsi gani maneno huonekana kwenye maandishi ukilinganisha na maneno mengine. Kisha hutumia kile ilichojifunza kutabiri neno lenye uwezekano mkubwa wa kutokea mbele ya neno jingine na kila neno litakalofatia baada ya hapo. Hii haina tofauti na kile kinachofanywa na programu za kukamilisha maneno zinazotumika kwenye injini za utafutaji na simu janja [8].
Kazi kuu ya MML ni kukokotoa uwezekano wa neno kufatia mbele ya sentensi [9] , hii hufanywa kwa kuondoa neno la mwisho kwenye sentensi na kuifundisha MML kubashiri neno hilo. Kadri MML inavyopitia mifano mingi ndivyo inavyojifunza sheria za lugha, maana na mahusiano yaliyopo kati ya maneno, hapa mmoja anaweza sema kuwa MML inaunda uelewa wake wenyewe kuhusu lugha.
Mafunzo ya kujiimarisha kupitia maoni ya binadamu (MKKMB)
[hariri | hariri chanzo]Ili mfumo mkubwa wa lugha uweze kuunda maandishi yanayovutia na yenye usahihi, watafiti na waundaji wa MMLs wanatumia mbinu ya kujifunza kwa mashine ya "mafunzo ya kujiimarisha kupitia maoni ya binadamu" [10]. Kupitia maoni ya binadamu, mfumo wa thawabu unaundwa wenye uwezo wa kutabiri maandishi gani yatapendwa na binadamu, kisha mfumo huu wa thawabu unatumika kuifundisha MML kuunda maandishi yanayopendwa na binadamu kwa kuipa thawabu pale inapopatia [11]
Ni mbinu hii inayowezesha MMLs kukataa maombi ya kuunda maandishi yoyote ya chuki, ubaguzi wa rangi, ubaguzi wa kijinsia, ya kingono na kadhalika. Moja kati ya mifumo mikubwa ya lugha iliyofanikiwa kwa kutumia MKKMB ni GPT-3.5 inayotumika kwenye roboti la mazungumzo la ChatGPT kutoka OpenAI.
Mapokeo
[hariri | hariri chanzo]Mwaka 2023, jarida la kisayansi la Nature Biomedical Engineering liliandika "Dunia bado haiamini kuwa mtandao rahisi ila mkubwa wa neva bandia unaweza kuunda mazungumzo yanayofaulu Mtihani wa Turing. Ni vigumu kwasasa kutofautisha kati ya maandishi yaliyoandikwa na binadamu na yale yaliyoandikwa na mtandao rahisi wa neva bandia. Kama tukirudi miaka michache tu iliyopita, idadi kubwa ya wataalamu wa kujifunza kwa mashine na wa lugha wasingeweza kuamini kuwa kompyuta ingeweza kuelewa lugha za binadamu" [12].
Tafiti kutoka Goldman Sachs zilionyesha kuwa ndani ya mwaka 2023 akili bandia zalishaji kadri zinavyozidi kutumika kwenye biashara na jamii kwa ujumla zinaweza ongeza pato la dunia kwa 7% (sawa na dola za kimarekani trilioni 7) na kuchochea tija kwa 15% ndani ya kipindi cha miaka 10 [13] [14].
Hata hivyo baadhi ya wadau wameonyesha wasiwasi wao juu ya uwezekano wa mifumo mikubwa ya lugha kutumika kama zana za kupotosha habari na matumizi mengine mabaya [15]. Kwa mfano, upatikanaji wa mifumo mikubwa ya lugha inapunguza kiwango cha ujuzi kinachohitajika kutekeleza ugaidi wa kibaiolojia, mtafiti wa usalama wa viumbe Kevin Esvelt alitoa pendekezo kuwa waundaji wa MMLs wasiweke maandishi au taarifa zinazohusiana na kutengeneza au kuboresha vimelea vya magonjwa [16]
Orodha
[hariri | hariri chanzo]Jina | Tarehe ya toleo | Msanidi | Idadi ya vipimo | Idadi ya maneno | Gharama ya mafunzo (petaFLOP - siku) | Leseni | Maelezo |
---|---|---|---|---|---|---|---|
BERT | Octoba 2018 | Milioni 340 | Maneno bilioni 3.3 | 9 | Apache 2.0 | ||
XLNet | Juni 2019 | ~Milioni 340 | Maneno bilioni 33 | Mbadala wa BERT | |||
GPT-2 | Februari 2019 | OpenAI | Bilioni 1.5 | Maneno bilioni 10 | MIT | MML kwa ajili ya matumizi ya jumla, umeundwa kwa kutumia usanifu wa Transfoma | |
GPT-3 | Mei 2020 | OpenAI | Bilioni 175 | Maneno bilioni 300 | 3640 | Inamilikiwa | Toleo lililoboreshwa la GPT-3 lililoitwa GPT-3.5 lilitolewa kwa umma kupitia kiolesura cha wavuti kiitwacho ChatGPT mnamo 2022 |
GPT-Neo | Machi 2021 | EleutherAI | Bilioni 2.7 | GiB 825 za maneno | MIT | Hii ni ya kwanza kati ya mfululizo wa mibadala ya bure ya GPT-3 iliyotolewa na EleutherAI. GPT-Neo ilifanya vyema zaidi ya GPT-3 ya ukubwa sawa kwenye baadhi ya vigezo, lakini iliachwa nyuma mno na GPT-3 kubwa zaidi yake. | |
GPT-J | Juni 2021 | EleutherAI | Bilioni 6 | GiB 825 za maneno | 200 | Apache 2.0 | Mfumo wa lugha aina ya GPT-3 |
Megatron-Turing NLG | Octa 2021 | Microsoft na Nvidia | Bilioni 530 | Maneno bilioni 338.6 | |||
GPT-4 | Machi 2023 | OpenAI | Haijulikani | Haijulikani | Haijulikani | Inamilikiwa | Inapatikana kwa watumiaji wa ChatGPT Plus na bidhaa nyingine za OpenAI |
LLaMA (Large Language Model Meta AI) | Februari 2023 | Meta Platforms | Bilioni 65 | Trilioni 1.4 | 6300 | Kwa ajili ya tafiti zisizo za kibiashara | Watafiti kutoka chuo kikuu cha Stanford waliunda mfumo uliyoboreshwa kwa kutumia vipimo ya LLaMA walioupa jina la Alpaca |
BLOOM | Julai 2022 | Kwa ushirikiano mkubwa ulioongozwa na Hugging Face | Bilioni 175 | Maneno bilioni 350 (TB 1.6) | Responsible AI | Kimsingi hii ni GPT-3, lakini imefundishwa lugha nyingi ikiwemo 30% ya kingereza bila kujumuisha lugha za programu. | |
PaLM (Pathways Language Model) | Aprili 2022 | Bilioni 540 | Bilioni 768 | 29250 | Inamilikiwa | Hapa lengo ni kufikia kiwango cha mwisho cha ukubwa wa MML | |
Minerva | Juni 2022 | Bilioni 540 | Maneno / ishara bilioni 38.5 kutoka kwenye kurasa za tovuti kupata mahudhui ya hisabati zikiwemo karatasi zilizowasilishwa kwenye tovuti ya arXiv | inamilikiwa | MML iliyofundishwa kujibu maswali ya hisabati ya kisayansi hatua kwa hatua. Minerva imejengwa juu ya mfumo wa PaLM uliyoboreshwa kwa kutumia data za hisabati na sayansi. | ||
LaMDA (Language Models for Dialog Applications) | Januari 2022 | Bilioni 137 | Maneno trilioni 1.56 na ishara bilioni 168 | 4110 | Inamilikiwa | Maalumu kwa ajili ya mazungumzo | |
GPT-NeoX | Februari 2022 | EleutherAI | Bilioni 20 | GiB 825 | 740 | Apache 2.0 | |
Llama 2 | Julai 2023 | Meta Platforms | Bilioni 70 | Maneno / ishara trilioni 2 | Leseni ya Llama 2 | Mrithi wa LLaMA | |
Ernie 3.0 Titan | Desemba 2021 | Baidu | Bilioni 260 | TB 4 | Inamilikiwa | MML kutoka China. Ernie Bot ya Baidu inatumia mfumo huu | |
Claude | Desemba 2021 | Anthropic | Bilioni 52 | Maneno / ishara bilioni 400 | beta | Imeboreshwa kwa ajili ya mazungumzo | |
GLaM (Generalist Language Model) | Desemba 2021 | Trilioni 1.2 | Maneno ./ ishara trilioni 1.6 | 5600 | Inamilikiwa | ||
Gopher | Desemba 2021 | Deepmind | Bilioni 280 | Maneno / ishara bilioni 300 | 5833 | Inamilikiwa | |
YaLM 100B | Juni 2022 | Yandex | Bilioni 100 | TB 1.7 | Apache 2.0 | MML ya kingereza na kirusi iliyojengwa juu ya mfumo wa Megatron-LM | |
Galactica | Novemba 2022 | Meta Platforms | Bilioni 120 | Maneno / ishara bilioni 106 | Haijulikani | CC-BY-NC-4.0 | Imefundishwa njia na taarifa za kisayansi |
AlexaTM (Teacher Models) | Novemba 2022 | Amazon (kampuni) | Bilioni 20 | Trilioni 1.3 | Inamilikiwa | ||
Cerebras-GPT | Machi 2023 | Cerebras | Bilioni 13 | 270 | Apache 2.0 | ||
Falcon | Machi 2023 | Technology Innovation Institute | Bilioni 40 | Maneno / ishara trilioni kutoka kwenye tovuti | 2800 | Apache 2.0 | |
BloombergGPT | Machi 2023 | Bloomberg L.P. | Bilioni 50 | Maneno / ishara 363 kutoka kwenye data za Bloomberg, jumlisha na maneno / ishara bilioni 345 kutoka kwenye vyanzo vingine. | Inamilikiwa | Hii ni MML iliyofundishwa kwa kutumia taarifa za kifedha, hivyo inafanya vizuri zaidi kuliko mifumo mingine yote kwenye kazi za kifedha na bila kuachwa nyuma kwenye vigezo vingine vinavyotumika kupima MML | |
PanGu-Σ | Machi 2023 | Huawei | Trilioni 1.085 | Maneno / ishara bilioni 329 | Inamilikiwa | ||
OpenAssistan | Machi 2023 | LAION | Bilioni 17 | Maneno / ishara trilioni 1.5 | Apache 2.0 | ||
Falcon 180B | Septemba 2023 | Technology Innovation Institute | Bilioni 180 | Maneno / ishara trilioni 3.5 | Falcon 180B TII license | ||
Mistral 7B | Septemba 2023 | Mistral | Bilioni 7.3 | Haijulikani | Apache 2.0 | ||
OpenHermes-7B | Septemba 2023 | Nous Research | Bilioni 7 | Haijulikani | Haijulikani | MIT | |
OpenHermes-15 | Septemba 2023 | Nous Research | Bilioni 13 | Haijulikani | Haijulikani | MIT | |
Grok-1 | Novemba 2023 | X.AI | Haijulikani | Haijulikani | Haijulikani | Inamilikiwa | Inatumika kwenye roboti la mazungumzo la Grok. Grok-1 ina dirisha la muktadha lenye uwezo wa kupokea maneno 8,192. Grok-1 imeunganishwa na X (zamani Twitter) |
Gemini | Desemba 2023 | Google Deepmind | Haijulikani | Haijulikani | Haijulikani | Inamilikiwa | Huu ni mfumo wa taarifa nyingi uliogawanyika kwenye aina tatu, Gemini Utra, Gemini Pro na Gemini Nano. Unatumika kwenye roboti la mazungumzo la Bard |
Phi-2 | Desemba 2023 | Microsoft | Bilioni 2.7 | Maneno trilioni 1.4 | Haijulikani | Inamilikiwa | Mfumo uliofunzwa kwa kutumia vitabu vya kiada pekee |
Masoma zaidi
[hariri | hariri chanzo]Tanbihi
[hariri | hariri chanzo]- ↑ "Large language model", Wikipedia (kwa Kiingereza), 2023-12-01, iliwekwa mnamo 2023-12-02
- ↑ 2.0 2.1 "The Black Box Problem: Opaque Inner Workings of Large Language Models". Prompt Engineering (kwa Kiingereza). 2023-10-23. Iliwekwa mnamo 2023-12-04.
- ↑ 3.0 3.1 Timothy B. Lee. "Large language models, explained with a minimum of math and jargon". www.understandingai.org (kwa Kiingereza). Iliwekwa mnamo 2023-12-10.
- ↑ "LLM concepts guide". Google AI for Developers (kwa Kiingereza). Iliwekwa mnamo 2024-01-07.
- ↑ Matthias Bastian (2023-03-25). "GPT-4 has more than a trillion parameters - Report". THE DECODER (kwa American English). Iliwekwa mnamo 2023-12-04.
- ↑ Deepak Babu P. R (2023-06-05). "Emergent Abilities in LLM : Unpredictable Abilities in Large Language Models". Medium (kwa Kiingereza). Iliwekwa mnamo 2023-12-04.
- ↑ Dhruvil Karani (2020-09-02). "Introduction to Word Embedding and Word2Vec". Medium (kwa Kiingereza). Iliwekwa mnamo 2023-12-10.
- ↑ "How ChatGPT and Our Language Models Are Developed | OpenAI Help Center". help.openai.com (kwa Kiingereza). Iliwekwa mnamo 2023-12-04.
- ↑ "The Full Story of Large Language Models and RLHF". News, Tutorials, AI Research (kwa Kiingereza). 2023-05-03. Iliwekwa mnamo 2023-12-11.
- ↑ "What is reinforcement learning from human feedback (RLHF)?". WhatIs (kwa Kiingereza). Iliwekwa mnamo 2023-12-23.
- ↑ "Illustrating Reinforcement Learning from Human Feedback (RLHF)". huggingface.co. Iliwekwa mnamo 2023-12-23.
- ↑ "Prepare for truly useful large language models". Nature Biomedical Engineering (kwa Kiingereza). 7 (2): 85–86. 2023-02. doi:10.1038/s41551-023-01012-6. ISSN 2157-846X.
{{cite journal}}
: Check date values in:|date=
(help) - ↑ "Your job is (probably) safe from artificial intelligence", The Economist, ISSN 0013-0613, iliwekwa mnamo 2023-12-06
- ↑ "Generative AI Could Raise Global GDP by 7%". Goldman Sachs (kwa American English). Iliwekwa mnamo 2023-12-06.
- ↑ Davey Alba (2023-05-01). "AI chatbots have been used to create dozens of news content farms". The Japan Times (kwa Kiingereza). Iliwekwa mnamo 2023-12-06.
- ↑ Could chatbots help devise the next pandemic virus? [1]