Nenda kwa yaliyomo

Mfumo Mkubwa wa Lugha

Kutoka Wikipedia, kamusi elezo huru
Mtandao mpana wa neva bandia

Mfumo Mkubwa wa Lugha au Mfano Mkubwa wa Lugha (kifupi: MML kutoka kwenye Kiingereza Large Language Model au LLM kwa ufupi) ni programu ya akili bandia yenye uwezo wa kuelewa na kuunda lugha kwa ajili ya matumizi mbalimbali.[1] Mifumo hiyo inapata uwezo huo kwa kutumia data nyingi mno za lugha husika kujifunza maana ya maneno na mahusiano yaliyopo baina ya maneno. Hujifunza pia kutofautisha maneno kulingana na muktadha wa mazungumzo na hutumia rasilimali kubwa za hesabu wakati wa mafunzo na operesheni zao.

Mifano hiyo ni mitandao ya neva za bandia (haswa Transfoma) na hupata mafunzo kwa kujifunza zenyewe au kwa kusimamiwa. Mifumo hiyo inajiongoza, hufanya kazi kwa kuchukua neno au sentensi (mwongozo) kisha kwa kurudiarudia zinatabiri neno au sentensi ambayo mara nyingi hufuatia mbele ya mwongozo.

Mifumo mikubwa ya lugha inayojulikana ni pamoja na GPT ya OpenAI (kama GPT-3.5 na GPT-4, inayotumika katika ChatGPT), PaLM ya Google (inayotumika katika Bard), na LLaMa ya Meta, pamoja na BLOOM, Ernie 3.0 Titan, na Claude 2 ya Anthropic.

Utendaji Kazi

[hariri | hariri chanzo]

Utendaji kazi wa mifumo mikubwa ya lugha kama ilivyo kwasasa ni fumbo [2][3] na bado haijafahamika kivipi inaweza kufanya kazi zinazohusisha lugha. Kimsingi, MMLs ni kama programu tata ya kukamilisha maneno, kwa kuipa maandishi ya awali (Mf: Haba na haba) MMLs hutoa maandishi ambayo kitakwimu yana nafasi kubwa ya kufatia (Mf: Hujaza kibaba) kulingana na alama ilizojifunza kutoka kwenye data ilizotumia kujifundisha [4].

MMLs ina idadi kubwa ya vipimo, mfano GPT-3 ina vipimo bilioni 175 huku mifumo ya hivi karibuni kama GPT-4 ikikadiriwa kuwa na vipimo zaidi ya trilioni 1 [5]. Ni ukubwa wa namna hii unaofanya iwe ngumu sana kuelewa kiundani utendaji kazi wa MMLs. Kila kipimo ndani ya MML kina athari yake kwenye tabia na utendaji kazi wa MML nzima, hivyo tabia ya jumla ya MML haiwezi kuelezewa na kanuni zinazotambulika.[2]

Ugumu wa kung'amua utendaji kazi wa ndani wa MML huongezeka kadri idadi ya vipimo vyake inavyoongezeka. MML yenye vipimo angalau zaidi ya bilioni moja huanza kuonyesha "tabia zinazojitokeza" [6] - tabia zinazoonyeshwa na mfumo mzima kwa ujumla ambazo haziwezi kuonyeshwa na sehemu moja moja ya mfumo. Mfano wa tabia hizo ni kama akili ya kawaida, kutafsiri lugha na kuandika muhtasari wa kifungu cha habari. Ukubwa na utata wa MMLs inafanya iwe ngumu kuelewa utendaji kazi wake wa ndani hata kwa waundaji wake.

Vekta Maneno

[hariri | hariri chanzo]
Kielelezo cha vekta maneno kikionyesha jinsi gani maneno yanayohusiana yakiwa karibu kwenye nafasi

Kuelewa maana ya neno na mahusiano yake na maneno mengine, MML inawakilisha kila neno kama nukta kwenye nafasi ya kufikirika yenye vipimo vingi [7] huku maneno yenye maana sawa yakiwa karibu sana kwenye nafasi.

Kwa kuwakilisha maneno kama vekta, MML inaweza kujifunza vingi kuhusu sifa za maneno na mahusiano yake, mfano kujua kua Berlin kwa ujerumani ni sawa Paris kwa ufaransa au mwanaume kwa mwanamke ni sawa na mfalme kwa malkia [3]. Kwasababu lugha ya binadamu imejaa utata, MML inahitaji kuwa na maarifa ya kutosha kuhusu ulimwengu ili iweze kujua maana ya maneno kwa kuzingatia muktadha wa mazungumzo.

Wakati wa mafunzo, MML huonyeshwa idadi kubwa ya maandishi yaliyopo na kujifunza jinsi gani maneno huonekana kwenye maandishi ukilinganisha na maneno mengine. Kisha hutumia kile ilichojifunza kutabiri neno lenye uwezekano mkubwa wa kutokea mbele ya neno jingine na kila neno litakalofatia baada ya hapo. Hii haina tofauti na kile kinachofanywa na programu za kukamilisha maneno zinazotumika kwenye injini za utafutaji na simu janja [8].

Kazi kuu ya MML ni kukokotoa uwezekano wa neno kufatia mbele ya sentensi [9] , hii hufanywa kwa kuondoa neno la mwisho kwenye sentensi na kuifundisha MML kubashiri neno hilo. Kadri MML inavyopitia mifano mingi ndivyo inavyojifunza sheria za lugha, maana na mahusiano yaliyopo kati ya maneno, hapa mmoja anaweza sema kuwa MML inaunda uelewa wake wenyewe kuhusu lugha.

Mafunzo ya kujiimarisha kupitia maoni ya binadamu (MKKMB)

[hariri | hariri chanzo]

Ili mfumo mkubwa wa lugha uweze kuunda maandishi yanayovutia na yenye usahihi, watafiti na waundaji wa MMLs wanatumia mbinu ya kujifunza kwa mashine ya "mafunzo ya kujiimarisha kupitia maoni ya binadamu" [10]. Kupitia maoni ya binadamu, mfumo wa thawabu unaundwa wenye uwezo wa kutabiri maandishi gani yatapendwa na binadamu, kisha mfumo huu wa thawabu unatumika kuifundisha MML kuunda maandishi yanayopendwa na binadamu kwa kuipa thawabu pale inapopatia [11]

Ni mbinu hii inayowezesha MMLs kukataa maombi ya kuunda maandishi yoyote ya chuki, ubaguzi wa rangi, ubaguzi wa kijinsia, ya kingono na kadhalika. Moja kati ya mifumo mikubwa ya lugha iliyofanikiwa kwa kutumia MKKMB ni GPT-3.5 inayotumika kwenye roboti la mazungumzo la ChatGPT kutoka OpenAI.

Mwaka 2023, jarida la kisayansi la Nature Biomedical Engineering liliandika "Dunia bado haiamini kuwa mtandao rahisi ila mkubwa wa neva bandia unaweza kuunda mazungumzo yanayofaulu Mtihani wa Turing. Ni vigumu kwasasa kutofautisha kati ya maandishi yaliyoandikwa na binadamu na yale yaliyoandikwa na mtandao rahisi wa neva bandia. Kama tukirudi miaka michache tu iliyopita, idadi kubwa ya wataalamu wa kujifunza kwa mashine na wa lugha wasingeweza kuamini kuwa kompyuta ingeweza kuelewa lugha za binadamu" [12].

Tafiti kutoka Goldman Sachs zilionyesha kuwa ndani ya mwaka 2023 akili bandia zalishaji kadri zinavyozidi kutumika kwenye biashara na jamii kwa ujumla zinaweza ongeza pato la dunia kwa 7% (sawa na dola za kimarekani trilioni 7) na kuchochea tija kwa 15% ndani ya kipindi cha miaka 10 [13] [14].

Hata hivyo baadhi ya wadau wameonyesha wasiwasi wao juu ya uwezekano wa mifumo mikubwa ya lugha kutumika kama zana za kupotosha habari na matumizi mengine mabaya [15]. Kwa mfano, upatikanaji wa mifumo mikubwa ya lugha inapunguza kiwango cha ujuzi kinachohitajika kutekeleza ugaidi wa kibaiolojia, mtafiti wa usalama wa viumbe Kevin Esvelt alitoa pendekezo kuwa waundaji wa MMLs wasiweke maandishi au taarifa zinazohusiana na kutengeneza au kuboresha vimelea vya magonjwa [16]

Jina Tarehe ya toleo Msanidi Idadi ya vipimo Idadi ya maneno Gharama ya mafunzo (petaFLOP - siku) Leseni Maelezo
BERT Octoba 2018 Google Milioni 340 Maneno bilioni 3.3 9 Apache 2.0
XLNet Juni 2019 Google ~Milioni 340 Maneno bilioni 33 Mbadala wa BERT
GPT-2 Februari 2019 OpenAI Bilioni 1.5 Maneno bilioni 10 MIT MML kwa ajili ya matumizi ya jumla, umeundwa kwa kutumia usanifu wa Transfoma
GPT-3 Mei 2020 OpenAI Bilioni 175 Maneno bilioni 300 3640 Inamilikiwa Toleo lililoboreshwa la GPT-3 lililoitwa GPT-3.5 lilitolewa kwa umma kupitia kiolesura cha wavuti kiitwacho ChatGPT mnamo 2022
GPT-Neo Machi 2021 EleutherAI Bilioni 2.7 GiB 825 za maneno MIT Hii ni ya kwanza kati ya mfululizo wa mibadala ya bure ya GPT-3 iliyotolewa na EleutherAI. GPT-Neo ilifanya vyema zaidi ya GPT-3 ya ukubwa sawa kwenye baadhi ya vigezo, lakini iliachwa nyuma mno na GPT-3 kubwa zaidi yake.
GPT-J Juni 2021 EleutherAI Bilioni 6 GiB 825 za maneno 200 Apache 2.0 Mfumo wa lugha aina ya GPT-3
Megatron-Turing NLG Octa 2021 Microsoft na Nvidia Bilioni 530 Maneno bilioni 338.6
GPT-4 Machi 2023 OpenAI Haijulikani Haijulikani Haijulikani Inamilikiwa Inapatikana kwa watumiaji wa ChatGPT Plus na bidhaa nyingine za OpenAI
LLaMA (Large Language Model Meta AI) Februari 2023 Meta Platforms Bilioni 65 Trilioni 1.4 6300 Kwa ajili ya tafiti zisizo za kibiashara Watafiti kutoka chuo kikuu cha Stanford waliunda mfumo uliyoboreshwa kwa kutumia vipimo ya LLaMA walioupa jina la Alpaca
BLOOM Julai 2022 Kwa ushirikiano mkubwa ulioongozwa na Hugging Face Bilioni 175 Maneno bilioni 350 (TB 1.6) Responsible AI Kimsingi hii ni GPT-3, lakini imefundishwa lugha nyingi ikiwemo 30% ya kingereza bila kujumuisha lugha za programu.
PaLM (Pathways Language Model) Aprili 2022 Google Bilioni 540 Bilioni 768 29250 Inamilikiwa Hapa lengo ni kufikia kiwango cha mwisho cha ukubwa wa MML
Minerva Juni 2022 Google Bilioni 540 Maneno / ishara bilioni 38.5 kutoka kwenye kurasa za tovuti kupata mahudhui ya hisabati zikiwemo karatasi zilizowasilishwa kwenye tovuti ya arXiv inamilikiwa MML iliyofundishwa kujibu maswali ya hisabati ya kisayansi hatua kwa hatua. Minerva imejengwa juu ya mfumo wa PaLM uliyoboreshwa kwa kutumia data za hisabati na sayansi.
LaMDA (Language Models for Dialog Applications) Januari 2022 Google Bilioni 137 Maneno trilioni 1.56 na ishara bilioni 168 4110 Inamilikiwa Maalumu kwa ajili ya mazungumzo
GPT-NeoX Februari 2022 EleutherAI Bilioni 20 GiB 825 740 Apache 2.0
Llama 2 Julai 2023 Meta Platforms Bilioni 70 Maneno / ishara trilioni 2 Leseni ya Llama 2 Mrithi wa LLaMA
Ernie 3.0 Titan Desemba 2021 Baidu Bilioni 260 TB 4 Inamilikiwa MML kutoka China. Ernie Bot ya Baidu inatumia mfumo huu
Claude Desemba 2021 Anthropic Bilioni 52 Maneno / ishara bilioni 400 beta Imeboreshwa kwa ajili ya mazungumzo
GLaM (Generalist Language Model) Desemba 2021 Google Trilioni 1.2 Maneno ./ ishara trilioni 1.6 5600 Inamilikiwa
Gopher Desemba 2021 Deepmind Bilioni 280 Maneno / ishara bilioni 300 5833 Inamilikiwa
YaLM 100B Juni 2022 Yandex Bilioni 100 TB 1.7 Apache 2.0 MML ya kingereza na kirusi iliyojengwa juu ya mfumo wa Megatron-LM
Galactica Novemba 2022 Meta Platforms Bilioni 120 Maneno / ishara bilioni 106 Haijulikani CC-BY-NC-4.0 Imefundishwa njia na taarifa za kisayansi
AlexaTM (Teacher Models) Novemba 2022 Amazon (kampuni) Bilioni 20 Trilioni 1.3 Inamilikiwa
Cerebras-GPT Machi 2023 Cerebras Bilioni 13 270 Apache 2.0
Falcon Machi 2023 Technology Innovation Institute Bilioni 40 Maneno / ishara trilioni kutoka kwenye tovuti 2800 Apache 2.0
BloombergGPT Machi 2023 Bloomberg L.P. Bilioni 50 Maneno / ishara 363 kutoka kwenye data za Bloomberg, jumlisha na maneno / ishara bilioni 345 kutoka kwenye vyanzo vingine. Inamilikiwa Hii ni MML iliyofundishwa kwa kutumia taarifa za kifedha, hivyo inafanya vizuri zaidi kuliko mifumo mingine yote kwenye kazi za kifedha na bila kuachwa nyuma kwenye vigezo vingine vinavyotumika kupima MML
PanGu-Σ Machi 2023 Huawei Trilioni 1.085 Maneno / ishara bilioni 329 Inamilikiwa
OpenAssistan Machi 2023 LAION Bilioni 17 Maneno / ishara trilioni 1.5 Apache 2.0
Falcon 180B Septemba 2023 Technology Innovation Institute Bilioni 180 Maneno / ishara trilioni 3.5 Falcon 180B TII license
Mistral 7B Septemba 2023 Mistral Bilioni 7.3 Haijulikani Apache 2.0
OpenHermes-7B Septemba 2023 Nous Research Bilioni 7 Haijulikani Haijulikani MIT
OpenHermes-15 Septemba 2023 Nous Research Bilioni 13 Haijulikani Haijulikani MIT
Grok-1 Novemba 2023 X.AI Haijulikani Haijulikani Haijulikani Inamilikiwa Inatumika kwenye roboti la mazungumzo la Grok. Grok-1 ina dirisha la muktadha lenye uwezo wa kupokea maneno 8,192. Grok-1 imeunganishwa na X (zamani Twitter)
Gemini Desemba 2023 Google Deepmind Haijulikani Haijulikani Haijulikani Inamilikiwa Huu ni mfumo wa taarifa nyingi uliogawanyika kwenye aina tatu, Gemini Utra, Gemini Pro na Gemini Nano. Unatumika kwenye roboti la mazungumzo la Bard
Phi-2 Desemba 2023 Microsoft Bilioni 2.7 Maneno trilioni 1.4 Haijulikani Inamilikiwa Mfumo uliofunzwa kwa kutumia vitabu vya kiada pekee

Masoma zaidi

[hariri | hariri chanzo]

MMLs za bure

  1. "Large language model", Wikipedia (kwa Kiingereza), 2023-12-01, iliwekwa mnamo 2023-12-02
  2. 2.0 2.1 "The Black Box Problem: Opaque Inner Workings of Large Language Models". Prompt Engineering (kwa Kiingereza). 2023-10-23. Iliwekwa mnamo 2023-12-04.
  3. 3.0 3.1 Timothy B. Lee. "Large language models, explained with a minimum of math and jargon". www.understandingai.org (kwa Kiingereza). Iliwekwa mnamo 2023-12-10.
  4. "LLM concepts guide". Google AI for Developers (kwa Kiingereza). Iliwekwa mnamo 2024-01-07.
  5. Matthias Bastian (2023-03-25). "GPT-4 has more than a trillion parameters - Report". THE DECODER (kwa American English). Iliwekwa mnamo 2023-12-04.
  6. Deepak Babu P. R (2023-06-05). "Emergent Abilities in LLM : Unpredictable Abilities in Large Language Models". Medium (kwa Kiingereza). Iliwekwa mnamo 2023-12-04.
  7. Dhruvil Karani (2020-09-02). "Introduction to Word Embedding and Word2Vec". Medium (kwa Kiingereza). Iliwekwa mnamo 2023-12-10.
  8. "How ChatGPT and Our Language Models Are Developed | OpenAI Help Center". help.openai.com (kwa Kiingereza). Iliwekwa mnamo 2023-12-04.
  9. "The Full Story of Large Language Models and RLHF". News, Tutorials, AI Research (kwa Kiingereza). 2023-05-03. Iliwekwa mnamo 2023-12-11.
  10. "What is reinforcement learning from human feedback (RLHF)?". WhatIs (kwa Kiingereza). Iliwekwa mnamo 2023-12-23.
  11. "Illustrating Reinforcement Learning from Human Feedback (RLHF)". huggingface.co. Iliwekwa mnamo 2023-12-23.
  12. "Prepare for truly useful large language models". Nature Biomedical Engineering (kwa Kiingereza). 7 (2): 85–86. 2023-02. doi:10.1038/s41551-023-01012-6. ISSN 2157-846X. {{cite journal}}: Check date values in: |date= (help)
  13. "Your job is (probably) safe from artificial intelligence", The Economist, ISSN 0013-0613, iliwekwa mnamo 2023-12-06
  14. "Generative AI Could Raise Global GDP by 7%". Goldman Sachs (kwa American English). Iliwekwa mnamo 2023-12-06.
  15. Davey Alba (2023-05-01). "AI chatbots have been used to create dozens of news content farms". The Japan Times (kwa Kiingereza). Iliwekwa mnamo 2023-12-06.
  16. Could chatbots help devise the next pandemic virus? [1]