導(dǎo)航菜單

TechMahindra推出面向印度語言的開源語言模型“ProjectIndus”

導(dǎo)讀 印度IT公司TechMahindra宣布推出了一個面向印度語言的開源基礎(chǔ)語言模型“ProjectIndus”。該項目可能會成為該公司迄今為止最重要的項目。他們已開設(shè)了一個門戶網(wǎng)站

文章摘要:

1. Tech Mahindra 推出 Project Indus,這是印度語言開源語言模型。 這可能是該公司迄今為止最重要的項目。

2.模型初期將支持40種印地語方言,參數(shù)規(guī)模預(yù)計將達到70億。 該模式預(yù)計將為25%的印度人口提供服務(wù)。

3.收集不同語言和方言的數(shù)據(jù)仍然是最大的挑戰(zhàn)。 Tech Mahindra 正在通過語言捐贈渠道收集數(shù)據(jù)集,并與各個利益相關(guān)者合作。

中新網(wǎng)9月5日消息:近日,印度IT公司Tech Mahindra宣布推出印度語言開源基礎(chǔ)語言模型“Project Indus”。 該項目可能成為該公司迄今為止最重要的項目。 目前,像 OpenAI 的 GPT 模型這樣的大型語言模型,盡管具有多語言功能,但在理解和生成印度語言內(nèi)容方面受到英語數(shù)據(jù)集的限制。

圖片來源注:圖片由AI生成,圖片由服務(wù)商Midjourney授權(quán)

Tech Mahindra 首席執(zhí)行官古爾納尼 (Gurnani) 表示,該模型將是印度語言中最大的模型,可能為全球 25% 的人口提供服務(wù)。 Tech Mahindra 尚未透露該項目的成本或預(yù)計發(fā)布日期,但目標是首先構(gòu)建一個 70 億參數(shù)的語言模型。

該模型最初將支持 40 種不同的印地語方言,并將逐步添加更多語言和方言。 他們表示,雖然 Bhashini 和 AI4Bharat 等一些印度語言模型已經(jīng)存在,但仍需要開發(fā)一個基本模型。 他們的界面可能具有語音和短信功能,但尚未考慮類似 ChatGPT 的聊天界面。

Tech Mahindra 的總體目標是首先創(chuàng)建用于文本延續(xù)的語言模型,然后提供對話功能。 一旦模型的性能和方言生成效果已知,它們將以開源方式發(fā)布。

印地語語言模型可以優(yōu)先考慮文化敏感性,確保生成的內(nèi)容尊重當?shù)亓曀缀鸵?guī)范。 它還可以使人工智能民主化,為該國更廣泛的非英語國家提供服務(wù)。

然而,捕獲不同語言和方言的數(shù)據(jù)仍然是 Tech Mahindra 面臨的最大挑戰(zhàn)。 為此,該公司正在尋求不同方言使用者的貢獻,以幫助構(gòu)建數(shù)據(jù)集。 他們開設(shè)了一個門戶網(wǎng)站,供印度人捐贈語言。

免責聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!

猜你喜歡:

最新文章: