布林肯警告以色列-哈马斯战争可能“转移”
13
2025-10-08
班加罗尔:今年的几个星期里,印度西南部卡纳塔克邦的村民用他们的母语卡纳达语在一个应用程序中读出了几十个句子,这是建立该国首个基于人工智能的结核病聊天机器人项目的一部分。
印度有超过4000万人以卡纳达语为母语,它是该国22种官方语言之一,也是世界上人口最多的国家中有超过1万人使用的121种语言之一。
但这些语言中很少有被自然语言处理(NLP)覆盖,NLP是人工智能的一个分支,它使计算机能够理解文本和口语。
因此,数亿印度人被排除在有用的信息和许多经济机会之外。
微软印度研究院首席研究员Kalika Bali表示:“为了让人工智能工具为所有人服务,它们还需要迎合不会说英语、法语或西班牙语的人。”
“但如果我们必须收集与GPT这样的大型语言模型一样多的印度语言数据,我们将再等10年。所以我们能做的就是在ChatGPT或Llama等生成式人工智能模型的基础上创建层次,”Bali告诉汤森路透基金会。
卡纳塔克邦的村民是为科技公司Karya生成语音数据的数千名不同印度语言使用者中的一员,该公司正在为微软和谷歌等公司建立数据集,用于教育、医疗保健和其他服务的人工智能模型。
印度政府的目标是提供更多的数字化服务,也正在通过以人工智能为主导的语言翻译系统Bhashini构建语言数据集,该系统正在创建用于创建人工智能工具的本地语言开源数据集。
该平台包括一个众包计划,让人们贡献各种语言的句子,验证他人转录的音频或文本,翻译文本和标记图像。
成千上万的印度人为巴希尼做出了贡献。
位于孟买的印度语言技术计算实验室负责人Pushpak Bhattacharyya说:“政府正在大力推动创建数据集,以训练印度语言的大型语言模型,这些数据集已经用于教育、旅游和法庭的翻译工具。”
“但有很多挑战:印度语言主要是口头传统,电子记录并不丰富,而且有很多代码混合。此外,用不太常用的语言收集数据也很困难,需要特别的努力。”
生态的经济价值
在世界上现存的7000多种语言中,只有不到100种被主要的nlp捕获,其中英语是最先进的。
去年推出的ChatGPT引发了人们对生成式人工智能的兴趣,它主要接受英语培训。谷歌的Bard仅限于英语,而亚马逊的Alexa可以响应的九种语言中,只有三种不是欧洲语言;阿拉伯语,印地语和日语。
政府和初创公司正试图弥合这一差距。
草根组织Masakhane旨在加强非洲语言的NLP研究,而在阿拉伯联合酋长国,一种名为Jais的新型大型语言模型可以为阿拉伯语的生成式人工智能应用提供动力。
巴厘表示,对于印度这样的国家来说,众包是收集语音和语言数据的有效方式。今年9月,巴厘被《时代》杂志评为人工智能领域最具影响力的100人之一。
“众包还有助于捕捉语言、文化和社会经济的细微差别,”Bali说。
她说:“但必须意识到性别、种族和社会经济偏见,必须从道德上做到这一点,对工人进行教育,支付工资,并特别努力收集较小的语言。”“否则它就无法扩展。”
Karya的联合创始人萨菲亚?侯赛因(Safiya Husain)表示,随着人工智能的快速发展,对“我们甚至没有听说过”的语言出现了需求,包括那些希望保存这些语言的学者。
Karya与非营利组织合作,找出生活在贫困线以下或年收入低于325美元的工人,并向他们支付大约每小时5美元的报酬,让他们生成数据——这远远高于印度的最低工资。
Husain说,工人拥有他们生成的部分数据,这样他们就可以获得版税,并且有可能利用这些数据为社区构建人工智能产品,例如医疗保健和农业等领域。
她说:“我们看到了利用语音数据增加经济价值的巨大潜力——一小时的奥迪亚语语音数据过去大约需要3到4美元,现在是40美元。”奥迪亚语是东部奥里萨邦的语言。
乡村之声
印度14亿人口中只有不到11%的人会说英语。很多人不习惯阅读和写作,所以一些人工智能模型专注于语音和语音识别。
谷歌资助的Vaani项目正在收集大约100万印度人的语音数据,并将其开源,用于自动语音识别和语音到语音翻译。
总部位于班加罗尔的EkStep基金会的人工智能翻译工具被印度和孟加拉国的最高法院使用,而政府支持的AI4Bharat中心推出了Jugalbandi,这是一款基于人工智能的聊天机器人,可以用几种印度语言回答有关福利计划的问题。
这个机器人的名字来源于一个二重唱,两名音乐家互相即兴演奏,它使用了来自AI4Bharat的语言模型和微软的推理模型,可以在WhatsApp上访问,印度约有5亿人使用WhatsApp。
与农民合作的社会企业Gram Vaani也使用基于人工智能的聊天机器人来回答有关福利的问题。
“自动语音识别技术有助于减轻语言障碍,并为基层提供服务,”Gram Vaani的产品主管舒布莫伊·库马尔·加格(Shubhmoy Kumar Garg)说。
“他们将帮助那些最需要他们的社区。”
对于奥里萨邦Raghurajpur地区的Swarnalata Nayak来说,她的家乡奥迪邦对语音数据的需求不断增长,也意味着她为Karya提供了急需的额外收入。
“我在晚上有空的时候工作。我可以通过打电话来养活我的家人。”-汤森路透基金会
发表评论
暂时没有评论,来抢沙发吧~