数据要素产业
全球每年消失24种语言,AI已成为濒危语言新的救星
去年,联合国曾宣布将2019年为“国际本土语言年”,现在离这个节日已经越来越近。实际上,这一举措旨在提高人们对濒危语言的认识,因为这些语言正面临灭绝的危险。“通过语言,人们保留了他们的社区的历史、习俗和传统、记忆、独特的思维方式、意义和表达方式。他们也用语言来构建自己的未来。在人权保护、良好治理、和平建设、和谐和可持续发展等领域,语言是关键所在”:这些也是联合国可持续发展目标(SDGs)的核心。
据联合国统计,世界上有7000多种语言,但消亡的速度却非常快,平均每个月都有2种语言消失。由于人工智能在语言存档和学习方面具有优势,人工智能在拯救濒危语言的斗争中变得比以往任何时候都更加重要。
Jason Lovell正在学习新西兰的土著语言“毛利语”,但缺少帮助他练习的对象,因此他与IBM的“沃森人工智能”合作,创立了一个Facebook messenger聊天机器人,该聊天机器人能够理解并回复用户的信息,包括毛利语和英语。即使用户犯了拼写错误,比如“Reobot”,对Lovell的聊天机器人来说,也不会造成理解障碍。Lovell希望在不久的将来引入发音帮助。通过提供毛利语交流机会,Reobot可以帮助学习者更快地培养自信和技能。
为了向居住在偏远社区的儿童教授澳大利亚土著语言,一组来自ARC语言动力学卓越中心(CoEDL)的研究人员开发了Opie,这是一种低成本、易于运输的机器人。在学习故事、游戏和课程时,Opie的眼睛能够和孩子们互动,此外,机器人能够记录孩子们的语言技能,协助老师追踪他们的学习进度。CoEDL已经与谷歌展开合作,为土著语言转录和构建人工智能模型,这要归功于谷歌的开源人工智能平台TensorFlow。这台机器学习技术为语言学家省去了数百万小时的时间,在CoEDL的存储库中记录了超过4万小时的录音。
对许多组织来说,维护语言数据数据并将其引入土著社区是一项挑战。第一人民文化委员会(FPCC)的使命是支持不列颠哥伦比亚省的土著语言、艺术、文化和遗产的复兴,与当地社区合作,将语言数据存档,并通过其First Voices平台进行教学。First Voices的最新创新是一款键盘应用,用户可以在移动设备上的任何应用上输入超过100种本地语言,包括社交媒体、电子邮件和文字处理。
First Voices存储的数据是一个开源的云原生内容服务引擎,其将人工智能和机器学习整合在内。
未来学家托马斯·弗雷(Thomas Frey)设想出一种全球语言档案馆,作为一个活生生的博物馆,一座“语言的卢浮宫”,在那里,已经灭绝的语言甚至都可以被学习:“将收集到的足够多的视频、音频和书面文件输入到人工智能语言重建引擎(AI Language Recreation Engine),其能够生成一个功能性的三维立体化身,将语言传授给想要学习它的人。”人工智能引擎将更进一步,填补任何语言空白,在需要时创建一种语言的书面形式,并提供语言之间的翻译。
弗雷将濒危语言项目(Endangered Languages Project)作为创建全球语言档案的第一步,该项目由第一人民文化委员会在夏威夷大学夏威夷分校的濒危语言目录/濒危语言项目(ELCat/ELP)管理。濒危语言项目汇集了濒危语言的资源和信息,这要归功于全世界的合作者,到目前为止,该项目已拥有3418种语言的数据,其中许多语言都位列濒危语种中。