数据要素产业
AI的未来:难道要牺牲隐私,塑造另一个“我”?
最近有一部叫做“爱死机”的剧火了。该剧全名叫做《爱,死亡和机器人》(Love,Death & Robots),每一集都是独立的动画短片,平均时长只有15分钟,我特别喜欢其中几集关于机器人的科幻短片。
套用这部剧的名称,让我们来聊一个现实话题:AI、隐私和机器人。
AI的燃料
AI技术与隐私保护是近年来越来越倍受关注的话题。从来没有哪个时代像当今一样到处充满了对个人隐私的侵犯,也没有哪个时代像当今这样对隐私看得如此之重。事实上,你的隐私将无处可藏。
数据对于AI来说,就像煤炭之于蒸汽机,电能之于灯泡,汽油之于汽车。近年来,AI这台发动机已经再次发动,只有源源不断地喂给它更多的燃料,才能朝着远方前进。这台发动机的能耗很高,燃烧效率有时却不高,因此必须要有足够多的燃料。
汽车发动机必须在动力与节能之间寻找更高的平衡点,AI也必须在应用潜能和隐私数据保护(涉及数据的利用效率)之间寻找更适合的平衡点。
隐私的隐喻
关于隐私保护也在与时俱进,以前关注的个人隐私更多的是自身的私密性。明星在这个问题上是深受困扰的人群,整天被狗仔队跟踪,生怕被偷拍了不雅照片。吊诡的是,其实明星有时候更怕没有狗仔队跟踪。隐私与自身利益之间永远都存在着一个权衡。
随着时代的发展和进步,特别是人工智能技术的迭代演进,隐私的关注点也变得更为复杂。AI的发展需要更多数据,每个应用APP在你第一次打开时,会给你一个巨长无比的所谓隐私保护协议,然后你看也不看就点了“接受”,当然其实看了也没用,只是告诉你他们是匿名获取你的隐私数据,并且你的隐私数据不会被利用。其实,这种隐私协议的潜台词无非就是,要么用我们的服务、默许我们收集数据,要么就不要用。
天天被电话骚扰的你,有时候也许不介意多接一个骚扰电话。每逢佳节,商场超市促销时,经常有信用卡推销或者房产中介等促销员给你一个小礼物让你“登记”一下个人信息,填个申请表,以得到后续他们“更优质的服务”或者得到“VIP身份”。
这里其实更吊诡,明明是为了想要收集我们的信息,却让我们填“申请表”。你想了一下,反正现在每个人的信息都被大量的泄露了,也不差这点吧,反正他们都知道,无所谓,填吧,至少还能得到一个不错的小礼物。实际上,你将“得到”更多。
这些商家线下获客,有了联系方式,后面就可以推送给你优惠券、促销券、代金券,发放更多小礼品,后面竟然连你什么时候需要买房、买车、买奶粉都知道了,还无微不至提供各种服务,有没有很意外,有没有很惊喜?
也许你会问:我的隐私数据是怎么被偷走的?其实,不是被偷走的。只要你出门,就在泄露你的隐私。你的脸,你的声音,你的背包颜色......都是暴露在空气中的隐私数据。在AI算法的眼里,你就是一个行走的数据流。
你以为不出门就不会泄露数据了?随着智能手机、智能家居、智能手环、智能音响、智能扫地机器人等这些高科技产品横空出世,成为大众娱乐的新热点,AI应用场景数不胜数。你又会说:“哈哈,真扯!我觉得你说的这些信息还好,我身边的人都能看到啊,没你说的那么隐私吧?”
其实在AI时代,关于人的一切数据都是隐私。你让身边人知道的信息不一定愿意让更多人知道,否则你在网上的网名怎么不用真名呢?天天带着一张身份认证和支付用的脸出门不觉得不安全吗?隐私数据关乎的是你的个体信息,因为你是独一无二的。
那么,具体有哪些隐私数据呢?
基于你的个人身份数据,比如身份证号、手机号、家庭住址、工作地点等,AI算法在各个社交平台上挖掘关联关系,建立图谱信息,可以掌握你的社交层面的信息,如朋友圈、亲人圈、同事圈的关系强弱等各种社会属性信息,构成一个完整的个人信息画像,这便确定了你这个独一无二的“社会”人。
基于你的生物特征数据,各种应用APP收集的面部特征、声音特征,智能手环收集到的心率血压特征、作息习惯、睡眠数据,健身应用中的体重身高、身体柔韧性、体脂含量等等,可以轻松被挖掘、被建模,这便构成了“人”这个实体存在的多维空间信息。
上述两类可获得的数据只要足够多,再加上你的各种行为数据,AI算法甚至可以推断出你的人格数据(或者叫心智数据)——你的思维方式,你在想什么,你的喜好,你的性格,形成描述人精神层面的内在模型。举个例子,一个很著名的关于人格与人性的模型叫做“大五类人格特征模型”,一般称为OCEAN,这个模型包含了五类因素:开放性(Openness)、严谨性(Conscientiousness)、外向性(Extraversion)、宜人性(Agreeableness)、神经质(Neuroticism)。
机器人,另一个我
开头说到AI、隐私和机器人科幻之间可能存在某种关联。这种关联源自技术的不断发展,科幻为技术的未来提供了某种可能性的遐想。
AI的发展需要很多数据来满足场景建模的需要,AI算法可以通过分析每个人的各种行为数据推导出这个人的人格特征。算法通过个人在社交网站中的点赞数据即可分析出这个人的喜好特征,通过协同过滤算法就可以对个人进行精准广告推送,比如给外向的人推送的广告场景相对活跃和充满激情,给内向的人推送的则是相对安静和私密的场景。
同样的分析手段甚至被用在选举宣传的过程中,能起到影响选民决策判断的作用。通过给不同性格或者意向动摇的选民推送不同版本的选举广告,或者推送对手的负面新闻,左右目标群体的决策,来达到“心理操纵”的目的。
而不断进化的人脸识别技术可以仅通过面部特征的识别就能判断出一个人的性取向这么私密的信息,准备率能达到80%以上,而我们人类本身很难只通过一张脸就能判断出一个人的性取向。以色列的一家公司Faception声称,可以直接通过面部特征来识别恐怖分子、高智商的人群,分分钟看透你的内心。
AI可以不断地从人类的隐私数据中攫取价值,甚至能够再现人的心智模型。有没有想过,有一天,一旦AI掌握了人的足够多的关键数据,建立更加完备的模型,不仅能做到“心理操纵”,甚至可以做到“心灵控制”。
人类的实体存在和精神存在被抽象为一个个复杂的画像模型,或者“心灵镜像”,这些模型和镜像包含了我们的所有特征,包括身份、性格、思维等等。只要将数据拷贝到一个机器人中,就可以生成另一个“我”,甚至另一批“我”。
这里的机器人可以理解为以机器为载体的AI算法和存储机制,加上更为先进的能源和机器进化机制,托管人类只是理所当然的事情,人类的心灵镜像只是被更为高阶的AI算法利用。会发生什么,我现在还不敢往下去想。
这或许让你想起了《黑客帝国》、《异次元骇客》这样的科幻电影。AI通过不断的迭代和进化,直至让机器人达到与人的心灵模型近乎一致,这是科学家们一直在追求的梦想,也是可怕的未知的未来。
已知的未来
AI应用的边界、隐私数据保护的度在哪里,现在还是未知。社交活动数据、零售数据、金融行为数据、医疗健康数据等被广泛用于AI各种应用场景,的确也朝着为人类带来更多服务的方向发展,但是对于这样的涉及隐私数据利用的监管仍处于探索阶段。
任何企业应用与隐私之间需要一个权衡。欧盟去年5月出台的一般数据保护条例(GDPR)中有几条关于隐私数据的保护原则,其中不仅包括隐私数据的处理过程需公正透明,使用场景和保留期限需明确限定,数据需保证完整、准确和保密等要求;而且还要求对隐私数据的获取要满足最小化原则,也即只获取必要的、相关的、限定的隐私数据。
GDPR的推出在全球关乎隐私数据的保护方面具有非常强的引领作用。在各种AI算法和模型得到越来越广泛应用的今天,针对上述隐私数据的保护原则,尤其是最小化原则、保密性原则、透明性原则,AI公司或者与AI产品相关的公司必须考虑AI算法的发展方向。可以预见,未来满足下面条件的算法将是主要方向:
(1)需要更少隐私数据的AI算法。这样的算法要么可以自己生成观测数据,如生成式对抗网络(GAN);要么通过分布式解决中心化训练对数据量的要求,如分布式机器学习(Federatedlearning)可以实现在边缘设备端进行模型的再训练。
(2)基于加密数据的训练算法。将原始隐私数据加密,并且还能通过加密后的数据进行训练,这样不需要减少对隐私数据的获取,也能保证数据的保密性。这样的算法包括差分隐私技术、同态加密以及迁移学习等方法。
(3)可解释的AI(Explainable AI,简称XAI)。很多AI算法的黑箱性质让人类担忧。XAI致力于提高算法应用的透明度,构建“玻璃箱”模型,使人类能够轻松理解AI算法,提高AI认知智能在人类活动中的可信度。这将是未来趋势。