数据要素产业
新知:机器学习与互联网搜索
当你打开互联网搜索引擎,输入关键词寻找并得到想要的链接时,“机器学习”已经贯穿整个过程:搜索到的内容是机器根据无数人搜索关键词的统计结果,返回的最可能被需要的目标信息;而同时,你的这一次搜索行为也已经被机器记录,加入到它的庞大无比的数据库中,用来了解人的搜索习惯和需求。
随着计算机与网络的飞速发展,机器学习作用越来越大,正在改变着我们的生活和工作。互联网搜索、在线广告、机器翻译、手写识别、垃圾邮件过滤等等都是以机器学习为核心技术的。
微软亚洲研究院互联网搜索与挖掘组高级研究员李航博士介绍说,机器学习是关于计算机基于数据构建模型并运用模型来模拟人类智能活动的一门学科。机器学习实际上体现了计算机向智能化发展的必然趋势。现在当人们提到机器学习时,通常是指统计机器学习或统计学习。实践表明,统计机器学习是实现计算机智能化这一目标的最有效手段。
机器学习最大的优点是它具有泛化能力,也就是可以举一反三。无论是在什么样的图片中,甚至是在抽象画中,人们能够轻而易举地找出其中的人脸,这种能力就是泛化能力。
当然,统计学习的预测准确率不能保证100%。
李航说,机器学习是“乡下人”的办法。有个笑话。一个乡下人进城,到餐馆吃饭,不知如何在餐馆用餐,就模仿旁边的人。别人做什么,他也就学着做什么。邻桌的一位故意戏弄他,将桌上的蜡烛卷在饼里,趁乡下人不注意时把蜡烛扔到地上,然后咬了一口卷着的饼。乡下人也跟着学,大咬了一口自己的饼。机器学习只是根据观测,“模仿”人的智能行为,有时能够显得非常智能化。但如果观测不到关键的特征,它就会去“咬卷着蜡烛的饼”。
据调查,60%的互联网用户每天至少使用一次搜索引擎,90%的互联网用户每周至少使用一次搜索引擎。搜索引擎大大提高了人们工作、学习以及生活的质量。而互联网搜索的基本技术中,机器学习占据着重要的位置。