Select Language

AI社区

数据要素产业

百度机器学习与数据挖掘兴趣小组正式成立

互联网的飞速发展使其成为全球信息传播和共享的重要资源,互联网上的数据也呈几何级数增长,然而要从互联网上获取有用的知识却变得非常困难,“数据爆炸,知识贫乏”已成为当下迫切需要解决的问题。而机器学习将会是解决这些问题的技术利器,它对海量的数据挖掘可以说是意义非凡。中国百分之九十五的网民都是百度的用户,数亿网民每天的搜索数据形成了庞大数据库,这正是机器学习和数据训练的重要基石。

百度作为全球最大的中文搜索引擎在逐步的数据积累中也愈来愈发现机器学习的重要性,近些年来百度吸纳了不少机器学习领域的专家学者参与百度的技术开发。例如,百度开发的识图功能,就运用到了机器学习的相关技术,用户只要将想要检索的图片上传到搜索引擎中,便可以看到非常精确的搜索结果,包括给出了与该图片相似的各种脸部特写图片以及完整图,虽然不是完全正确但也是相当了不起了。

其实,计算机看到的图片不仅仅是成百上千的像素,其需要从中分析颜色,亮度,从而进行图片的特征提取,对来自互联网的几百亿张图片进行实时的图像特征匹配,从而更加快速的反馈用户相关的搜索结果,这些都需要大数据背景下机器学习等技术作为坚实的后盾。而数据挖掘技术又是大数据背景下机器学习应用的另一个重要领域。

虽然,近些年很多专家学者正在积极的进行着机器学习和数据挖掘领域的研究,但是由于缺乏海量的数据资源做支撑以及更多的计算资源去支撑这些海量数据的运算,加之沟通范围的限制和对某些专业的领域了解的有限,导致很多研究无法深入的进行下去,百度校园为了解决这个问题,正式成立了“机器学习与数据挖掘兴趣小组”,欢迎相关领域的专家学者以及对此类技术有浓厚兴趣的人士登陆http://openresearch.baidu.com/topic/36.jspx加入到我们的兴趣小组中来,这里将会是一个头脑风暴和资源共享的集结地。

百度校园在活动网站专门设置了“资料共享”栏目,提供相关的学术文章下载,为了拓宽学生的学习和研究视野,百度校园还在近期公布了“中国云”程序互联网大赛一等奖源代码,让更多有此方面需要的同学们可以共享获奖者的智力成果,以期对同学们的学习研究有一定的指导和参考作用。当然大家也可以将自己的数据挖掘算法移植到这里,让更多人来共享你的算法成果。除了共享资源大家还可以就推荐算法、聚类算法、分类算法等相关的专业技术进行学术探讨,你也可以将遇到的问题发布出来,让大家群策群力帮你一起解决。

除此之外,百度在还提供了云计算平台,300多台服务器的计算平台可以帮大家解决之前未能触及的计算资源;在这里,拥有海量真实的大数据,你不会再遭遇因为缺乏数据资源而无法开展研究的尴尬境地。今后,百度校园还会针对“推荐算法”和“图像处理”等方向陆续在平台上发布一些竞赛活动,届时欢迎感兴趣的同学踊跃的参与进来!