谷歌发力AI搜索,视觉检索+识别会成主流?AR眼镜也要东山再起?
知情郎·眼|
侃透天下专利事儿
今年的谷歌开发者大会(Google I/O 2022)上有什么新玩意、硬科技?
谷歌翻译、谷歌多重AI搜索、保护性计算、Android 13、谷歌硬件。
在2小时的主题演讲上,谷歌梳理了自己现有AI计算的进度,并演示了关键技术应用。并发布了谷歌手机,还提前曝光了谷歌AR眼镜!
有不少最新技术理念和硬核产品,科技圈媒体已经铺天盖地报道了。
01谷歌的逻辑
一家高科技公司总要有句通俗易懂的口号,方便和用户直接交流。
曲高和寡、孤芳自赏装深沉装睿智是行不通的。
谷歌CEO桑达尔·皮查伊(Sundar Pichai)很懂这思路,所以他的口号从来简明扼要。
这次他的口头禅是:“谷歌的目的,深化用户对信息的理解,让人们无论在哪都能获得知识。”
桑达尔·皮查伊印度平民家庭出身、买不起新书包的穷学生,一路爬到谷歌寡头公司的CEO,皮查伊的成功充满了励志色彩,激励着世界许多寒门子弟奋发前进。
Google搜索引擎、谷歌Chrome、Chrome OS、地图、Gmail、Android都是在他的带领下壮大的,人称劈柴哥!
谷歌的工程师文化在他手里被发扬到了极致,一个重要的行事规则是——杀鸡要用牛刀,集重兵狂投入优化产品功能性到极点。
Chrome浏览器就是这个逻辑的经典产品,核心功能细节比同行强的时候,用户蜂拥而至。
工程师文化,就是这点好,拼产品功效功能细节,没有花哨,比不过别人就是比不过别人,没有废话连篇的自我遮羞布。
市场用户最公平,不管竞争是否激烈,不管条件是否艰苦,不管舞台大小,不看你演戏演技演给谁看。
就看产品本身实用性说话。
不行,千万别浪费观众时间,大家都不傻,烦了,人家真会扔臭鸡蛋香蕉皮砸人的。
02谷歌翻译、谷歌地图
在翻译领域,谷歌已经要超神!
谷歌宣布,谷歌翻译增加了对24种新语言的支持,深度神经网络算法功不可没!
大概全世界所有主流语言都能支持翻译了。
在视频领域,YouTube视频已经支持了16种语言的实时翻译。YouTube去年已经可以自动生成章节分段。现在通过语音/视频脚本分析等,让这种分段更准确,数量也会达到8千万段。
在NLP(自然语言处理)领域,谷歌的AI技术可以对文字段落进行更好的理解、总结,并帮助用户快速找到重点信息。
谷歌地图(Google Maps),进一步完善了地图数据,谷歌的心气自然是让全世界都能用谷歌地图,所以这次人家表态,已经能让非洲等偏远地区使用了。
有一说一,谷歌地图的细节处理非常优秀。据官方说,已经开始大规模应用3D航拍、AI智能等技术,以此来确保导航、搜索等功能的准确性。
同时,3D绘图和机器学习等+航拍,让沉浸式实景地图更逼真完整。
会上,谷歌也公布了关于地图应用的最新数据:已在全球范围内绘制超16亿座建筑和6000万公里的道路。
03多重维度AI搜索
谷歌核心产品是搜索引擎。
2022这产品又添加了什么黑科技功能?
在之前,搜索是类似查询的方式,你输入文字,它给出一堆相应结果。
现在,用户的要求多了,也复杂了。
例如用户会上传一张图片、一段小视频,甚至一段鸟叫声,问图片里、视频里的是什么鸟类?
这种问题不再是文字,而是图片、视频影音、文字的多维度结合。
这就是最新的技术“图像检索+识别”,比传统文字检索识别更难更复杂。
这属于多重搜索,也是谷歌这些年发力的重点。
简单的说,“多重搜索”利用AI多模型理解,去理解人们的搜索意图,并用直观的方式体现。
一个实例来说,在巧克力店去寻找“不含坚果黑巧克力”,用户要做的是采用手机镜头去扫描货架,找到指定的产品。
镜头去识别物体-加入筛选条件-呈现出结果。
这是图像识别+筛选结果的过程,仍旧是一种搜索,但已经跟之前的搜索引擎体验完全不同。
整个视频检索体验与以往理解传统文字框搜索很不一样。
知情郎对这搜索应用技术叹为观止。
在德高行全球专利数据库中,以图像检索+识别为关键词,在谷歌全球专利里检索了相关专利,以数量看,中国专利60件,包括发明公开32件、发明授权28件;美国专利205件,包括发明公开83件、发明授权122件
下表为9件为谷歌近期公开图像检索+识别领域的专利。
这些专利含金量都非常大,谷歌的目标是“用任何方式在任何地方进行搜索”,所以研究多维搜索,尤其是通过手机自带的摄像头视频拍摄识别这种模式,大概率会成为主流搜索应用之一。
1 2 下一页>