技术地谈Google Lens

编程入门 行业动态 更新时间:2024-10-10 12:26:29

<a href=https://www.elefans.com/category/jswz/34/1770192.html style=技术地谈Google Lens"/>

技术地谈Google Lens

    闲话免谈,直奔主题。


    拍花,恩达教授说,这是度秘几年前玩剩下的——确实如此,这个技术最成熟。

    技术上,先祭出深度学习分类模型,缩小种类范围,再用传统特征搜索。卷积神经做图像分类,这是当前深度学习的成熟果实。传统特征,用颜色、梯度、纹理、角点,有SIFT、SURF、HOG、LBP等等,有几十年研究历史了。一众产品都用这个套路,比如我大阿里的拍立淘、百度搜图、腾讯街景,还有无数人工智能创业公司,都挤在这条路上。

    在数据中心,需要海量的模型、特征数据,做通用搜索很难又全又精准,所以做产品会有侧重,有的看花,有的看树,有的看布,也有的专门看huang片。为了省流量,也为了给服务器减压,摄像头取帧频率要限制,几秒自动搜一帧,甚至只能手动拍一次照才搜一次。

    可能精确的返回一个结果,也可能返回多个参考结果,因为分类可能错,特征匹配也可能错。当然了,要想做得更惊艳,还要考虑算法怎样区分前景背景,怎样找出焦点物品,这样搜起来才更准。 


    扫商店门脸,最有商业价值,因为收银台里有——钱——啊。

    技术上,就是在地理位置范围——比如说1万家门店内,搜索这是哪家店的门脸。既然最有商业价值,就要看实际体验是否能打动人,不能让用户骂街。

    精确地告诉用户这是哪一家店。不能说:“哥们,这可能是麦当劳,也可能是必胜客,你要汉堡还是披萨,自己选。”

    1秒内识别,同时叠加上AR,想想蛮棒的。不能拼命转菊花,就是不出结果,所以如果再用几秒搜一帧、拍照搜一次的办法就不行了。

    省流量,最好不花流量——比如只下载一次,做离线搜索。不能疯狂联网,让运营商开心,让用户伤心。

    因为还没看到Google实际落地的产品,我们比照同类产品来看,望鼎台16年推出的Xshop.site招牌识别,99.9%识别准确率,1秒内识别率98%,每个门脸特征模型0.2K字节。标杆立这儿,如果Google不达标,也会被骂街。


    扫码联网,技术最简单。

    扫条码,自动连WIFI,好方便哦,用户很高兴。

    技术上,很古老了,这——甚至不能归入AI。蓝翔的计算机老师,这个可以作您学生的作业题目。


    再展开说说Google Translate实景翻译,最有技术挑战,估计也并入Google Lens。

    技术上,先从实景中找出文字区域,再识别和翻译,最后附着回实景中。Google几年前收购了Quest Visual的Word Lens,就是做的这个。

    先说翻译,这是深度学习最近两年的前沿之一,无论Google的循环神经,还是FB的卷积神经,翻译准确率都在飙高,机器翻译有望几年内超过人类,但是同声传译还有挑战。

    再说更难的实景文字区域检测,学术上有各种salient object detection,有的用深度学习整行文字特征,腾讯用过简单的MSER最大稳定极值区域,度秘干脆直接让用户涂抹文字区域......为什么这么多方案,因为不成熟,因为难啊。


网上不少探讨大势的人,抱怨Google I/O这届AI眼界不够高大上。但从技术角度看,强人工智能仍很遥远,规划极不确定的长远未来,只会假大空,或者无谓的杞人忧天。AI技术研究,九层之台,起于垒土;AI产品应用,更应这样随风潜入夜,润物无声。

更多推荐

技术地谈Google Lens

本文发布于:2024-02-26 23:24:36,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1704367.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:技术   Google   Lens

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!