技术地谈Google Lens

编程入门行业动态更新时间:2024-10-10 12:26:29

技术地谈Google Lens

闲话免谈，直奔主题。

拍花，恩达教授说，这是度秘几年前玩剩下的——确实如此，这个技术最成熟。

技术上，先祭出深度学习分类模型，缩小种类范围，再用传统特征搜索。卷积神经做图像分类，这是当前深度学习的成熟果实。传统特征，用颜色、梯度、纹理、角点，有SIFT、SURF、HOG、LBP等等，有几十年研究历史了。一众产品都用这个套路，比如我大阿里的拍立淘、百度搜图、腾讯街景，还有无数人工智能创业公司，都挤在这条路上。

在数据中心，需要海量的模型、特征数据，做通用搜索很难又全又精准，所以做产品会有侧重，有的看花，有的看树，有的看布，也有的专门看huang片。为了省流量，也为了给服务器减压，摄像头取帧频率要限制，几秒自动搜一帧，甚至只能手动拍一次照才搜一次。

可能精确的返回一个结果，也可能返回多个参考结果，因为分类可能错，特征匹配也可能错。当然了，要想做得更惊艳，还要考虑算法怎样区分前景背景，怎样找出焦点物品，这样搜起来才更准。

扫商店门脸，最有商业价值，因为收银台里有——钱——啊。

技术上，就是在地理位置范围——比如说1万家门店内，搜索这是哪家店的门脸。既然最有商业价值，就要看实际体验是否能打动人，不能让用户骂街。

精确地告诉用户这是哪一家店。不能说：“哥们，这可能是麦当劳，也可能是必胜客，你要汉堡还是披萨，自己选。”

1秒内识别，同时叠加上AR，想想蛮棒的。不能拼命转菊花，就是不出结果，所以如果再用几秒搜一帧、拍照搜一次的办法就不行了。

省流量，最好不花流量——比如只下载一次，做离线搜索。不能疯狂联网，让运营商开心，让用户伤心。

因为还没看到Google实际落地的产品，我们比照同类产品来看，望鼎台16年推出的Xshop.site招牌识别，99.9%识别准确率，1秒内识别率98%，每个门脸特征模型0.2K字节。标杆立这儿，如果Google不达标，也会被骂街。

扫码联网，技术最简单。

扫条码，自动连WIFI，好方便哦，用户很高兴。

技术上，很古老了，这——甚至不能归入AI。蓝翔的计算机老师，这个可以作您学生的作业题目。

再展开说说Google Translate实景翻译，最有技术挑战，估计也并入Google Lens。