技术分享:
阿里云搜索推荐产品:
- 开放搜索(OpenSearch):https://www.aliyun.com/product/opensearch
- 智能推荐(AIRec):https://www.aliyun.com/product/bigdata/airec
1.1 语音/图像/视频检索
1.2 文本检索
1.3 搜索/推荐/广告
1.4 几乎覆盖了所有的 AI 场景
2.1 繁多的检索算法
2.2 面临的技术挑战
2.2.1 超大规模索引的精度和性能
2.2.2 分布式构建和检索
2.2.3 流式索引的在线更新
2.2.4 标签+向量的联合检索
2.2.5 复杂的多场景适配
3.1 核心能力
3.2 业内对比
3.2.1 检索对比
3.2.2 构建对比
3.2.3 异构计算
3.2.4 十亿规模
4.1阿里云智能搜索开发平台-开放搜索(OpenSearch)
4.2行业搜索应用
各个行业的搜索业务具有不同的行业特性和业务需求,开放搜索
4.2.1电商行业应用
开放搜索电商行业模板将行业搜索产品化落地,用户无需各方向技术探索,只需按模板接入即可拥有更优搜索服务,免去了大量的数据标注与模型训练工作,直接内置淘系搜索算法能力。支持个性化搜索与服务能力,通过引擎侧的多路召回能力,实现搜索结果、下拉提示、底纹词等重要服务,并根据电商行业变化,不断迭代更新原有能力,提供更高时效性的服务保障;
了解更多:https://www.aliyun.com/page-source//data-intelligence/activity/opensearch
4.2.2在线教育拍照搜题应用
开放搜索拍照搜题解决方案:
为什么搜题要做多路召回?
教育拍照搜题场景相比网页/电商的文本搜索有显著差异:
- 搜索query特别长:常规检索term数上限30,搜题需要放到100;
- 搜索query是由拍照OCR识别之后得到的文本,关键term的识别错误会严重影响召回排序;
纯文本查询方案
1. OR逻辑查询
- 为了降低无结果率,搜题客户常见的系统是基于ES默认的OR逻辑,latency高,计算消耗大;
- OpenSearch也支持OR逻辑,针对latency高可以通过并行seek的方式优化,但整体计算消耗仍然高;
2. AND逻辑查询
- 采用通用的query分析模块,无结果率高,整体准确性不如OR逻辑;
- 针对教育领域优化定制的query分析模块,大幅提高效果,准确性接近OR逻辑;
如何去兼顾计算消耗和搜索准确性那?我们在此引入了文本向量检索
文本向量检索
目标:通过文本向量检索扩召回,结合AND逻辑查询,做到latency和计算消耗低于OR逻辑的情况下准确性更高;
向量召回采用目前最先进的BERT模型,其中针对教育搜题做的特别优化有:
- BERT模型采用达摩院自研的StructBERT,并针对教育行业定制模型;
- 向量检索引擎采用达摩院自研的proxima引擎,准确性和运行速度远超开源系统;
- 训练数据可以基于客户的搜索日志不断积累,效果持续提升;
这个图我们可以看到有一项召回,在召回率上已经达到凹逻辑。同时在准确性上现在超出2逻辑3到5个点,整体的召回到数减少40倍的情况下,latency 可以降低10倍以上。
效果:
- 召回率达到OR逻辑
- 准确性超出OR逻辑3%-5%
- 整体召回doc数量减少40倍,latency降低10倍以上
文本召回和语义向量召回的结合在搜题场景已经验证有效,开放搜索的多路召回架构还将有更多的使用空间:图片向量召回、公式召回、个性化召回。
除了开放搜索内置的向量模型,我们也将支持客户自己的向量索引,欢迎客户和我们一起深耕搜题算法优化。
了解更多:https://www.aliyun.com/page-source/data-intelligence/activity/edusearch
以上就是本篇文章【达摩院自研向量检索引擎Proxima在行业搜索中的应用】的全部内容了,欢迎阅览 ! 文章地址:http://www.tpjde.com/news/97.html 资讯 企业新闻 行情 企业黄页 同类资讯 首页 网站地图 返回首页 推平第移动站 http://mip.tpjde.com/ , 查看更多