Perplexity.ai为大型语言模型(LLM)时代重新设计谷歌搜索引擎优化(SEO)模型

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

ChatGPT自2022年11月30日发布以来,既受到了热烈的欢迎,也遭遇了不少反对声音。很快就明显地发现,人们想要向AI提出他们通常会问Google的那些问题——而ChatGPT往往无法给出答案。

问题层出不穷。ChatGPT的回答过时了,不引用来源,而且经常凭空想象出新的不准确的细节。华盛顿大学计算语言学实验室的主任Emily Bender当时被引用说,AI搜索是“星际迷航幻想,你有一个无所不知的电脑,你可以问问题。”Perplexity最初希望构建一个由AI驱动的Text-to-SQL工具。但在公司的Slack频道中,开始酝酿着一些不同的东西。

Perplexity这个创业公司成立于2022年8月,意外地进入了一个赛道——然后迅速向构建一个每日更新并通过引用多个来源来响应查询的AI驱动搜索引擎冲刺。它现在每月有超过1000万用户,并且最近获得了Jeff Bezos的投资。

“我认为Google是人类迄今为止构建的最复杂的系统之一。就复杂性而言,它甚至可能超越了登月,”Perplexity.ai的联合创始人兼CTO Denis Yarats说。

最初,它是一个Slack机器人Perplexity最初希望构建一个由AI驱动的Text-to-SQL工具,Yarats说,让开发人员以自然语言查询和编码SQL。但在公司的Slack频道中开始酝酿着不同的东西——一个结合了OpenAI的大型语言模型(LLMs)的聊天机器人。然后,在2022年11月下旬,ChatGPT公开发布,成为历史上增长最快的消费应用程序,在两个月内达到了1亿用户。人们向ChatGPT提出了各种问题,其中很多它都无法回答。但Yarats说,Perplexity的Slack机器人可以。

“字面上在两天内,我们创建了一个简单的网站,将其连接到我们Slack机器人的后端基础设施,并将其作为一个有趣的演示发布,”Yarats说。“老实说,它工作得并不是很好。但鉴于有这么多人喜欢它,我们意识到这里有一些东西。”

一段时间以来,Perplexity继续致力于其Text-to-SQL工具。它还创建了一个Twitter搜索工具,BirdSQL,让用户找到超级具体的推文,比如“Elon Musk发给Jeff Bezos的推文”。但AI驱动的搜索引擎脱颖而出,在几个月内成为了公司新的——也是艰巨的——使命。

AI驱动搜索如何成为可能?
这引出了一个明显的问题。Perplexity,一家不到两年前由四个人创立的公司(现已发展到大约40人),是如何解决看似让AI在搜索方面表现糟糕的问题的?

二十年来,失败的Google竞争者已经证明“还不错”是不够的。这就是AI提供的捷径。

检索增强生成,或(RAG),是公司努力的一个支柱。由Meta、伦敦大学和纽约大学的研究人员发明,RAG将生成性AI与一个“检索器”配对,后者可以找到并引用向量数据库中的特定数据,然后传递给“生成器”以产生响应。“我确实同意RAG[对于搜索是有用的],”AI基础设施公司Weaviate的联合创始人兼CEO Bob van Luijt说。“[RAG]所做的是允许普通开发人员,不仅仅是在Google工作的人,能够不费太多力气就构建这些类型的AI原生应用程序。”他指出,实现RAG的资源在AI开发者资源HuggingFace上是免费可用的。这导致了广泛的采用。Weaviate使用RAG来帮助其客户在专有数据上基础知识的AI代理。Nvidia使用RAG减少ChipNeMo中的错误,这是一个旨在帮助芯片设计师的AI模型。Latimer使用它来对抗种族偏见并放大少数群体的声音。而Perplexity则将RAG用于搜索。但为了让RAG有所用处,模型必须有东西可以检索,这里Perplexity.ai采用了更传统的搜索技术。该公司使用自己设计的网络爬虫,称为PerplexityBot,来索引互联网。

“当试图在最新信息上取得优势,比如新闻……我们将无法每天或每小时重新训练一个模型,”Yarats说。但在Google的规模上爬行网络也不实际;Perplexity缺乏科技巨头的资源和基础设施。为了管理负载,Perplexity将结果分成“领域”,这些领域以不同的紧迫性进行更新。新闻网站每小时更新一次以上。不太可能快速变化的网站,则每几天更新一次。

plexity还利用了来自Transformers(BERT)的双向编码器表示,这是Google在2018年创建的一个NLP模型,反过来用来更好地理解网页。Google将BERT开源,为Perplexity等公司提供了构建它的机会。“它让你得到一个简单的排名。它不会像Google那样好,但还是不错的,”Yarats说。但二十年来,失败的Google竞争者已经证明“还不错”是不够的。这就是AI提供的捷径。

“对于Google来说,有很多约束。最大的是广告。主页的房地产非常优化。”

LLMs非常擅长解析文本以找到相关信息——实际上,发现模式是它们的全部事情。这允许LLM产生对提示的有说服力的文本响应,但它也可以用来有效地解析然后呈现LLM检查的信息。你可以通过将PDF上传到ChatGPT、Google Gemini或Claude.ai自己尝试这一点。LLM可以在几秒钟内摄取文档,然后回答有关文档的问题。

Perplexity本质上对网页做同样的事情,从而根本改变了搜索的工作方式。它不试图排名网页以将最佳页面放在查询列表的顶部,而是分析来自良好排名页面索引的可用信息以找到最相关的内容并生成答案。这就是秘密武器。

“你可以把它想象成LLM做最后的排名任务,”Yarats说。“[LLMs]不关心[SEO]分数。他们只关心语义和信息。这更加无偏见,因为它基于实际的信息增益,而不是Google工程师出于任何原因优化的信号。”当然,这引出了一个问题:Google也可以做到这一点吗?

Yarats说,Perplexity意识到面对Google的困难,因此,专注于搜索的“分布头部”。Perplexity不提供图像搜索,不缓存旧网页,不允许用户将结果缩小到特定日期或时间,也不包括购物结果,仅举几个Google功能例子,这些功能很容易被视为理所当然。他还认为Google将面临的问题不在于其技术执行,而在于其现有的高度盈利的广告业务。

“对于Google来说,有很多约束,”他说。“最大的是广告。主页的房地产非常优化。你不能只说,让我们移除这个广告,我要显示一个答案代替。我们没有那个。我们可以实验。”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/2812134.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

10分钟快速开始SkyWalking结合Springboot项目

10分钟快速开始SkyWalking结合Springboot项目 实习期间,公司让我去学习一下链路追踪如何集成到Springboot项目中。 为此有两个方案: 1.opentelementryjaegerprometheus opentelementry 收集器收集线上的metrics和traces,然后发送给jaeger和p…

Pytest教程:一种利用 Python Pytest Hook 机制的软件自动化测试网络数据抓包方法

随着计算机技术的发展,使得网络应用的数量不断增加,因此网络数据抓包成为了网络应用开发和测试中非常重要的一部分。目前,已有许多网络数据抓包工具可供使用,例如 Wireshark、Tcpdump、Fiddler 等,但这些工具需要手动配…

Nodejs 第四十二章(jwt)

什么是jwt? JWT(JSON Web Token)是一种开放的标准(RFC 7519),用于在网络应用间传递信息的一种方式。它是一种基于JSON的安全令牌,用于在客户端和服务器之间传输信息。 https://jwt.io/ JWT由三部分组成&…

VUE基础知识九 ElementUI项目

ElementUI官网 一 项目 最终完成的效果: 切换上边的不同按钮,下方显示不同的表格数据 在src/components下新建不同业务组件的文件夹 1.1 搭建项目 使用脚手架搭建项目后,引入ElementUI(搭建、引入ElementUI步骤在第七节里已…

现代信号处理学习笔记(二)参数估计理论

参数估计理论为我们提供了一套系统性的工具和方法,使我们能够从样本数据中推断总体参数,并评估估计的准确性和可靠性。这些概念在统计学和数据分析中起着关键的作用。 目录 前言 一、估计子的性能 1、无偏估计与渐近无偏估计 2、估计子的有效性 两个…

Vue-Cropper头像裁剪插件使用

1. 效果预览 2. 插件介绍 官网地址:[GitHub - xyxiao001/vue-cropper: A simple picture clipping plugin for vue](https://github.com/xyxiao001/vue-cropper?fromthosefree.com) 3 . 插件使用 下载插件 npm install vue-croppernext3 . 封装好的代码&#x…

FL Studio Fruity Edition2024中文入门版Win/Mac

FL Studio Fruity Edition2024是一款功能强大的音乐制作软件,适合初学者和音乐爱好者使用。它提供了丰富的音乐制作工具,包括音频录制、编辑、混音以及MIDI制作等功能,帮助用户轻松创作出动人的音乐作品。 FL Studio 21.2.3 Win-安装包下载如…

使用Scrapy将数据提取到数据库中,进行处理

我们将数据处理的方式,最开始csv文件 再到与数据库建立联系 代码: Spider: import scrapyclass ShuangseqiuSpider(scrapy.Spider):name "shuangseqiu"allowed_domains ["sina.com.cn"]start_urls ["https://view.lottery…

[NOIP2011 普及组] 数字反转

AC代码&#xff1a; #include<iostream>using namespace std;int main() {long long n;cin >> n;long long temp n;long long sum 0;while(temp ! 0){int c temp % 10;sum sum * 10 c;temp temp / 10;}printf("%lld",sum);return 0; }

vue3 + vite + ts 中使用less文件全局变量

文章目录 安装依赖新建css变量文件全局引入css变量文件使用css变量 一、安装依赖 npm install less less-loader --save-dev 二、新建CSS变量文件 (1) :在根目录下的src文件中 src-> asset -> css ->glibal.less // glibal.less :root{--public_background_font_Col…

跟着cherno手搓游戏引擎【26】Profile和Profile网页可视化

封装Profile&#xff1a; Sandbox2D.h:ProfileResult结构体和ProfileResult容器&#xff0c;存储相应的信息 #pragma once #include "YOTO.h" class Sandbox2D :public YOTO::Layer {public:Sandbox2D();virtual ~Sandbox2D() default;virtual void OnAttach()ove…

python中的数字类型Number

Python 数字(Number) Python 数字数据类型用于存储数值。 数据类型是不允许改变的&#xff0c;这就意味着如果改变数字数据类型的值&#xff0c;将重新分配内存空间。 以下实例在变量赋值时 Number 对象将被创建&#xff1a; var1 1 var2 10Python 支持三种不同的数值类型…

蜣螂优化算法DBO求解不闭合MD-MTSP,可以修改旅行商个数及起点(提供MATLAB代码)

一、蜣螂优化算法&#xff08;Dung beetle optimizer&#xff0c;DBO&#xff09; 蜣螂优化算法&#xff08;Dung beetle optimizer&#xff0c;DBO&#xff09;由Jiankai Xue和Bo Shen于2022年提出&#xff0c;该算法主要受蜣螂的滚球、跳舞、觅食、偷窃和繁殖行为的启发所得…

kubectl使用及源码阅读

目录 概述实践样例yaml 中的必须字段 kubectl 代码原理kubectl 命令行设置pprof 抓取火焰图kubectl 中的 cobra 七大分组命令kubectl createcreateCmd中的builder模式createCmd中的visitor访问者模式外层VisitorFunc分析 结束 概述 k8s 版本 v1.24.16 kubectl的职责 1.主要的…

SQL注入之order by脚本盲注

一、环境 还是用上次搭建的sql-labs靶机环境 搭建sql注入环境 二、什么是order by盲注 在有的时候我们进行sql注入时&#xff0c;源码的查询语句后面为order by&#xff1b; 众所周知&#xff0c;order by 后面接的字段或者数字不一样&#xff0c;那么这个数据表的排序就会…

嵌入式学习第二十一天!(线程)

线程&#xff1a; 1. 基本概念&#xff1a; 线程&#xff1a;线程是一个轻量级的进程&#xff0c;位于进程空间内部&#xff0c;一个进程中可以创建多个线程 2. 线程创建&#xff1a; 线程独占栈空间&#xff0c;文本段、数据段和堆区与进程共享 3. 线程调度&#xff1a; 与进程…

探索比特币现货 ETF 对加密货币价格的潜在影响

撰文&#xff1a;Sean&#xff0c;Techub News 文章来源Techub News&#xff0c;搜Tehub News下载查看更多Web3资讯。 自美国比特币现货交易所交易基金&#xff08;ETF&#xff09;上市以来&#xff0c;比特币现货 ETF 的相关信息无疑成为了影响比特币价格及加密货币市场走向…

Java四大引用详解:强引用、软引用、弱引用、虚引用

在JDK1.2以前的版本中&#xff0c;当一个对象不被任何变量引用&#xff0c;那么程序就无法再使用这个对象。也就是说&#xff0c;只有对象处于可触及状态&#xff0c;程序才能使用它。这就像在商店购买了某样物品后&#xff0c;如果有用就一直保留它&#xff0c;否则就把它扔到…

Spring Boot项目中不使用@RequestMapping相关注解,如何动态发布自定义URL路径

一、前言 在Spring Boot项目开发过程中&#xff0c;对于接口API发布URL访问路径&#xff0c;一般都是在类上标识RestController或者Controller注解&#xff0c;然后在方法上标识RequestMapping相关注解&#xff0c;比如&#xff1a;PostMapping、GetMapping注解&#xff0c;通…

【UnityShader入门精要学习笔记】第六章(1)Unity中的基础光照

本系列为作者学习UnityShader入门精要而作的笔记&#xff0c;内容将包括&#xff1a; 书本中句子照抄 个人批注项目源码一堆新手会犯的错误潜在的太监断更&#xff0c;有始无终 总之适用于同样开始学习Shader的同学们进行有取舍的参考。 文章目录 光照的原理光源吸收和散射着…