快捷导航

自然语言如何改变SEO游戏

[复制链接]
查看: 259|回复: 0

3

主题

3

帖子

55

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
55
发表于 2020-6-13 20:31:53 | 显示全部楼层 |阅读模式
了解计算机如何使用自然语言生成的最新进展来生成内容,以及一些使内容有用的准则。
我将在本专栏中演示的内容生成技术似乎是一部科幻小说,但它们是真实的并且现在可以免费使用。

在完成编码实验并开始撰写本文之后,我考虑了公开共享此信息的正面和负面影响。

正如您将看到的,现在生产机器生成的内容相对容易,并且世代的质量正在快速提高。

这使我得出一个可悲的结论,即我们将看到比以前更多的垃圾邮件结果。

幸运的是,Google最近发布了其2019年垃圾邮件报告,这使我感到放心。


Google SearchLiaison

@searchliaison
Ever look at your email spam folder? That's how search results might look without the steps we take to fight search spam. Our post today looks at how we work to keep spam out of Google's search results https://www.blog.google/products ... spam-out-of-search/


Why keeping spam out of Search is so important
On overview of how we work to combat spam and keep Google search results helpful and relevant

blog.google
291
2:20 AM - Jun 10, 2020
Twitter Ads info and privacy
155 people are talking about this
“去年,我们发现每天发现的网页超过250亿是垃圾邮件。(如果每个页面都是一本书中的一个页面,那么每天“战争与和平”的副本将超过2000万册!)




我们的努力有助于确保超过99%的访问量来自无垃圾邮件体验。

在过去的几年中,我们发现具有自动生成和抓取的内容的垃圾邮件网站的数量有所增加,这些网站的行为烦扰或伤害了搜索者,例如假按钮,压倒性的,可疑的重定向和恶意软件。这些网站通常具有欺骗性,对人们没有任何实际价值。与2018年相比,我们能够在2019年将这类垃圾邮件对搜索用户的影响减少60%以上。”

尽管Google报告每天的垃圾邮件页面数量惊人,但他们报告的全面抑制垃圾邮件的成功率达到了惊人的99%。

更重要的是,他们在抑制机器生成的垃圾邮件内容方面取得了令人难以置信的进步。

在本专栏中,我将用代码解释计算机如何利用NLG的最新进展生成内容。

我将仔细研究理论和一些准则,以使您的内容有用。

这将帮助您避免被Google和Bing昼夜不停地摆脱的所有网络垃圾所困扰。




内容薄页
在关于标题和元描述生成的文章中,我分享了一种有效的技术,该技术依赖于汇总页面内容以生成元标签。

完成这些步骤后,您会发现它确实运行良好,甚至可以产生高质量的新颖文字。

但是,如果页面不包含任何要摘要的内容怎么办?该技术失败。

让我告诉您一个解决这个问题的绝妙技巧。

如果此类页面具有高质量的反向链接,则可以使用锚文本和反向链接周围的文本作为摘要。

等待!

但为什么?

让我回顾到1998年,一直到Google搜索引擎的创立。

在描述他们的新搜索引擎的论文中,Page和Brin在2.2节中分享了一个非常有趣的见解。

“大多数搜索引擎将链接的文本与链接所在的页面相关联。此外,我们将其与链接指向的页面相关联。这具有几个优点。首先,锚通常提供比网页本身更准确的网页描述。第二,对于那些无法被基于文本的搜索引擎索引的文档,例如图像,程序和数据库,可能存在锚点。这样就可以返回尚未实际爬网的网页。”

您在Google Ads上花费相同的而获得的转换次数减少了吗?
您的可能会出现点击欺诈行为。检查是否需要保护免受竞争对手和漫游器的侵害。设置简单。立即开始免费检查。

运行免费检查

这是技术计划:

我们将使用新的Bing网站管理员工具获得反向链接和相应的锚文本。
我们将从最高质量的反向链接中抓取周围的文本。
我们将使用抓取的文本创建摘要和长格式内容。
Bing网站管理员工具的反向链接报告
自然语言如何改变SEO游戏
我喜欢BWT的新反向链接工具中的一个功能是,它不仅可以提供指向您自己的站点的链接,还可以提供其他一些站点的链接。

我希望这将成为付费工具的流行免费替代品。

我导出了包含大量链接和锚点的CSV文件,但是当我尝试使用Python pandas加载它时,发现了许多格式问题。




随机锚文本可能包含逗号,并导致逗号分隔文件出现问题。

我通过在Excel中打开文件并将其保存为Excel格式来解决它们。

使用Python抓取周围的文本
如您在上面的屏幕截图中所见,许多锚文本都很短。

我们可以抓取页面以获得包含它们的段落。

首先,让我们加载从BWT导出的报告。

import pandas as pd

df = pd.read_excel("www.domain.com_ReferringPages_6_7_2020.xlsx")

df.head()
自然语言如何改变SEO游戏
我通过使用入站链接的数量查看了目标URL。

df.groupby("Target Url").count().tail()
自然语言如何改变SEO游戏
我从其中一个页面中提取了反向链接,以使用此代码评估想法。




backlinks = set(df[df["Target Url"] == "https://domain.com/example-page"]["Source Url"])
现在,让我们看看如何使用目标URL和反向链接提取包含锚点的相关锚点文本。

从反向链接获取文本
首先,让我们安装requests-html。

!pip install requests-html

from requests_html import HTMLSession
session = HTMLSession()
为了使代码简单,我将手动生成一个CSS选择器来获取链接周围的文本。

给定链接和使用JavaScript或Python代码在页面上的锚点,计算起来并不难。

也许这是一个不错的主意,让您尝试做家庭作业。

自然语言如何改变SEO游戏
打开示例反向链接页面,然后使用Chrome开发者工具,右键单击感兴趣的段落并复制CSS选择器。

这是我使用的选择器。

with session.get(url) as r:

    selector="#entry-78782 > div.asset-content.entry-content > div > p:nth-child(5)"
    paragraph = r.html.find(selector, first=True)

    text = paragraph.text
这是回来的文字。我将示例锚文本的文本加粗了。




我们知道老师的留任可以提高学生的学习成绩,反之,老师的离职会损害学生的学习成绩。每年约有16%的教育工作者离开该领域,而且我们知道,像我一样,许多教师在头五年内就离开了。老师们报告说,他们离开的最大原因是缺乏自主权和发言权,以及文化问题,尤其是纪律问题。更重要的是,营业额成本高昂,每年使各地区的空缺超过22亿美元。

现在,让我们进入有趣的部分!

神经文本生成
我们将使用与上一篇文章中用于生成标题和元描述的摘要代码相同的方法,但要有所不同。

我们将指定更长的长度,而不是指定比原始段落短的期望摘要长度。那行得通吗?让我们来看看!

!pip install transformers

from transformers import pipeline

summarizer = pipeline('summarization')

generated_text = summarizer(text, min_length=150, max_length=250)
print(generated_text)
我得到这个有趣的警告。

您的max_length设置为250,但是input_length只有99。您可以考虑手动降低max_length,例如summaryr('…',max_length = 50)




让我们看看生成的文本。

[{'summary_text': "Around 16 percent of educators leave the field every year. Teachers report that the biggest reasons they leave are lack of autonomy and voice, alongside issues of culture and discipline. Turnover is costly, shorting districts upwards of $2.2 billion a year, according to a report by the National Council of Teachers of English, the nation's largest teacher organization. The report also found that teacher retention improves outcomes for students, and conversely, that teacher turnover can harm student achievement. The study was published in the Journal of Education, published by Simon & Schuster, a division of Penguin Random House, on November 14. For more, visit www.simonandschuster.com. For confidential support, call the National Suicide Prevention Lifeline at 1-800-273-8255 or visit http://www.suicidepreventionlifeline.org/."}]
原始文本具有492个字符,生成的文本为835。

但是,请查看生成的文本中显示的质量和新颖的句子。绝对令人赞叹!

这种技术可以生成更长的文本吗?是!

generated_text = summarizer(text, min_length=300, max_length=600)

print(generated_text)

[{'summary_text': "Around 16 percent of educators leave the field every year. Teachers report that the biggest reasons they leave are lack of autonomy and voice, alongside issues of culture and discipline. Turnover is costly, shorting districts upwards of $2.2 billion a year, according to a report by the National Council of Teachers of English, the nation's largest teacher organization. The report also found that teacher retention improves outcomes for students, and conversely, that teacher turnover can harm student achievement. The study was published in the Journal of Education, published by Simon & Schuster, a division of Penguin Random House, on November 14. For more, visit www.simonandschuster.com. For confidential support, call the National Suicide Prevention Lifeline at 1-800-273-8255 or visit\xa0http://www.suicidepreventionlifeline.org/. For support in the U.S., call the Samaritans on 08457 90 90 90 or visit a local Samaritans branch, see www.samaritans.org for details. In the UK, contact the National College of Education on 0300 123 90 90, or\xa0 visit\xa0the Samaritans\xa0in the UK. For help in the United States, call\xa0the\xa0National Suicide Prevention Line on 1\xa0800\xa0273\xa08255,\xa0or\xa0in\xa0the UK on 0800\xa0123\xa09255. For support on suicide matters in the\xa0U.S. call the\xa0National\xa0College\xa0of Education,\xa0England\xa0on 08457\xa090 90 90. For information on suicide prevention in the UK and\xa0Europe, visit the National\xa0College of England and Wales."}]
生成的文本具有1,420个字符,并保持逻辑流程!

支持这项技术的野兽是Facebook的一种名为BART的模型。

该论文的作者将其描述为BERT的广义形式。

让我们看看它是如何工作的。

神经文本生成如何工作
自然语言如何改变SEO游戏
您是否进行过能力或智商测试,在其中给出了一系列数字,因此您需要猜测下一个数字吗?

从本质上讲,这就是我们的模型在提供一些初始文本并要求我们的模型预测接下来会发生什么时所做的事情。




它把我们的初始文本变成了一个数字序列,猜出了下一个数字,并采用了包含猜出的数字的新序列,并再次重复了相同的过程。

这一直持续到达到我们指定的长度限制为止。

现在,这些不仅是常规数字,而且是向量,更具体地说(在BERT和BART的情况下)是双向单词嵌入。

我在深度学习文章的第1 部分和第2 部分中使用GPS类比解释了向量和双向单词嵌入。请确保将其签出。

总而言之,嵌入对有关它们表示的单词的丰富信息进行编码,这大大提高了预测的质量。

因此,这是一个如何工作的示例。

给定文本:“对于执行重复性任务的SEO来说,最好的编程语言是____,而对进行前端审计的SEO来说,最好的编程语言是____”,我们要求模型完成句子。

第一步是将单词转换为数字/嵌入,其中每个嵌入都会根据上下文标识单词。




然后,这变成一个难题,计算机可以解决找出在给定上下文中可以填入空白的数字/嵌入物。

可以解决这类难题的算法称为语言模型。

语言模型类似于英语或任何其他语言的语法规则。

例如,如果文本是一个问题,则必须以问号结尾。

区别在于所有单词和符号都由数字/嵌入表示。

现在,有趣的是,在深度学习中(我们在这里使用的是什么),您不需要手动创建一大堆语法规则。

该模型通过有效的反复试验经验地学习规则。

这是在所谓的预训练阶段完成的,在该阶段中,模型会使用强大的硬件在海量数据上进行几天的训练。

对我们来说最好的部分是,这些努力的结果可供任何人免费使用。




我们不是真的很幸运吗?

BERT是语言模型的一个示例,GPT-2和BART 也是如此。

如何永久使用
正如我上面提到的,这些东西确实功能强大,可用于相对便宜地大规模搅动无用的内容。

我个人不想在搜索时浪费时间浪费在垃圾上。

随着时间的流逝,我逐渐意识到,要使内容在搜索中执行,它需要:

有用。
满足实际需求。
否则,无论是计算机还是人工生产,最终用户都不会参与或验证。

排名和表演的机会真的很少。

这就是为什么我更喜欢摘要和翻译或问题/回答之类的技术的原因,这些技术可以更好地控制生成。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

精彩推荐

让创业更简单

  • 反馈建议:service_media@36kr.com
  • 客服电话:
  • 工作时间:周一到周五

云服务支持

精彩文章,快速检索

关注我们

Copyright 腾龙国际客服-13187589555  Powered by©  技术支持: