澳门高端网站建设:如何阻止搜索引擎在WordPress中为特定的文章和页面建立索引

搜索引擎蜘蛛会抓取你的整个网站,为他们的索引缓存你的网站的网页。一般来说,大多数网站所有者都很乐意让搜索引擎爬行和索引他们想要的任何页面;但是,澳门高端网站建设在某些情况下,您不希望页面被索引。

例如,如果您正在开发一个新网站,通常最好是阻止搜索引擎为您的网站建立索引,这样您不完整的网站就不会出现在搜索引擎上。这可以通过阅读设置页面(http:/www.yourwebsite.com/wp-admin/Options-reading.php)轻松完成。

您所要做的就是向下滚动搜索引擎可见性部分,并启用题为“劝阻搜索引擎不要索引此站点”的选项。

WordPress允许您阻止所有搜索引擎对您的内容进行索引。

不幸的是,WordPress不允许您停止页面索引。你唯一的选择就是允许搜索引擎索引所有的东西,或者什么也不做。

停止搜索引擎索引特定页面是必要的,不时。例如,在我的个人博客上,我阻止搜索引擎为我的时事通讯电子邮件确认页面建立索引。我还阻止他们索引我的免费电子书可以下载的页面。大多数博客不采取步骤阻止搜索引擎索引他们的下载页面。这意味着人们只需在网上快速搜索就可以从私人页面下载电子书和其他数字文件。

澳门高端网站建设有很多不同的方法可以阻止搜索引擎在你的网站上索引文章和网页。在本文中,我想向您展示一些可用的解决方案。

*本文中详细介绍的所有方法都已在测试WordPress安装上进行了测试,并经验证正确工作。

机器人元标签概述

谷歌建议网站所有者块URL使用机器人元标记。机器人元标签遵循以下格式:

<meta name="value" content="value">

机器人元标记应该放在WordPress主题标题的部分,即和之间。名称和内容属性有几个不同的可用值。Google建议用于阻止对页面的访问的值为机器人无指数:

<meta name="robots" content="noindex">

机器人指的是所有的搜索引擎无指数不允许搜索引擎在索引中显示页面。

如果要阻止特定搜索引擎中的内容,则需要将机器人的值替换为搜索引擎蜘蛛的名称。一些常见的搜索引擎蜘蛛是:

  • Googlebot-谷歌

  • Googlebot-新闻-谷歌新闻

  • Googlebot-形象-谷歌图片

  • 宾博-冰

  • 特马-问

澳门高端网站建设在上面的列表中缺少的两个著名的蜘蛛是MSNBot咕噜MSNBot用于为LiveSearch、WindowsLiveSearch和MSN搜索索引页面的蜘蛛的名称。这些搜索引擎于2009年更名为Bing,2010年10月更名为“必应”。MSNBot蜘蛛被宾博特MSNBot仍然被微软用来抓取网页,但是它很快就会被使用。逐步淘汰完全地。咕噜是为雅虎爬行网页的蜘蛛的名字!2009年,作为雅虎,它被终止了!开始使用Bing为搜索结果提供动力。

要阻止特定的爬行器,所要做的就是替换机器人蜘蛛的名字。

<meta name="googlebot-news" content="noindex">

多个搜索引擎可以通过指定更多的蜘蛛并用逗号分隔它们来阻止它们。

<meta name="googlebot-news,bingbot" content="noindex">

到目前为止,您只看到noindex元标记正在使用,但是有许多值可以与Content属性一起使用。这些值通常称为指令。

作为参考,下面列出了您可以使用的最常见指令:

  • 全-对索引或链接没有限制

  • 指数-在搜索结果中显示页面,并在搜索结果中显示缓存的链接

  • 无指数-不要在搜索结果中显示页面,也不要在搜索结果中显示缓存的链接

  • 跟随-点击页面上的链接

  • 不跟随-不要跟随网页上的连结

  • 无-与使用“noindex,no追随者”相同

  • 诺瓦-不要在搜索结果中显示缓存的链接

  • 无缓存-不要在搜索结果中显示缓存的链接

  • 鼻尖-不要在搜索结果中显示页面的片段

  • 面条-不要使用开放目录项目用于此页面的标题或片段

  • 诺伊迪尔-不要使用雅虎!目录用于此页面的标题或片段

  • 非翻译-不提供搜索结果中页面的翻译

  • 无象指数-不要索引本页的图像

  • 不可用:[RFC-850日期/时间]中指定的日期和时间之后,不要在搜索结果中显示该页。RFC 850格式

其中一些指令只适用于某些搜索引擎。例如,后不可用鼻尖,和非翻译,只能得到谷歌的支持。诺迪尔只得到雅虎的支持!和无缓存只有Bing支持。其他知名度较低的搜索引擎支持主要搜索引擎不支持的其他指令。

其中一些指令也是多余的。例如,将给出与相同的结果。而且,没有必要使用这些元标签,因为搜索引擎将索引内容和跟踪链接,无论如何,在默认情况下。

如果您试图阻止搜索引擎对页面进行索引,则不跟随指令不能单独使用。no追随者指令建议搜索引擎不要跟踪页面上的链接。你可以用它来阻止搜索引擎爬行页面。结果与对页面上的每个链接应用no追随者链接属性相同。

考虑一个博客,它只链接到一个感谢页面的下载区域。您可以添加一个不跟随元标记到感谢页面的标题上,这样搜索引擎蜘蛛就永远不会访问下载页面。这将阻止搜索引擎蜘蛛爬行页面,并随后对其进行索引。您所要做的就是确保“谢谢”页面是链接到下载页面的唯一区域。

毫无疑问,无论您喜欢与否,其他人都会链接到该下载页面。这意味着不跟随指令本身是无效的。我已经检查了传入的流量到我自己的博客,并找到了直接链接到我的下载页面从黑帽论坛。几乎不可能阻止其他人链接到自己以外的人都知道的页面。

这就是为什么您还需要使用无指数指令。该指令确保搜索结果中不显示页面。它还确保不显示页面的缓存链接;因此,不需要使用诺瓦如果您正在使用无指数.

因此,澳门高端网站建设为了阻止所有搜索引擎对页面进行索引并阻止其链接如下,我们应该将其添加到页面的标题中:

<meta name="robots" content="noindex,nofollow">

上面的语句也可以写成,但是,并不是所有的搜索引擎都支持指令。因此,最好使用“不索引,不跟随“相反。

如果希望从索引中删除页面,但仍然希望搜索引擎爬行页面上链接的页面,则可以使用:

<meta name="robots" content="noindex">

有数千篇在线文章不正确地说明了上面的行应该写成。Google自己声明需要使用指数跟随元标记中的指令。2007年,他们澄清了这个问题他说:

默认情况下,Googlebot将索引一个页面并跟踪到它的链接。因此,不需要用索引或后续的内容值来标记页面。

在您的网站上使用机器人元标签时,请注意:

  • 元标记不区分大小写。因此,的解释方式与和的解释方式完全相同。

  • 如果robots.txt和meta标记指令发生冲突,谷歌遵循最严格的规则(我确信其他搜索引擎也会遵循同样的规则,但我无法从其他搜索引擎那里找到任何关于这个问题的澄清)。

现在,您已经知道如何阻止搜索引擎在其搜索结果中索引页面。但是,这不仅仅是将元标记代码添加到主题的Header.php模板中的问题。这样做将阻止搜索引擎索引所有WordPress支持的页面(与WordPress一起发布的页面不会受到影响)。

为了确保只阻塞特定的帖子和页面,我们需要使用一个if语句,该语句仅应用于无指数指令指向指定的页。让我们仔细看看我们如何做到这一点

将机器人元标记添加到主题标题中:方法1

通过修改Header.php模板,我将向您展示向网站添加元标记的三种方法。对于这三种方法,最终结果是相同的,但是您可能更喜欢使用一种方法而不是另一种方法。

为了阻止特定的帖子或页面,您需要知道它的POST ID。找到页面ID的最简单方法是编辑它。当您在WordPress上编辑任何类型的页面时,您将看到一个URL,如https:/www.yourwebsite.com/wp-admin/post.php?post=。15&action=在浏览器地址栏中编辑。URL中表示的数字是POST ID。它引用wp_post数据库表中的行。

可以从地址栏查看POST ID。

一旦知道要阻止的帖子或页面的ID,就可以通过将下面的代码添加到主题的Head模板的Head部分来阻止搜索引擎对其进行索引。也就是说,介于和之间。您可以将代码放置在Head部分的任何位置;但是,我建议将代码放在其他元标记的下面或上面,因为它使以后更容易引用。

<?php if ($post->ID == X) { echo '<meta name="robots" content="noindex,nofollow">'; } ?>

在上面的代码中,X表示要阻止的帖子的ID。因此,如果页面的ID为15,代码将是:

<?php if ($post->ID == 15) { echo '<meta name="robots" content="noindex,nofollow">'; } ?>

由于所有POST类型都存储在wp_post数据库表中,上述代码将用于任何类型的页面;无论是POST、页面、附件还是自定义类型(如图库和文件夹)。

您可以通过以下方式阻止网站上的其他页面:OR算子.

<?php if ($post->ID == X || $post->ID == Y) { echo '<meta name="robots" content="noindex,nofollow">'; } ?>

只需指定要阻止的页面的ID即可。例如,假设您希望阻止搜索引擎为ID为15、137和4008的帖子和页面建立索引。您可以使用以下方法轻松完成此操作:

<?php if ($post->ID == 15 || $post->ID == 137 || $post->ID == 4008) { echo '<meta name="robots" content="noindex,nofollow">'; } ?>

要确认您已正确配置了所有内容,必须验证是否已从搜索引擎阻止了正确的页面。最简单的方法是查看您希望阻止的页面的来源。如果您正确地添加了代码,您将在页面的Head部分中看到。如果没有,则代码未正确添加。

查看页面的源代码以验证已阻止该页。

您还需要检查不试图阻止搜索引擎的页面的源代码。这将验证您没有错误地阻止网站上的所有页面。

将机器人元标记添加到主题标题中:方法2

您还可以通过以下方法阻止搜索引擎中的页面WordPress条件标记。为了正确使用此技术,需要使用适当的条件标记。例如,您可以使用是单的写一篇博文IS页一个WordPress页面。

再次,我们需要将代码添加到主题的Head部分的Header.php模板中。在下面的示例中,X表示必须从搜索引擎阻止的博客帖子的ID。

<?php if(is_single(X)): ?>
<meta name="robots" content="noindex,nofollow">
<?php endif; ?>

条件标记对于如何指定POST或页面非常灵活。您可以使用POST ID、POST标题或POST片段。

考虑一下添加到WordPress中的第一篇博客文章。它有一个帖子ID为1,帖子标题为“HelloWorld”,还有一个帖子名为“Hello-world”。因此,我们可以通过以下方法在代码中定义POST:

<?php if(is_single(1)): ?>

或:

<?php if(is_single('1')): ?>

或:

<?php if(is_single('Hello World')): ?>

或:

<?php if(is_single('hello-world')): ?>

如果要阻塞多个页面,可以使用OR运算符。例如:

<?php if ( is_single('big-announcement') || is_single('new-update-coming-soon') ) ) : ?>

条件标记也支持数组。它们是处理多个帖子或页面的更好方法。在下面的示例中,如果显示任何一个页面,则if语句将为true。您可以看到,页面由页面段格、页面标题和页面ID表示。

<?php if(is_page( array'about-page''Testimonials''658' ) )): ?>

请记住,对于条件标记,您需要对每个页面使用正确的标记。因此,不能同时对POST和页面使用一个数组。如果您想阻止搜索引擎在您的网站上的一个帖子和一个页面,您可以使用这样的东西:

<?php if ( is_single('big-announcement') || is_page('About') ) ) : ?>

如果有大量的帖子和页面,可以在是单的数组和IS页阵列。

<?php if(is_single( array'45''68''159''543') ) || is_page( array'about-page''Contact Us''1287') ) ): ?>

为了保持上面的简单性,我只复制了if语句来解释每一种技术。在将代码添加到网站标题时,不要忘记包含元标记本身和关闭endif语句。

<?php if(is_single( array'45''68''159''543') ) || is_page( array'about-page''Contact Us''1287') ) ): ?>
<meta name="robots" content="noindex,nofollow">
<?php endif; ?>

您可能更喜欢使用条件标记,以便可以指定POST和页面标题和段塞。这将使您更容易回顾代码并查看哪些文章被阻塞。然而,在我看来,这样做是有风险的。职位名称可以更改。就像后鼻涕虫一样。但是,POST ID不会更改。

如果您在代码中引用了POST或页面标题和段塞,那么如果有人修改了标题或段塞,代码就会停止工作。每次修改POST或页面标题和片段时,都需要更新Header.php模板中的元标记代码。这就是我建议使用POST ID的原因。从长远来看,如果你隐藏了很多文章和页面,这是一个更实用的解决方案。

将机器人元标记添加到主题标题中:方法3

您可以使用的另一种技术是利用WordPress自定义字段特征。哈迪普·阿斯拉尼今年早些时候在题为“如何禁用特定WordPress帖子上的搜索引擎索引“.

您需要做的第一件事是将以下代码添加到主题的Head部分的Header.php模板中。

<?php
    $noindex = get_post_meta($post->ID, 'noindex-post', true);

    if ($noindex) {
        echo '<meta name="robots" content="noindex,nofollow" />';
    }
?>

您不需要修改上面的代码并插入您的帖子ID或帖子标题。而不是在代码本身中指定要阻止的POST或页面,而是使用自定义字段来实现。您所需要做的就是指定一个名为Noindex-POST并给它赋值。你进入什么并不重要。您所需要做的就是确保在字段中输入某些内容,以便自定义字段Noindex-POST在标头中指定的代码中返回为true。

澳门高端网站建设

您可以给您的自定义字段任何值。

只需对任何要阻止搜索引擎的帖子类型重复上述步骤即可。

我相信这是开发人员可以为客户配置的最友好的技术之一,因为阻止额外的文章和页面非常简单。然而,它并没有给你一个快速的方式来查看哪些文章和页面被搜索引擎屏蔽,哪些没有。因此,如果您使用此技术并阻塞了大量页面,那么谨慎的做法可能是注意您所封锁的每一页。

使用WordPress插件阻止搜索引擎

如果你需要屏蔽搜索引擎的几个帖子和页面,你可能会发现使用WordPress插件是一个更实用的解决方案。我过去用来做这件事的插件是PC隐藏页.

要使用插件从搜索引擎中删除页面,只需从页面列表中选择页面即可。当您这样做时,插件将适当的元标记应用于所讨论的页面。对我来说,这是从搜索引擎中删除页面的最佳解决方案之一,因为您一眼就可以看到您隐藏了哪些页面,并直接通过WordPress管理区域(这不是您本机可以使用robots.txt方法完成的)。

这个插件唯一的缺点是它只支持WordPress页面。它不支持博客文章或其他自定义POST类型。这对你们中的许多人来说不太可能是个问题,因为需要对搜索引擎隐藏的内容通常是作为WordPress页面发布的,比如感谢页面、下载页面等等。

你所要做的就是选择你想从搜索引擎中屏蔽的页面。

如果您的网站使用流行的搜索引擎WordPress插件,如WordPress SEO一个SEO包,那么您已经具备了从搜索引擎中删除内容的功能。

Yoast是首批开发插件的开发人员之一,该插件帮助网站所有者屏蔽搜索引擎。他后来把他的机器人元插件到WordPress搜索引擎优化。

WordPress SEO中的标题和元设置区域有一个题为全站式元设置。本节允许您应用无指数指示档案的子页,防止标题和代码片段从开放目录项目和雅虎!正在使用的目录。

WordPress SEO提供四个全球设置。

WordPress SEO让你对搜索引擎如何对待你网站上的网页有很大的控制权。第一个选项控制页面是否在搜索引擎上索引。可以应用另外六个机器人元标记指令,包括跟随不跟随,和诺瓦。您还可以从网站站点地图中排除页面并设置其站点地图优先级。如果需要将流量从该页重定向到另一个位置,也可以配置301 URL重定向。

WordPress SEO在POST编辑器中提供了许多很好的选择。

在一个SEO包中,所有SEO包的常规设置页面都有一个名为noindex设置。您可以应用不跟随元标签到您的网站的许多不同领域在本节。例如,类别、作者档案和标签档案。您也可以停止标题和片段开放目录项目和雅虎!正在使用的目录。正如你所看到的,它提供了比WordPress SEO更多的全球选项。

所有在一个SEO包让你阻止搜索引擎从你的网站的某些领域。

就像WordPress SEO,所有在一个SEO包添加一个设置区域到POST编辑器页面。除了申请无指数不跟随,您可以从站点地图中排除该页面,并禁用GoogleAnalytics。在一个帖子级别,所有在一个SEO包提供较少的控制比WordPress SEO。

所有在一个SEO包添加一个设置框到您的文章编辑器。

WordPress SEO和全部在一个SEO包中的工作方式与我前面解释的自定义字段方法相同,即通过POST编辑器选择“noindex,no追随者”。如果您已经在使用这些插件之一,您可能希望使用它们来选择哪些帖子和页面应该隐藏在搜索引擎中。

停止使用robots.txt搜索帖子或页面

机器人排除标准确定哪些搜索引擎蜘蛛应该索引,哪些不应该索引。为此,您需要创建一个新的文本文件,并将该文件保存为robots.txt。

robots.txt协议背后的概念与我在本文中详细讨论过的机器人元标记相同。只有几条基本规则。

  • 用户代理-适用该规则的搜索引擎蜘蛛

  • 不允许-要阻止的URL或目录

本文前面提到的相同的搜索引擎蜘蛛名可以表示为用户代理。例如,用户代理:Googlebot将用于将规则应用于Google,并且用户代理:bingbot会对Bing适用一条规则。大多数网站所有者使用通配符(*)来阻止所有搜索引擎。

使用“不允许”规则,您所阻止的URL或目录是使用来自域的相对路径定义的。因此,/将阻止搜索引擎索引您的整个网站和/wp-admin/将阻止搜索引擎从您的WordPress管理区域。

这里有几个例子可以帮助您理解使用robots.txt文件阻止搜索引擎是多么容易。

下面的代码将阻止搜索引擎索引你的整个网站。只有当您不希望网站上的任何页面被索引时,才将其添加到robots.txt文件中。

User-agent: *
Disallow: /

要阻止搜索引擎为最近发布的公告建立索引,您可以使用以下内容:

User-agent: *
Disallow: /2014/06/big-announcement/

要隐藏您的时事通讯确认页面,您可以使用以下内容:

User-agent: *
Disallow: /email-subscription-confirmed/

robots.txt文件中定义的规则区分大小写。在定义规则时要注意这一点,特别是当阻塞使用大写字母的文件时。例如,如果这本书的正确文件名是my_Great_eBook.pdf,那么robots.txt文件中的阻塞/下载/my_Great_ebook.pdf将无法正常工作。

您可以使用的另一条规则是允许。此规则允许您指定允许的用户代理。下面的示例向您展示了这在实践中是如何工作的。该代码将阻止所有搜索引擎,但它将允许谷歌图片索引内容在您的图像文件夹。

User-agent: *
Disallow: /

User-agent: Googlebot-Image
Allow: /images/

txt还支持模式匹配,这对于阻塞具有类似名称或扩展名的文件非常有用。然而,如果你只需要阻止几页,那就不是你需要学习的东西了。

一旦创建并保存了robots.txt文件,就应该将其上传到域的根目录,即www.yourwebsite.com/robots.txt。

txt是一个相对直观的标准。如果您正在寻找有关创建robots.txt文件的更多帮助,则可能需要从谷歌。但是,我认为学习如何构建robots.txt页面的最好方法是查看其他网站的robots.txt页面。这可以很容易地完成,因为robots.txt文件可以被任何人看到。您所要做的就是访问www.nameofwebsite.com/robots.txt来查看您想要查看的任何网站。请注意,有些网站不使用robots.txt,因此可能会出现404错误。

下面是robots.txt文件的一些示例,以说明如何使用robots.txt文件来控制搜索引擎的功能:

robots.txt是阻止搜索引擎在你的网站上索引文章和页面的最实用的方法之一,因为你可以在任何时候通过访问www.yourwebsite.com/robots.txt来引用它,并检查应用于您的网站的规则。

如何从公共视图中删除内容

阻止搜索引擎索引页面并不总是最好的解决方案。如果您想要向世界隐藏一个页面,那么限制对它的访问可能更实用。我在上个月的评论中详细地谈到了这一点。WordPress成员插件.

成员插件,如付费会员例如,将允许您将访问内容的权限限制在符合条件的人身上。这对于保护下载和优质内容尤其有用。

会员插件可以帮助您限制对内容的访问。

有关成员插件的完整列表,请查看我最近的文章“使用WordPress成员身份插件创建您自己的网站成员资格“.

如何从搜索引擎结果中删除页面

搜索引擎爬虫偶尔不会看到无指数在页面上表示的指令。因此,您的页面可能被错误地编入索引,即使您建议它们不要索引。您也可能有已被正确索引的页面,但现在您希望将它们从搜索引擎中删除。

“请注意,因为为了查看noindex元标记,我们必须爬行您的页面,所以Googlebot不可能看到并尊重noindex元标记。如果您的页面仍然出现在结果中,这可能是因为自从您添加了标签之后,我们还没有爬过您的站点。谷歌

从搜索引擎索引中删除页面的最有效方法是使用搜索引擎URL删除工具。在……里面Google网站管理员工具,您将在GoogleIndex部分看到删除URL的选项。

只需点击“创建一个新的删除请求”按钮,并输入您的URL。请注意,您需要输入在您的域之后的页面段塞。例如,如果您想删除一个位于www.yourwebsite.com/news/big另行通知的页面,您可以输入news/big另行通知。

Google使得从索引中删除URL变得很容易。

您可以选择从搜索结果中删除页面并缓存或从缓存中删除页面。还有一个选项可以删除一个完整的目录。这可以用来从搜索结果中完全删除网站.

确认你想从Google的索引中删除什么。

然后,Google将显示一条消息,声明页面或目录已被添加以供删除。借此机会,再次检查您提交的URL是否正确。

谷歌的URL删除工具是快速和高效的。

从Bing中删除URL甚至更容易。在他们的范围内必应网站管理员工具服务是必应内容删除工具.

要从Bing的索引中删除页面,只需输入页面URL即可。然后选择是否要从索引中删除该页,还是删除该页的过时缓存版本。

必应的URL删除工具是快速和容易使用。

一旦您提交了URL,您将看到您提交要删除的页面的历史记录。


Bing显示了删除请求的历史记录。


不幸的是,Google和Bing都没有提供上传CSV文件列表的选项,您希望从索引中删除这些文件。因此,您需要一个地提交请求。

最后思想

不幸的是,所有的搜索引擎都不是很好。这取决于搜索引擎是否满足您的请求,而不是索引页面。最受欢迎的搜索引擎确实遵循网站所有者制定的规则;而糟糕的搜索引擎和来自黑客和垃圾邮件发送者的讨厌的软件则倾向于随心所欲。





二维码