第五节:体系化的SEO框架

作者:ZERO培训SEO教程

出处:古老计算机 第五节:体系化的SEO框架

  建议参加者:

  所有培训参加者。

  课程内容简介:

  通过介绍体系化的SEO,将SEO应该学习、应该做的事情整理清楚。

  课后:

  将自己现在手中的SEO项目重新梳理。

  上半节

  SEO流量 = 搜索量 * 收录量 * 排名 *
点击率

  用户先拿一个关键词进行搜索,这时如果一个网页被收录了,它就有机会去获得排名。它排名好的话,用户就可能会点击它,最终成为网站的一个访客。

  各个因素之间,近似于乘的关系。也即是比如一个网站收录再好,网页质量太差而排名差的话,SEO流量不会高。反之亦然,一个网站上如果一个个页面都是精心做的排名很高,但总共只有几个页面收录很差,SEO流量也不会高。

  之所以这里的公式以乘法为主,并不是指的可以通过该公式来确切的计算SEO流量,而代表的主要是几个因素之间的相互关系。四个影响SEO流量的因素中,哪怕一点做得很差,整体表现就会很差。

  乘法之说的依据,也可以见Google黑板报《数学之美》的:如何确定网页和查询的相关性(主要见最后一节)

  搜索量 = 行业搜索量 *
网站覆盖比例

  对于很多类型的网站,行业搜索量的波动,是引起网站流量异常的最常见因素。在流量异常分析的时候,需要结合每年的同比数据。

  收录量 = 抓取量 * 页面质量

  抓取量的上限有多种可能性。抓取数量上限、抓取时间上限、页面数量上限等,应对不同的处理方法。比如抓取时间成为瓶颈时,就优化网页的加载速度。

  排名 = 查询无关权重 * 查询相关权重 *
用户行为权重

  查询无关权重,指的是页面自身和搜索的词没关系的权重(且排除掉用户行为权重)。比如文章页面上有一张图片,搜索引擎认为图文并茂的文章往往更具用户体验,给这个页面加权;也比如一个其它的网站给这个页面一条链接,这个页面的PageRank提升,也属于查询无关权重。

  查询相关权重,比如一个查询词在页面内完整的出现过一次,搜索引擎认为该页面与这个查询词相关,给这个页面针对这个词加权。

  用户行为权重,比如用户通过搜索引擎大量的访问一个页面,且搜索引擎发现该网页跳出率等数据指标表现良好,给这个页面加权;又如一个网页在某个词的点击率较高,给这个页面针对这个词加权。

 

  下半节

  书写方案的步骤

  整理现有页面,哪些页面是重要的,哪些页面是次要的。

  拿重点页面为主,以公式展开寻找一个个可操作的点,并罗列写下来。

  最后按照改起来的顺序,整理前面一个个的点,落实成最终方案。

  搜索量

  让网站可以覆盖更多搜索量,这一点在很多情况下,比起和别人竞争排名更有效。

  由于目前大多数SEO还都处于初级阶段,只知道用百度指数拓展词,所以有大量指数都没有的词被人忽视了。而因为长尾效应,这块才是流量空间真正大的地方。

  针对性的做法可以有很多种,一种最简单的是修改现有页面。比如之前的title是“网球场”,将它改成“网球场/网球馆”,就可以覆盖到更多的搜索量。尤其对于大型网站,有很多模版硬生生去生成的页面,很多title不合理,完全无法获取SEO流量。这一点有很大的操作空间。

  写文章来做那些关键词的排名也是一种方法,它实现成本很低,大家基本都能做到(如果实在没有修改网站现有页面的权限,可以在域名下再开一个目录,放个WordPress之类的程序来更新文章)。

  一些词在条件允许的情况下可以批量做。

SEO实践(1):开展SEO前的数据准备

作者:Zero

来源:方法SEO顾问SEO实践(1):开展SEO前的数据准备

时间:2014-06-26 18:39 星期四

当我们开始开展一项SEO工作时,第一件要做的事情是要保证我们做的任何事情都可以有数据的支撑——而不是自己的直觉。SEO的主要数据来源来自两块:网站的服务器日志、第三方流量分析工具。

网站服务器日志

Apache,Nginx等常用服务器的内置日志配置格式Combine已经可以满足大多数SEO分析需求。它看上去类似是这样的:

111.111.111.111 – – “[20/Feb/2012:18:09:25 +0800]””GET / HTTP/1.1″ 200 3121″http://***.org/” “Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”

必须记录的信息诸如:访问来源IP、访问时间、访问页面、HTTP响应状态码、访问来源及客户端标识等,这些在Combine日志格式里面都有。

在确保服务器日志可以满足其他部门的分析需求下,至少要确保上面提到的几项被记录在服务器日志里面。但也不要将任何可以记录的数据都记录下来,只选择实际需要的部分,不然会使得网站日志体积非常大,不利于分析起来的效率。这些内容可能需要和运维进行沟通解决。

然后关于日志的分析,我认为没太多固定的准备工作可做,因为它的数据来源是原始的(raw似乎听上去会更有感觉?),所以可选择的数据维度几乎是无限的。因此尤其要按实际需求进行相应的处理与分析。

对于一些要求并不是特别高的日志分析需求,可以尝试使用光年日志分析系统。虽然我个人对所有图形界面的实用类程序都不带好感,但它提供了一些很不错的数据维度的思路。

听说有一家大型的旅游网站是采用MongoDB结合Map/Reduce进行日志分析的,我个人也用过MongoDB实现过前面提到的光年日志分析的一部分重要功能。所以感觉MongoDB是个可以考虑的选择。

第三方流量分析工具

Google Analytics的安装

对于免费流量分析工具,Google Analytics绝对是其中的佼佼者(以下简称GA)。不过如果网站的月浏览量大于500W的话,只有Google Adwords的用户,才能继续免费使用GA进行流量的记录与分析。下面都以它为例。

在GA添加需要追踪流量的网站以后,它会提示你添加一段JavaScript代码,到每一个你需要追踪页面的</head>标记之前。代码的添加可能是一件很轻松的工作,但也可能非常麻烦,主要取决于网站的模板层。

先提下常见开源博客程序WordPress的方法,它采用了包含的模板处理方式,比如网站首页、列表页、文章页等自身的模板,都是只有当中一部分的。而包含网页LOGO等的网页头部,都使用WordPress的get_header方法来加载另一个独立的模板文件(get_header方法本质上是PHP里面的include函数)。简言之,只要在header.php那个文件上面添加代码,包含它的所有网页都会跟着改,很快就可以把GA代码添加好。

但情况并不总是理想的,尤其对于使用网站框架自己进行开发的网站,有时并没有将包含这样的方式很好的运用。这可能是网站的建设规范不完善的关系,也可能是网站需求导致了确实无法使用和WordPress类似的包含方式。那么,至少要在每个网页的头部,额外包含一小段加载全局JavaScript的区块,以方便的添加全局性的JavaScript代码。

虽然未必在添加GA代码时,对可能糟糕的网站模板结构去进行更改,最多到几十个不同的模板文件里面去分别加下代码就是了(当然也要花些时间去保证没有漏过哪些页面)。但一次性搞定一些本质性的问题会带来很多日后的便利性——比如又要换一套统计代码。

相对最麻烦的事情或许是如何说服程序员为了一些看似小的需求而修改模板结构,这边就略过了。

一些基础的Google Analytics设置

对于SEO而言,一项最基础的设置,就是要把网站上对SEO有价值的页面进行归类。对页面进行区分,并以此掌握了它们的流量现状及趋势以后,才能把握SEO的侧重点,及更好的分析网站上每次SEO修改的成效等等。

如最简单的例子,对于一个网站,如果手头有1000条外链,应该给网站的栏目页还是产品页?这主要取决于哪类页面有更高的转化率与更大的SEO流量提升空间。

对于每个网站而言,都存在不同的情况。比如一个书籍类的电商网站,它列表页不会有太多流量,没多少人搜索什么“计算机书籍”,但会更多人搜索《乔布什自传》之类,因为用户有很明确的需求。而对于一个服饰电商,相应更多人会搜索“衬衫”之类,而非“2012年春季新款白色衬衫”等,因为用户只是想到网站上挑衣服,他们只有需求的意向,但具体需求是模糊的。

以上两个是比较典型的例子,但有更多情况我们无法用自己的直觉做出准确的判断,那就需要用流量数据来收集事实。

尽管博客的流量数据分析起来没太大价值,出色的文章是博客的一切,但这里还是以SEMWATCH为例来简单介绍下方法。假设我们需要把网站的栏目页和文章页流量进行区分,它们的URL分别是类似这样的:/category/seo/,/2012/02/post/

首先要到GA的数据页面内,找到高级细分一项,点击右侧新自定义细分。然后进行类似下图的设置:

SEO实践(1):开展SEO前的数据准备

通常情况下,将页面的URL匹配相应的正则以后,就可以把它们区分开来。注意,如果网站的初期URL规划不完善,可能会导致无法用URL来区分页面类型的非常非常糟糕的情况,务必保证每一类页面拥有其独立的URL标识。

在该例中,SEMWATCH的栏目页匹配正则表达式是:^/category/.*?/$,文章页是:^/2[0-9]{3}/[0-9]{2}/.*?/$

尽量用最严格的正则表达式写法,这样可能可以在无形中规避很多不必要的错乱。还需要注意的是,老版本的GA默认情况下筛选器的“包含”即使用正则表达式,新版GA一定要选择“匹配正则表达式”这项。

关于正则表达式,篇幅所限不可能进行解释,如果你不懂的话,可以考虑去寻找程序员求助。但我的个人建议是尽可能的要自己掌握它,这是一个比较基础的技术要求,SEO不应该被它所难倒。正则表达式虽然看上去很恶心——至少我从来看不懂自己写出来的正则,但其实挺容易学的。

总之通过上面的步骤,我们就简单的把页面类型区分开来了。回到最初的例子,如果有1000外链给SEMWATCH随便分配,现在应该把外链给予哪些页面呢?可以发现的是栏目页几乎没流量、而文章页天生流量就很高。多数情况下这证明了文章页具有更大的流量发展空间,此时把外链分配给文章页就是最明智的做法。(但也不能武断的说,不能排除栏目页的SEO有巨大问题的可能性,这问题一点都不罕见。所以还要结合我们的常识及其他方面的分析来综合判断。)

最后的总结

实际可能要面临的问题还有很多很多,当然不可能是一篇文章所能涵盖的。前面提到的只是两个主要数据,实际SEO过程中,还或许需要用到的数据如网站级的Google Webmaster Tool,估算流量的爱站、SEMRush、Google Adplanner、HitWise,关键词的Google Keyword Tool、百度司南,链接类的MajesticSEO、Ahrefs等等。

最近我在看《麦肯锡方法》,提到:“以事实为基础,严格的结构化,以假设为导向”,类似的稍总结下SEO的话:“以数据为基础,严格的逻辑化,以效果为目标、技术为手段”。本文是为了作为根基的数据垫下基础而已,它本身是没任何价值的——光看数据的话,它只不过是死板的数字罢了。

如何借由数据的辅助,在最需要的地方进行SEO的更改,使得流量获得大的突破并给网站产生价值,这是我们要真正关注的部分,之后再慢慢分解。

作者:Zero  来源:SEMWATCH

转载请注明:方法SEO顾问 » SEO实践(1):开展SEO前的数据准备

双十一的套利机会

作者:caoz的梦呓 出处:caoz的梦呓微信公众号

双11来了,想起南洋理工大学创业孵化中心主任跟我说的一个故事,她回国内老家,很偏远的一个县城看长辈,说家里电视太旧了,换个新的吧,长辈说不要换,等双11再换(caoz的梦呓11章)。她就很震惊,原来一个偏远县城的老人,都能知道双11,这品牌渗透度,让久居新加坡的人感觉到了中国互联网发展的不可思议。

朋友圈各种关于双11的文章和帖子,有电商平台狂发宣传的,(不好意思,有个利益相关的我也转发了),有对双11技术架构讨论的,也有对双11表示不屑的,当然还有各种借双11题材做段子手的,不过今天我说个额外的视角,就是,双11究竟有没有套利机会,是不是可以存在套利空间?

美国做代购的有些人就最喜欢黑色星期五,趁机屯一批名牌货,以后慢慢卖出去,利润率超好。 那么双11,有些正品货折扣率极高(不一定是淘宝哦,我知道有赞也在天天推一些低于淘宝价的特价品牌商品),是不是存在套利机会呢? 除了商品外,还有酒店订房,很多人抓酒店集团促销机会大量订房日后慢慢转卖出去,(有人说了,卖不掉怎么办,其实吧,有些酒店集团,注意是有些,到酒店预定当天或前一两天卖不掉的都可以无责任退房的,除了资金占压成本,没有其他成本,而且,如果你拿到的是热门旅游城市非偏远的节假日房源,卖不掉的概率实在。。。 比如,厦门明年五一? 这个真不能多说了。 纽约世纪广场旁边的某酒店的圣诞期间房源是一些积分换房贩子的最爱,提前一年多就被订走,获利率超过200%我会乱说?)

有人双11剁手

有人双11炒段子

有人双11冷眼旁观

有人双11学技术

还有人双11玩套利

嗯,视角不同,目标不同。

不过友情提醒,玩套利需要对很多方面的风险考虑清楚,包括产品日常的真实价格,转让的可操作性,以及中间您所需要付出的各种成本,包括时间成本,物流成本和资金占用成本,等等,如果您不是闲的无聊而且精于算计,建议就别费这功夫了。本文作者不承担您的投资风险。


最后,利益相关,插播一条广告

如果您住在新加坡,想享受双11特价,并且不想承担太多物流成本,1030am.com 提供了免费代购的服务,新加坡的同学可以记住网址 www.1030am.com 。 如果您在新加坡有自己的店面做一些小生意,也许这就是一次不错的进货机会。

caoz的梦呓微信
扫一扫进入caoz的梦呓微信号

奇葩商业运营案例精选(1)

作者:caoz的梦呓 出处:caoz的梦呓微信公众号

以前说好的,不砸人饭碗,很多东西都不太敢讲(caoz的梦呓1章)。

不过有些商业运营方式,实在让人不齿,今天豁出去了,爆一些出来。

对于行家而言,可能这些也见怪不怪,您就忽略就好了,有些人对这个领域不了解的,还是可以看看,特别是一些从事投资领域的朋友,有些东西了解清楚,可能对项目评估能多个心眼。

  1. 知乎上最近一个热帖,某app被程序员们曝光,有一个神秘进程叫做普罗米休斯,这个软件一旦被安装,就会强制驻留系统内存,除了浪费资源外,还会不断弹出透明窗口,然后请求各个统计平台的接口,然后关闭自己,目的为神不知鬼不觉的创造用户打开产品的数据,这样他们后台就可以给投资人看到非常优秀的日活跃用户和留存率等指标。 有兴趣的可以去知乎搜索这个帖子,有意思的是,当天我在朋友圈看到新浪微博的人爆料,这个事情出来后,这个公司开始用僵尸粉在微博有关话题下刷评论,试图洗白自己,相关行为也被截图。 咳咳,不知道当时投资他们的投资人,目前作何感想。

  2. 淘宝火起来的一个重要原因是信用机制,那么也一直有孜孜不倦的人做刷单的生意,最初是通过所谓虚拟物品刷单,因为不涉及物流,后来这个东西太假了,人家都不信了,就开始高级刷单,这时候就需要物流公司的配合,一些物流公司贪图利益,(信息系统对接,提供虚假发货记录)于是形成了一门新的生意,叫做发空包。 咳咳,居然这样也行。
  3. 淘宝屏蔽了微信(淘宝的人信誓旦旦的说是微信屏蔽了淘宝,这事我不确定)之后,开微店成了一个风口,这事本来是个好事,平台服务商就开始抢用户,抢店主,中国特色,就是免费,其实支付接口肯定是有费率的,但是为了让更多店主快速开店,以及甩开竞争对手,主流平台不约而同都主打免渠道费,那么下面问题就来了,你知道怎么通过这个环节套利么?答案就是,信用卡套现,这玩意,太他妈的好使了,传统做信用卡套现的都是在淘宝买个pos机的,现在直接开微店就好了,0成本0费率。 所以,在看上去火爆的微商平台交易额里,信用卡的套现的比例,咳咳,咳咳。还好,现在大部分投资人都知道这里的水分了,当然,我估计还是有不知道的。
  4. 这个涉及黑产了,涉及黑产的不敢说太多,我胆子还是小,就说个最简单的吧,你突然发现自己网站被ddos了,正彷徨无措,收到一个神秘电话,说他们是信息安全的,专门从事抗ddos服务,听说你们现在情况不好,希望试用一下他们服务,一试用,果然网站就打开了,然后,请你缴纳一年多少多少服务费,你缴还是不缴? 不缴?攻击立即如影随形。 收保护费的开始把自己包装为安全服务公司,结果是真正规规矩矩做安全防护的那些公司,反而不太敢给客户打电话推销服务,为啥呢,你一打电话,人家以为是你干的,真是没地方说理去。
  5. 自动加粉机,自动加好友系统,自动变换地址,搜索周边的人,然后自动发消息,添加好友,自动加群,全部自动化,一天几千个好友轻松松,然后自动拉粉拉关注,说实话,还是有点人工智能的,毕竟机器人也要像真人才能效果更好。没准以后这里出一个能通过图灵测试的,那就牛逼了。所以,粉丝多的大号是不是就值钱呢?
  6. 赌球预测和私彩预测,在很久很久之前,中国搜索引擎上卖的最好的关键词还不是医疗,还不是彩铃彩信,还不是私服的时候,是六合彩!而那些关键词并不是卖六合彩,而是告诉你,他能预测六合彩,然后让你买会员,这事能理解么?信的人特别特别特别特别特别多!当时广东和福建基于香港六合彩的开奖结果设置的私彩数不胜数,地下庄数不胜数,您还别不信,地下庄返奖率高,而且信誉很好,人家抽水15%可以赚的很滋润,没理由信用不好对不对。那么问题来了,人人都想赢,网上就有这种网站说你加入我会员,我给你提示,让你包赢。别说,信的人特别多,这里有一套窍门,以后有机会可以说道说道,今天不展开了。 网上六合彩被政府打击过几轮,但现在,各种赌球预测,各种私彩预测,依然很火,在淘宝里据说也有很多人贩卖这样的秘籍和会员。

今天先想到这些,欢迎各位用户爆料,可以发留言或评论。

一些非常有意思但并非掉节操的项目,就不列在这里了,比如卖比特币矿机的这种生意。

私服这种虽然掉节操,但是感觉不算很奇葩了,也不列了。

听说现在有三种商业模式,to b, to c, to vc.

caoz的梦呓微信
扫一扫进入caoz的梦呓微信号

前端与SEO ①:结构、表现、行为分离

GoGo闯 微信号:流量贩子GoGo闯@流量贩子

W3C标准定义WEB包含三个层:

– 结构层(HTML)

– 表现层(CSS)

– 行为层(Javascript)

提倡“结构、表现、行为,三者分离,互不干涉”的WEB页面。

他们各代表这什么?

– 内容:让访问者浏览的信息

– 结构:使内容具有逻辑性和易用性

– 表现:修饰内容的外在表现使之看起来美观

– 行为:与内容的交互操作

按照W3C标准,编写网页时应先考虑结构,之后再结构的基础上添加样式,最后在加上交互行为。

所以HTML用来保存内容与结构,CSS用来控制整个文档的表现。但在中文页面中,符合这个标准的网页屈指可数。

那这玩意跟搜索引擎有毛线关系呢?先举个栗子:众多网页中常见的一个片段,如下:

0

大部分网页这块都怎么写的?

受DIV+CSS盒子模型的影响,前端拿过来设计图,一般直觉的对网页切成N个块。

比如上图:左边先切一个DIV向左浮动,右边再切一个DIV向右浮动,左浮动的DIV里面加一个图片(IMG),右浮动的DIV里面加一个标题(H)和段落(P),如下:

0-1
源码是这样的(demo1):

0-2

看上去是没有任何问题,但实际上嵌套的层比较多。正文<h>和<p>的路径是:/html/body/div@class=“dome”/div@class=“reght”/p

实际网页,这个片段外面还要嵌套好多层,所以真实路径比这个要长很多。

要进行优化,以减少层级。于是思考,<img>外面根本不需要在加一个div,<img>本身可以通过左浮动再设置外边距到固定的位置,于是将代码改成demo2:

0-3

虽然少了图片的DIV,但到正文的路径依旧没变,于是接着优化,改成demo3:

0-4

至此,到达正文<p>和<h>和<img>的路径都缩短了1层:/html/body/div@class=“dome”/p,已经是最短路径。

0-1

demo1之所以不符合W3C标准,大多是因为编写时是因为优先考虑的不是文档的整体结构,而是先拆成一个一个块,在想办法靠CSS组合到一块。这当然不是W3C提倡的结构样式分离的思想。

所以上个栗子,从demo1到demo3的两次调整,在思想上是从 “先将HTML拆成一块块,在用CSS拼到一起” 到 “先看HTML整体,在用CSS表现成一块块” 的演变

0-5

总结一下,带入搜索引擎。这玩意有什么好处呢?

1、提高页面加载速度

2、降低改版成本。毕竟html减少的同时,对应的css也会减少,自然需要修改的地方也少了。

3、节省带宽。

4、增加搜索引擎对网页的可读性,对主体内容的识别更容易。明明是一个整体的内容,非得分割成一块块,万一搜索引擎没看出来这些是有联系的怎么办。

5、利于多种设备的可读性和可访问性。

一位在海外做google的同学告我,google在排序上是倾向符合W3C标准的网页,对比渣度与google的搜素结果便可看出,但渣度对这个貌似并不感冒,估计国内网页在这点上普遍不如国外,所以也得过且过了。

下面,是惯例的嘲讽时间。

前端与SEO的关系是非常大的、是紧密连接的,没准因为招一个靠谱的前端,然后流量就涨了,然而一些无知SEO觉得是自己之前做的哪些动作莫名其妙的导致流量增长,屁颠屁颠的认为自己非常牛逼。

前端好坏直接影响搜索流量,但有没太多人重视(其实国平老早已经提过了),多数SEO谈到面向搜索引擎的前端优化,想到的都是精简html/css/js(大多是拿第三方工具格式化一下啦再合并一下啦)或者是标记H1、H2等各种标签,然而并没有意识到底层的东西。

站在搜索引擎的角度看网页,看的是html,不是浏览器渲染后的界面。见过一些网页,采用普遍的两列布局,左列占<body>宽度80%,展示主体内容;右列占宽度20%,调用一堆零碎的次要信息,在浏览器上看主体内容到次要内容从左到右,非常正常。但打开HTML,右列次要内容的DIV却放在主体内容DIV的前面,这在搜索引擎看来可就完全不一样了。

以上,乃前端与SEO关系中的冰山一角。

不转不更新,不关注不更新,不点赞不更新。


微信公众号:流量贩子


扫描上图“识别图中二维码”以快速关注

第六节:Python程序语言基础

作者:ZERO培训SEO教程

出处:古老计算机 第六节:Python程序语言基础

 

  从这节开始进入约3~4个课时的Python教程,之后会继续SEO课程。

  建议参加者:

  完全没有程序基础的培训参加者。

  课程内容简介:

  介绍Python的最基础知识,包括判断、循环、函数、文件操作等。

  课后:

  尝试写出最后附上的测试题。

  上半节

  1. 输出Hello World!

Python |

copy code |
?

 

1

print 'Hello World!'


如果在Python代码里面出现了中文字符,需要在第一行指定编码为utf-8,一个好的习惯是总是在第一行指定编码。如:

 

Python |

copy code |
?

1

# coding:utf-8

2

print 'Hello SEO前线!'

2. 变量的操作

Python |

copy code |
?

1

a = 1

2

b = 2

3

print a + b

运行后输出是:3

给a变量赋值为1,b变量赋值为2。因为两者是数字,输出a+b时输出的是它们的和。

Python |

copy code |
?

1

a = 'abc'

2

b = 'def'

3

print a + b

运行后输出是:abcdef

给a变量赋值为abc,b变量赋值为def。因为两者是字符串,输出a+b时输出的是它们拼接后的结果。

3. 判断

Python |

copy code |
?

1

# coding:utf-8

2

a = 20

3

if a>10:

4

print 'a大于10'

5

else:

6

print 'a小于等于10'

输出:a大于10

Python |

copy code |
?

01

# coding:utf-8

02

a = 10

03

if a==12:

04

print 'a等于12'

05

elif a==11:

06

print 'a等于11'

07

elif a==10:

08

print 'a等于10'

09

elif a==9:

10

print 'a等于9'

输出:a等于10

4.循环

Python |

copy code |
?

1

for i in range(5):

2

print i

输出:

0
1
2
3
4

(程序计数字都是从0开始)

Python |

copy code |
?

1

for i in [1, 3, 5]:

2

print i

输出:

1
3
5

5.函数

Python |

copy code |
?

1

def sum(a, b):

2

return a + b

3

print sum(10, 20)

输出:30

Python |

copy code |
?

1

def sum(a, b):

2

return a + b

3

print sum(sum(10, 20), 30)

输出:60

下半节

1.列表操作

Python |

copy code |
?

1

l = []

2

l.append(1)

3

l.append(3)

4

l.append(5)

5

print l

6

print l[0]

7

print l[1:3]

输出:

[1, 3, 5]

1

[3, 5]

2.字典操作

Python |

copy code |
?

1

d = {

2

'a': 1,

3

'b': 2,

4

'c': 3,

5

}

6

print d['b']

7

输出:2

3.文件操作

Python |

copy code |
?

1

for line in open('temp.txt'):

2

print 'now: ' + line.rstrip()

3

temp.txt文件内容:

line1

line2

输出:

now: line1

now: line2

Python |

copy code |
?

1

f = open('temp.txt', 'w')

2

f.write('line1\r\n')

3

f.write('line2\r\n')

4

f.close()

5

运行后temp.txt文件内容:

line1

line2

4.下载网页

Python |

copy code |
?

1

import urllib2

2

print urllib2.urlopen('http://g.cn/').read()

3

输出:(http://g.cn/的网页源代码)

实例:

读取网站日志文件,统计爬虫抓取数量。文件地址:http://www.seoqianxian.com/course/131014.log

Python |

copy code |
?

01

# coding:utf-8

02

baidu = 0

03

_360 = 0

04

google = 0

05

06

for line in open('131014.log'):

07

if 'Baiduspider' in line:

08

baidu += 1

09

elif '360Spider' in line:

10

_360 += 1

11

elif 'Googlebot' in line:

12

google += 1

13

14

print '''##爬虫抓取次数##

15

16

百度:\t%d

17

360:\t%d

18

Google:\t%d''' % (baidu, _360, google)

输出:
##爬虫抓取次数##

百度: 170
360: 135
Google: 353

课后习题:

抽取出刚才那份日志里面百度来源的SEO流量,并找到来源数最多的那个关键词,计算出来访次数。(来源关键词区分大小写)

SEO实践(2):让网站对搜索引擎友好

作者:Zero

来源:方法SEO顾问SEO实践(2):让网站对搜索引擎友好

时间:2014-06-26 18:51 星期四

在该系列文章的第一篇中,提到SEO应该是以数据为基础的,并略为展开写了一些数据方面的准备工作。数据虽然是非常重要的,但它扮演的角色只能是辅助:发现问题、总结改进、作为决策的参考因素等,但都无法脱离既有的SEO方法而独立存在。

而SEO的方法,应该分为两种或四种:使网站对搜索引擎友好、使网站对搜索引擎的用户友好。如果再考虑黑帽SEO手段的话,可以额外加上两项:使搜索引擎误以为网站对搜索引擎友好、使搜索引擎误以为网站对搜索引擎的用户友好。稍有经验的SEO,都可以总结下,看是否有任何SEO方法可以脱离这四点的范畴之外。至少我从没看到。

当然黑帽不在这系列文章的讨论范畴之内,所以就以两篇文章来分别简述如何对搜索引擎及其用户友好。

本文的主题是如何让网站对搜索引擎友好,这是一个非常大的话题,文章经过几次删改,最终还是决定只举一例。毕竟搜索引擎的技术涉及面实在太广,相应需要的网站技术也很多,一篇文章无论如何也最多提及冰山一角,那不如只找个比较有代表性的例子,剩下的大家自行扩展。

如何使搜索引擎能够更准确的理解网页?

搜索引擎无论如何只是程序,不可能非常完美判断互联网上那么多不同网页的不同情况。

搜索引擎对网页分析中的主要过程之一,是将网页分成一个个明确的功能区块。如正文区块、相关链接区块、联系电话区块、无关广告区块等等。而它判断的方式诸如:看字数多少、看HTML代码的形式、将文字内容以自然语言处理来理解等等。

分块化

一般在HTML代码里,最好以<div>标签来标明网页上的每一个重要区块,且每个重要的<div>里面又有一个<h2>或<h3>标签明确指明该区块的主题。这样的做法可以让页面上每一块内容所表达的更清晰。尤其对于搜索引擎而言,它可以通过这样的<div>来明确它如何去给网页分块,并通过小标题去了解这分块属于什么样的性质,从而判断应该如何计算处理。

一个最典型的实例是Amazon的产品信息页面:

SEO实践(2):让网站对搜索引擎友好

可以看到上图中被明确归为了三块,且清晰指出了它们分别是关联购买、技术细节与商品细节。相比之下,不少电商网站最上方是产品图片与价格,然后第二块区块开始,就把产品参数、产品描述及大量未必有用的产品图片依次堆在一起,无疑就差得多了。(上图中Product Details一块多数内容都是自动生成,而同时对用户和SEO有价值的内容,这块是被多数电商网站所忽略的。)

Amazon产品页的SEO,在电商领域是最顶尖的,远远强出eBay等网站。分块化便是其中主要原因之一。

语义化

这里语义化指的是用户所不可见的HTML代码也要具有含义,尽管这对于用户没有意义,但能让搜索引擎等程序更容易理解。(当然也方便代码维护,这是技术层面的事情了)

微数据、微格式等是已经日渐被重视起来的概念,它无疑可以很明确的标识网页上面元素的含义。这里不详细展开,可见:http://support.google.com/webmasters/bin/answer.py?hl=zh-Hans&answer=99170(微数据更重要的意义可能在于提升网页在SERP里面的点击率。对于电商网站,仅以此提升几倍SEO流量完全不是不可能的)。但微数据等方式总有一定的局限性,例如它不能指定大区块的含义,比如告诉搜索引擎,网页上哪里是头部、哪里是底部等。HTML5规范很好的解决了这个问题,它推荐使用的<header><footer>等标签可以非常好的展示网页区块。

不过很多网站目前基于很多原因还不会选用HTML5(但站在SEO的角度,应该尽力去推动下),所以不可以用<header>等标签,还是需要用<div>。在这样的情况下,需要注意<div>的ID命名。例如对于搜索引擎而言,<div id=”header”>要比<div id=”toubu”>容易理解得多。而且,一般来说可以用ID的地方不应该用CLASS,如不少设计人员喜欢不管三七二十一写<div class=”header”>。但W3C规范明确指出过,具有唯一性的元素应该使用ID而非CLASS。对于搜索引擎而言,具有唯一性的元素是可以确定其出现位置的,它就更容易确定那个区块到底在网页上起到什么样的角色。

举个实例如,以前公司里面有一个PPC的着陆页,明明网页上出现过相关的关键词,但那些词的质量分依然极低。分析后发现那些关键词都是被写在<div class=”footer”>区块的,这些文字就因此被当作页面底部的和主题无关的内容,使得搜索引擎错误的分析了网页,对质量分造成了负面的影响。

通俗化

通俗化在这里指的是不要在网页上用一些难以理解的指示性文字,比如在搜索框旁边使用“找找看”,而非常见的“搜索”。这会给用户带去一定程度的困扰,也会给搜索引擎带去更大的困扰。

搜索引擎会通过自然语言处理等方式来理解这样的文字。大致的思路如先随机抽取1000个网页样本,先人工找出网页上面的搜索区块,再通过机器分析这些区块一般出现什么样的字眼最多。那么相应的在分析日后其它网页的时候,出现这样字眼的区块也就更可能是搜索区块。

前面提到<div>命名的时候也差不多,<div id=”header”><div id=”head”>等,因为都是比较常见的,搜索引擎肯定可以因此判断它为头部区块。而<div id=”toubu”>或更糟糕的(但不罕见的)<div id=”h_1″>等,搜索引擎就迷茫了。最终可能搜索引擎分析出来的结果不是自己想要的。

最后

前面以辅助搜索引擎理解网页为例,简单介绍了让网站对搜索引擎友好的思路。但搜索引擎不仅只是分析网页、就以分析网页而言,也远远不止上面这点内容。只能当作是思路的拓展。

如果可以的话,自己从服务器环境架设开始,从配置数据库、从框架构建程序、书写前端CSS与JavaScript等代码、尝试下Ajax、最好还自己搞定站内搜索,这样完完整整的做一个网站(在虚拟空间上用WordPress选一个模板就算搭建完的明显不算),就会发现不仅对于网页设计,在网站的各个角落都有SEO可以优化的空间。也只有自己实际做过,才能知道如何给具体技术人员写切实可行的文档。

关于前面提及的一些搜索引擎方面的知识,我在看过几本搜索引擎书后,相对而言入门级搜索引擎原理还是比较推荐《走进搜索引擎》一书。虽然从技术角度它没有什么独特的观念,但以较通俗易懂的方式很好的总结了基础的知识,对SEO而言还是很不错的。

另外,实际操作中总会碰上比理论中多得多的问题。比如前面的分块化的实现,对于一个小型B2C而言,或许SEO想到网页上面加一个产品参数区块时,会被告知:产品参数还没有录入过呢!

这样的尴尬事情总是存在,只能折中处理。比如在原先没有录入产品参数的情况下,可以先找网站某一个比较重要的商品分类去录入,并进行分块化的处理。过一段时间以数据来证明其SEO效果,以此推动其它部门进行更大规模的动作。

上面提到的数据,自然是要把该商品分类下的产品页额外筛选出来看的。有没有想起该系列文章前一篇提到的数据准备工作?此时就可以用上早已准备好的数据了。

文章作者:Zero  文章来源:semwatch

转载请注明:方法SEO顾问 » SEO实践(2):让网站对搜索引擎友好

从校园到职场 你的目标是什么

作者:caoz的梦呓 出处:caoz的梦呓微信公众号

最近知乎连续有小鲜肉给我发私信,咨询一些offer的选择问题(caoz的梦呓章)。

好吧,其实我挺羡慕他们的,因为他们手里都有好几个互联网大公司的offer,而我毕业的时候,就没有听说哪里有互联网公司,这也就算了,被当时还年轻的华为,中兴都是秒拒,想去个软件公司都难,几经周折说尽好话才混进一个名额已满本来不打算要我的通讯外包公司,总算是混入IT圈了。

那个,回到主题,这些孩子在提offer的时候,比较多提及的问题依次是,薪酬和待遇福利;离家远近;公司前景; 然后在这里纠结不已。

我又要说前几天文章里提到的,建议这些孩子去读一下 百度百科的词条 俞军,读一下当年他的求职简历,然后想想,你应该怎么考虑你的职场。

自己对自己的未来是怎么考虑的,自己的兴趣和目标是什么,自己对自己的价值判断是什么,这些不去想清楚,把自己的未来寄托在别人身上,而不是自己的能力和价值提升上。 这样去找工作,不要咨询我,直接去问挂摊,没准比我准呢。

进入职场,最重要的是找到自己的目标和价值体现的场景,如果在校园里有充分的实习,对行业和社会有充分的了解,也许能尽早做好这方面的判断,但如果说学校里很单纯,不是很了解,那么选择工作的时候,也要问问自己究竟想做什么,想学什么,未来想成为什么样的人? 而第一份工资高一点低一点,相信我,十年后去看,根本就不算个事。

现在有一种特别坏的风气,你说年轻要努力,回复说老板反正看不见;你说做人要担当,回复说公司里乌烟瘴气谁担当谁倒霉;他们的潜台词就是,反正环境就这样,个人怎样不重要。 从个案来说,从一份工,一件事来说,确实存在各种不公平,反例随便一抓一把,但你的职场是长跑,你现在要做的是让自己变得更强,更好,是为了让机会出现时,你比别人更容易把握,而你自己对现状的妥协,说到底是丢掉的是未来更好的机会。

有一种人,把自己的未来寄托在自己身上,不断修炼自己,挑战新高,然后尽可能把握机会,体现价值。

有一种人,把自己的未来寄托在别人身上,天天埋怨社会不公,领导无能,怀才不遇,然后对那些打拼奋斗的冷嘲热讽。

你要做哪种?

那么,如何认识自己,找到自己的兴趣爱好呢?

我说年轻人的两个误区

有一种爱好,叫跟风

听说大数据火,数据分析火,各个都说自己喜欢大数据,喜欢数据分析,但是其实一大半并不是真的喜欢数据,而是觉得这玩意是风头,真心真意的问自己一句,如果这个行业很苦很冷很没钱赚,你还会喜欢么。如果还会喜欢,才是真喜欢。

有一种爱好,叫逃避

学霸中枪的会比较多,因为自己在专业上成绩很好,习惯于做领域内最优秀的存在,怕别人嘲笑自己不懂,怕输给其他人,对新领域,不擅长的东西存在本能的拒绝,然后麻醉自己,认为自己就是只喜欢本专业的东西。 这时候要真心的问自己另一个问题,如果有一种技术能让你一秒钟熟练掌握一门技能或知识,你会选择哪个? 还是当前本专业的话,那才是真的喜欢。

旧文链接 从校园到职场 – 不要躲在舒适区

一些年轻人在跟风,一些年轻人在逃避,还有一些人为了待遇福利什么公司前景而斤斤计较。

对于面霸,选择offer的综合建议如下

在获得的offer里

1、选择自己最喜欢,最愿意投入和钻研的行业和领域。

2、在这个领域里,技术最领先,学习氛围最好的公司。

3、如果无法判断2,那么市场增速最快的,或者市场份额最大的。

4、如果想深入了解这个领域,尽可能去核心业务的部门。(记住,名字特别高大上的往往不是核心业务部门,核心业务部门名字往往挺平庸的,当然,这一条不绝对)。 如果自己的目标兴趣比较特殊,当然可以选择符合自己目标的部门。

另外几个建议

1、大部分公司,除了个别奇葩公司外,大部分公司对内部人才流动都是支持的,当然前提是你在内部能获得对应部门的认可,所以,如果你特别想进某个公司而部门不是你喜欢的,其实并非不可接受,进去后先做好本职工作留下良好印象分,然后努力了解内部部门结构,多做跨部门沟通,遇到合适的机会是可以转岗的。 但请注意,如果不做好本职工作,没有良好印象分,后面谈什么都没用。

2、拿到和确定offer并不代表什么,有可能三个月试用就被干掉,对于某些公司而言,这个比例颇为不低,有可能你也会遇到奇葩的领导和恶心的同事,一切可能都存在,你需要记住的是,不管遇到什么情况,遇到什么问题,努力提高自己是关键。你的竞争力和未来,不依赖于你所效力的公司,而依赖于你自己。 切记切记。


caoz的梦呓微信
扫一扫进入caoz的梦呓微信号

caoz谈能力成长 – 取舍之道

作者:caoz的梦呓 出处:caoz的梦呓微信公众号

俞军老师说过特经典的一句话,优秀的产品经理,要学会做减法(caoz的梦呓章)。

我们设计产品的时候,创业者,说真的,点子都很多,把设计,计划书拿出来一看,我产品这样这样,然后这样这样,以后还可以拓展为这样这样,聊天的时候突然灵光一现,对啊,我还可以把这个加上去。等等等等。

那,下面是个对比范例

用户真的需要这么多么?

很多时候,我们被自己创造的各种伪需求所麻醉,大家谈东西的时候往往流于自己的才能展示而忽略了事务的本质,比如说,公众号起名这个事情,很多人都有各种奇思妙想而忘记了最基本的诉求,容易识别和容易传播,所以很多特别有想法的名字其实识别度非常低,特别是一些认为用了谐音很有才华的那种名字,最不容易被人传播,因为大部分用户基于第一感都会输入错误。 这就是创业者以及很多工作者最容易犯的错误,想太多,而忽视了最基本的东西。

那么,做产品设计的时候,我们要不断问自己一些问题。

用户的核心诉求是什么,这个功能点设计是否满足用户的核心诉求?

如果没有这个功能会怎样,用户还会不会使用这个产品?

想明白这俩问题,可能80%的功能都是没必要的,当然你说锦上添花好不好,请别一上来就搞,时间成本是最大的成本,相信我,很多你以为精妙的设计可能毫无意义。

谈完产品谈用户

前几天说了,你做一个新项目,一个创业公司,你要知道一点,不可能讨好所有用户,苹果公司够大吧,人家都压根没打算讨好所有人,对不起,我就不出998人民币的特价款,买不起的选安卓去吧。 所以,即便有些需求是用户定义的,有些痛点是用户提出的,你也要甄别一下,这是不是你核心目标用户的需求,这是不是你核心目标用户的痛点。 有时候,你甚至要为了让某些用户更满意,而伤害另一批用户,这个决定你敢不敢做!有没有价值!

我的观点是,如果为了发展更多的用户而伤害核心用户,是得不偿失的,很多公司犯过这样的错误;而为了核心用户去伤害一些其他用户,很多时候是正确的,你不能指望面面俱到,让每个人都满意。

举个例子,有人跟我说要做高端社交平台,想法是通过一些社交平台让普通人也能参加高端社交场合,这需求听上去很不错啊,普通人也想去高端场所,参与高端活动啊,找一些资源以廉价的方式提供给普通人的一些参与方案。但我一听就玩意就不行,啥叫高端社交,你搞这个你认识门卫保安或者举办方,你几个人私下靠关系凑进去了也就算了,你想规模化商业化,你开毛玩笑,这玩意一旦规模起来高端社交肯定变味,高端用户一定会极大反感,最后一定是高端用户见你就躲,高端活动唯恐跟你发生关系,你剩下一批普通用户自娱自乐么?你以为取悦了更多人,高端社交强调的是什么,私密性!准入门槛!

理解核心用户的诉求,理解核心产品诉求,再来理解项目管理。

说个小公司,项目快启动的一种思考方式。

我跟员工说,能不能启动个啥项目,员工说,这个,需要做什么什么,什么什么,什么什么,工作量蛮大的,算算大概6个月吧。我说3个月我要它上线,别跟我说工作量多大,按照3个月上线给我做排期,也不难为你,你说的那些,不一定都要做,你自己研究一下,非核心的都扔后面去,做到哪些最基本的就能上线了。然后我们拉出来测试调整。后来员工一直给不出3个月的排期,好吧,我自己也有些无能,这个项目就不了了之了。但我说句心里话,要是搁十年前,这事我一个人,最多两个月就上线了。(2005年,cnzz第一个版本的所有核心代码,其实就我一个人写了两周你们信不信。当然,那啥,写的时候有一些早期积累。不过所谓的早期积累也是不到一个月的工作量。当然,那时候的版本和现在相比,其实功能挺单薄的。)

什么思路呢,就是你先排工期,基于工期去优化产品设计,决定取舍,不追求说第一个版本的完美度,但是追求效率,并且保证核心功能在第一个版本都能充分体现,线上再根据反馈快速迭代。 大部分公司的研发都是先定需求后定工期,如果你先定工期后定需求,你会发现,其实很多东西并不是非做不可的。

这个思路历史上是来自日本的精益生产,在80年代的时候,made in japan以廉价质优产品快速打入北美,攻陷欧美市场,那时候日本厂家如何思考的呢,北美和欧洲都是我琢磨一个产品要做什么,然后计算成本,然后按照利润率,计算售价,然后标价出去卖。日本人把这个颠覆掉了,我要打败你,我先计算这个东西我准备卖多少钱,然后计算利润率,回推成本,然后我设计这个产品,我基于这个成本去做,没用的我砍掉,能裁剪的都裁剪,但保留强大的核心功能不能比你差,然后做出来产品,比对手便宜30%-50%,一下子把美国厂商打蒙了。这是成本反推的设计思路,在互联网时代,时间成本是最大的成本,所以,我们要以工期来反推设计,裁剪需求。

下面说技术的取舍之道

因为我做过统计,对这个比较熟,有个朋友当时要做个统计系统,他们员工做了几个月还没搞定,我就过去瞅瞅,一瞅就发现问题了,啥问题呢?为了根本不存在的需求较劲呢。

我们在做技术的时候,有时候产品给出的需求,只是一个使用说明,对于一些边界条件并不明确,而边界条件这玩意,对技术设计的复杂度和开发难度影响极大,极大,极大,极大。

实际上,技术人员应该明白应用场景的边界在哪里,有针对性的取舍,这样技术方案就可以变得简单,研发成本就会极大降低。

案例说话

无论是百度,谷歌,还是阿里,你去搜索的时候,你都不可能靠翻页遍历所有结果,翻到一定页数,就不给翻了,这就是边界条件。如果程序员非要较劲给出所有搜索结果的查询和排序,这就要命了,谷歌都做不到。 而潜台词是,其实真正的用户并不关心也不太会翻到七八十页去找结果。除非搜索结果很少才需要遍历,搜索结果很多的情况下给出权值最高的top列表即可,至于所有满足搜索条件的数字,其实只是一个系统估算值,根本没有去遍历搜索。

再拿统计说事,比如你是一个网站的站长,你要看网站的来源

如果这个来源是你特定的广告载体,你可以标注出来单独统计。

如果不是,你会去关心超过top 200的来源么?真的不会,站长只会关注最前面带给自己流量的网站和网页,不会关心一些奇怪的只有一两个点击的那些奇怪的来源,所以,站长不关心的数据,系统需要保存么?

理解这个思路,很多开发就简单了,至少你技术有限的情况下可以把很多看上去很复杂的项目搞定了。

允许不完美,允许设置一些边界条件,一定范围内降低准确度,存储量,来减少复杂度,这样开发效率就会极大提升,开发成本就会极大下降。

这个现象有多普遍呢?根据我的观察,开发人员做无用功,为不存在的需求而打拼的非常非常普遍,而这可能是很多公司老板,主管都不清楚的隐形成本。

再说典型场景,比如一些排名服务,你排第二,第三,第五,当然名次都很重要,但是你排50251,50252,50255, 这个具体数字对你重要么?告诉你排在50000-51000之间是不是就可以了? 很多技术设计如果稍微变通一下,复杂度就会极大降低。

2004年做一统,2005年做cnzz,我的开发时间都特别短,当然产品问题也不少,但没阻碍它们先后成为中国互联网统计平台的no.1。这事我做过总结,那时候我的技术水平实在不咋样,当然现在也没好太多,能做的快,而且在当时市场上表现力还不错,并不是因为我技术有多好,而是因为懂得取舍。这一点是很多大公司的程序员的盲区,所以他们用了几十倍甚至上百倍的代价,做同样的东西。

简单总结

1,从产品层面,对需求做裁剪,好的产品经理要会做减法,点子多,但落实起来,要围绕核心,初期不要过于复杂,有需要可以上线后根据用户反馈迭代。

2, 从用户层面,不要试图讨好所有人,要明确核心用户群体的诉求,有所取舍,让一部分人惊喜,另一部分人离开,比平庸四处讨巧的产品可能更好。很多优秀的互联网产品,都很固执和执拗,他们潜台词就是,不喜欢我的用户,我其实也不打算服务你们。

3,从技术层面,要理解需求,基于需求和研发的的难点设计边界条件,将需求简化,在满足用户核心诉求的前提下允许一定程度的不完美,允许一定程度的不精确。这样对研发效率的提升和运维成本的下降是惊人的。

一个不懂得取舍的系统,往往里面90%的数据和信息是在需求层面毫无意义的,有机会我会找一些案例出来,这样的真的见过很多。

caoz的梦呓微信
扫一扫进入caoz的梦呓微信号

刷点击那点事:点击一下,你就知道

GoGo闯 微信号:流量贩子GoGo闯@流量贩子

@夜息哥哥喊我在圣诞节更新,我怎敢不从,吓得我赶紧屁颠屁颠的下班回家乖乖码字~~~

说来也怪,最近关于刷点击相关的话题出现在各种群里,恰巧,我之前用python写过一个点击器的Demo,最后一次花了1-2天测试几个排在第二、三页的词,大部分都跑到了第一页,也不知道是点上去的还是自然上去的……但是下拉框确实是刷出来了,之前在百度搜“gogo”的时候,下拉框是出现了我的网名“GoGo闯”的。

虽然没有专门做这个,也没有再深入研究,但当时写点击器的过程还是可以扯一扯。

先说为何要刷点击,先解释下,之所以有刷点击的需求,是因为在搜索引擎中,一个网页的点击率是影响该网页在搜索结果中排序的因素之一,且这个因素相对其他因素更容易控制一些,所以肯定有人希望人为控制这个因素来提高网页在搜索引擎中的排名。

于是当时下载了几个点击软件瞅了瞅,这些软件大多分挂机部分和点击部分。挂机部分把软件下载到本地,然后控制本地浏览器去点击别人指定关键词对应的网页,点击一次给予一定的积分;点击部分就是你设置要别人点击的网页,那些正在挂机的机子就会点击这个词,被点击一次扣除一定的积分。所以想要获得点击,就要有积分,想要有积分就要多多挂机去点别人的词,依此循环。

这些点击均来自不同用户的浏览器触发,看起来都是真实的点击。照此看,只要能控制浏览器并用不同的IP进行符合用户行为规律的点击,就可以实现那些点击软件的功能。

所以用python的selenium来控制本地浏览器,每点击一次,清空cookie、关闭浏览器、切换IP、切换UA,再次点击,且每一个步骤包含多种策略,使之更加符合用户的行为,而不是机器的行为。

ps:selenium是调用本地浏览器,执行的时候浏览器窗口一会开一会关,是没法干别的活的,要像类似后台运行,还需要phantomjs,调用浏览器内核(可以理解为使用浏览器,但不打开浏览器窗口)来访问。但有时,本地浏览器定位指定元素的xpath路径,换了phantomjs是定位不到的,通常本地浏览器换个版本就行了,或者换另一个本地浏览器试下~~

先说IP。要专门搞这个,那肯定要有大量的IP资源,要模拟百度用户点击,首先IP得是全国范围的、在不同的频段,且IP以往在搜索引擎中的行为是正常的。所以搞了几台能支持全国adsl拨号的机子,点一次,断线重连换ip。

再说一下点击行为。提前查了一些词的排名,挑了一些排在第2、3页的网页作为要点击的网页。正常用户的在搜索引擎的浏览行为,是先点击搜索结果第一页的几个网页,没找到满意的,在“下一页”,点击2、3页的结果,找到满意的结果后,关闭网页,退出搜索引擎。

所以,个人觉得,把要刷的网页,作为最后一次点击,搜索引擎可能会认为,这个网页在一定概率上是用户想要的结果,满意了,所以退出搜索引擎,会先提高在结果中的排序,在根据该页面后续的点击频率/最后一次点击,决定是否长时间留在第一页。

所以我把整个程序的点击行为设置为:先找到目标网页的具体位置,在随机点击前面的几个网页,分别停留一段时间,最后在点击目标网页,然后退出搜索引擎。

0

再说下防止搜索引擎识别假点击(以下是我拍脑门的)。在单个点击上,符合大多用的点击行为,也就是上面说的,否则上来直接点击第二页的结果这太假了。在所有点击上,各种用户属性的比例是正常的,这里指用户IP地理位置的比例、浏览器的比例、操作系统的比例、被点击次数与关键词搜索量的比例……

比如移动搜索,假设Android和IOS比例为1:1,而刷的页面全部设置的IOS访问,这就算比例不正常。其他的属性都以此类推。

期间还发现了一个情况,如果是在PC端控制浏览器点击,且刷的是wap页面,那么百度统计记录的屏幕分辨率是PC的分辨率,这个特征是很明显的,但暂时没有找到伪装移动屏幕分辨率的办法。

另外,如果用市面上的点击软件去刷,可能基本没有效果。因为一个软件,刷点击所用的IP总是来自于固定范围的一些用户(既经常使用挂机软件的那些用户),一方面搜索引擎会容易的获取这些用户的IP并加黑,另一方面,很多这种软件出于投入产出比的考虑,取消挂机给积分的措施,而改用充值给积分的方式快速捞钱,所以来自真实用户的IP会越来越少。

也跟一个做点击的人请教过IP获取的问题,但他原来是做IDC的,从来不知道缺IP是一种什么样的体验 -_-!

要是一个企业站,想把某几个有商业价值的词做上去,刷一刷我觉得还是可以的。要是有品牌负面信息压制的需求,想把无负面信息的网页搞上来,刷一刷我觉得还是可以的。但一个上稍有些规模的站在搞这个,个人觉得就有些丢西瓜捡芝麻了,分不清哪个是西瓜,哪个是芝麻的感觉了。好好做内容,好好做结构,才是西瓜~~

最后,当时写点击器纯属出于想折腾一下的目的心血来潮搞了一个粗糙的demo,但对这块业务没任何兴趣,在深入的我也不了解,所以也不用问我什么东西。至于demo的代码,我博客里挂着了(点击“原文链接”),要参考拿走便是。

还是老样子~~~慵懒的我依旧不转载不更新,不关注不更新,不点赞不更新~~~就差不打赏不更新了,其实也不惦记会有打赏,但万一有人瞎了眼呢~~~


微信公众号:流量贩子


扫描上图“识别图中二维码”以快速关注