【转】使用Tornado+Redis维护ADSL拨号服务器代理池

我们尝试维护过一个免费的代理池,但是代理池效果用过就知道了,毕竟里面有大量免费代理,虽然这些代理是可用的,但是既然我们能刷到这个免费代理,别人也能呀,所以就导致这个代理同时被很多人使用来抓取网站,所以当我们兴致勃勃地拿他来抓取某个网站的时候,会发现它还是被网站封禁的状态,所以在某些情况下免费代理池的成功率还是比较低的。 当然我们也可以去购买一些代理,比如几块钱提取几百几千个的代理,然而经过测试后质量也是很一般,也可以去购买专线代理,不过价格也是不菲的。那么目前最稳定而且又保证可用的代理方法就是设

ubuntu 20.04 编译安装 python 3.7.7

ubuntu20.04的默认python版本是3.8.2,但是百度的飞桨需要的版本最高是3.7,于是我们需要新编译一个python3.7的版本。 我们挑选的python3.7的版本是python3.7.7,链接如下: https://www.python.org/downloads/release/python-377/ 我们下载源码文件类型,两种格式Gzipped source tarball或XZ compressed source tarball任意一个均可,下载后上传到命令终端。 预先安

Python matplotlib画图y轴数值不按大小排列问题

matplotlib 画图的时候经常会出现y轴数据不按大小排列的问题,很混乱,这主要是因为数据类型的错误,导致的!大家可以仔细阅读下以下两个案例,就应该有答案了: 案例一: 昨天偶然做一个爬取数据,做成直方图的小练习发现,最后出来的图标Y轴并不是按顺序排列,按照老规矩,百度一下,找到了原因,一个低级的问题 代码为上述,但是出来的结果如图 解决方案: 经过一番查证后发现其实是爬取数据的时候评分字段的数据类型是文本= =因此多加一个int或者float就可以解决对应问题 输出结果 案例二: 这是一个

NGINX Ubuntu 安装优化以及常见问题集锦

一、ubuntu安装nginx 1.更新源 2.安装nginx 3.配置nginx nginx配置文件主要分为六个区域: main 控制子进程的所属用户/用户组、派生子进程数、错误日志位置/级别、pid位置、子进程优先级、进程对应cpu、进程能够打开的文件描述符数目等events 控制nginx处理连接的方式http http服务sever 主机设置location url规则upstream 负载均衡 进入配置文件 配置文件信息如下: 二、nginx常见问题总结 1.ip限制 http 字段加

搜狗总是不收录网站或者只收录首页问题

在一家公司任职,发现网站百度、360、谷歌都已经收录上千了,神马和必应也收录了几百,唯独搜狗最不给面子,一个页面都没有收录。 你可能会说,毕竟搜狗的份额少,能带来的流量不多,重视百度就行了。但对于一个公司的站点来说,除了流量,网站的权威、品牌还是很重要的,如果一个用户无法在搜狗上搜索到公司的官网,他不会觉得这是搜狗的问题,只会在潜意识里觉得这个公司不咋样。 先说下搜狗不收录网站的表现: 收录量(在搜狗这里指的是抓取量)不多,索引量要么是1,要么为 没有任何的关键词排名,带不来任何流量 抓取频次很

Google analytics中正则表达的一些运用案例基础篇

本篇是付费篇,如果你是大佬,可以忽略了,本指南介绍了如何在Google Analytics中简单使用正则表达式,文档主要是帮助下基础不是很好的小伙伴,付费也是帮助我自己加点小收入,赚点吃饭的Money,毕竟我维持站点也要点费用哈!   什么是正则表达式? [$]在Google Analytics中,正则是用于描述搜索模式的特殊文本字符串,主要用于为细分,匹配网页和更多高级元素创建灵活的定义数据。如果你想做其他高级过滤或营销目标,一个良好的正则表达式的书写将给你带来很好的分析力。比如可以

买服务器需知】亚马逊AWS一年免费超额收费

大家一定要清楚,天下没有免费的午餐,aws云计算的免费是有条件的免费,aws提供的服务计价以美元计算,对普通人而言非常昂贵,不能完全理解本博文的,请不要随便尝试。否则因此被计费,本人概不负责。在此,本文小结了我自己在亚马逊aws(Amazon Web Services)云计算服务上注册一个免费的服务器的方法和一些注意事项。 这是我自己遇到的收费收了我8刀,上个月是7刀,后来我在就想既然要一个月好几十,我为啥不用阿里云呢(掀桌!),我后来也问了客服,回答如下: 他的大意是–不是我们免费

网站刷流量之–百度统计出现别人的网站和异常关键词

最近,我发现我的站点经常被人打广告,操作手法就是利用一些软件在我的百度统计账号里面进行广告植入,进而让你好奇点进他的站点,从而实现他网站推广信息的展现, 以及流量的提高! 攻击者有可能是行业同行让团队操作的,SEO同行,或者是那些卖服务的商家…..当然这些多半发生在百度统计,像谷歌我遇到的不是很多,可能百度在这块做的不是很好,效果如下: 从上图可以看出,这些操作基本上都是软件导致的,很密集,很频繁,而且关键词大部分都是卖seo、服务器、蜘蛛池,收流量,收ip等与黑帽业务有关的一些人员

网站安装HTTPS证书对SEO到底有没有影响

早些年,当我们访问网站的时候,浏览器地址栏显示的基本都是http的前缀,只有少数电商网站开启HTTPS。而如今,进入全站HTTPS加密时代,这都是SSL证书所带来的影响。因为给网站安装SSL证书确确实实能带来不少的好处,其中对SEO的影响,便成为SEO人员热议的话题。 首先是各大搜索引擎对于https站点的肯定 (图片来源于网络,如涉及侵权请告知,我们将会在第一时间删除) 这种对于https站点更加扶持的态度已经很明显了,https站点优先抓取,快速收录,对https站点进行一定程度优先展现支持

【网站运营】新老客户的用户细分比较分析!

从网站的用户层面,我们根据用户访问的行为特征将用户细分成各种类型,因为用户行为各异,行为统计指标各异,分析的角度各异,所以如果要对用户做细分,可以从很多角度根据各种规则实现各种不同的分类,看到过有些数据分析报告做了各种用户的细分,各种用户行为的分析,再结合其他各种维度,看上去内容绝对足够丰富,但很难理解这些分析结果到底是为了说明什么问题,也许作为一个咨询报告反映当前整体的趋势和用户特征确实合适,但如果真的要让数据分析的结果能够引导我们去做些什么,还是要在做用户细分前确定分析的目的,明确业务层面的

官方百度蜘蛛UA集合|什么是渲染UA

经常听到站长们问,百度蜘蛛是什么?最近百度蜘蛛来的太频繁服务器抓爆了,最近百度蜘蛛都不来了怎么办,还有很多站点想得到百度蜘蛛的IP段,想把IP加入白名单,但IP不固定,我们无法对外公布。 那怎么才能识别正确的百度蜘蛛呢?来来来,只需两步,教你正确识别百度蜘蛛: 1.查看UA,如果UA都不对,可以直接判断非百度搜索的蜘蛛,目前对外公布过的UA是: 移动UA:Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,li

亚马逊AWS服务器收费细则(仅供参考)

AWS 提供了一整套基础设施和应用程序服务,可以很方便的用于构建各种云端应用系统。在这些年的发展中,AWS也逐步形成了一套十分繁杂的计费系统。下面我们就来看看这笔账是怎么算的。 几个说明:1. 这里只讨论最普通的费用,即北弗吉尼亚,linux机型。AW大多产品根据所在区域,运行系统不一样,如linux、windows等,每种的价格都会有差异;基本上了解清楚一种,其他都可以类推。2. AWS的计费价格、计费内容会一直随着时间改变,比如推出新的产品、优惠、降价。基本上价格都在逐年递减。这里

【产品】PWA 在饿了么移动站点的实践经验

PWA ( Progressive Web Apps,渐进式网页应用)是由谷歌提出的新一代 Web 应用概念,旨在提供可靠、快速、类似 Native 应用的服务方案。 本篇旨在和大家分享「饿了么 M 站」在 PWA 改造中的实践经验。涉及到的方面有:PWA 线上部署的准备工作、多页应用的 prerender 优化、实践过程中踩到的(和推进解决的)坑。而关于 PWA 的一些基础资料,本篇不会多费笔墨,有兴趣深入了解的朋友可查看本文最下面的延伸阅读栏目。 准备工作 提问:做 PWA 第一步

【转】Ubuntu 18 免费SSL证书申请 自动续费 nginx配置https!

如果要启用HTTPS,我们就需要从证书授权机构(以下简称CA) 处获取一个证书,Let’s Encrypt 就是一个 CA。我们可以从 Let’s Encrypt 获得网站域名的免费的证书。这篇文章也主要讲的是通过 Let’s Encrypt + Nginx 来让网站升级到HTTPS。 Certbot 简介 Certbot 是Let’s Encrypt官方推荐的获取证书的客户端,可以帮我们获取免费的Let’s Encrypt 证书。Certbot 是支持所有 Unix 内核的操作系统的,像cen

【转】亚马逊服务器 EC2 利用Linux搭建WordPress教程(二)

1、开始配置一台wordpress服务器:安装相关软件 上一篇请看: https://www.rrdaj.com/hzseo/seoxin-shou-ru-men-xue-xi/wzrzfx/4013.html ,好了开始吧,执行: sudo apt-get update sudo apt-get upgrade 输入命令行,回车 不用怕输错,所有命令行都可以右键复制粘贴。 作为一个基本Web网站,我们需要至少这三样东西:Apache,PHP以及 MySQL。 传统意义上LAMP套装是Linux

【转】Linux Ubuntu中Apache2启动失败报错的不同解决方法!

为解决这个问题,花了一个下午,参考了120多条网络博文,很有成就感。但实际上是由于一个简单的配置原因导致的问题,希望以后可以更加细心。最初的现象,php代码没有解析.【 我参考了这位博主的经历,以及我自己的经历,大家可以少走弯路….. 】 phpinfo输出内容是 显然,只是代码,并没有成功解析php代码。事后分析,是Apache2服务的问题。 禁用ipv6网段 Job for apache2.service failed because the control process ex

亚马逊服务器 EC2 利用Linux搭建WordPress教程

Amazon Elastic Compute Cloud (Amazon EC2) 是一种基于 AWS Web 的一项云服务,特点是可在云中提供大小可调的计算量。它的服务接口非常简单,您可以轻松获取和配置容量,可以完全控制您的计算资源,甚至可以直接挂载他人开发的生物信息学工具集合的镜像,减少部署时间。 Amazon EC2 启动新服务器实例的速度非常快,当您的计算要求发生变化时,您便可以快速扩展计算容量。服务按您实际使用的容量和计算量收费,还为开发人员提供了创建故障恢复应用程序以及排除常见故障情

【转】百度推广百度统计常见疑难问题解答集锦

问:为什么点击量与访客量不一致? 答:请详细参考点击量与访客量的定义。点击量指点击广告的次数;而访客量,指一天之内您网站的独立访客数(以Cookie为依据),一天内同一访客多次访问您网站只计算1个访客(uv),但如果访客清除了Cookie,那就算一个新的访客了。 问:为什么点击量与访问次数不一致? 有点击不一定会产生访问次数,百度统计记录访客情况,是通过安装在客户网站上的代码进行捕获的,如果客户页面代码加载过慢,还没等到加载百度统计代码,访客就关闭了页面,这种情况,统计是没法捕捉到访客情况,也就

【转】百度统计受访域名不是自己的怎么办?统计代码如何防止恶意使用?

很多人估计都遇到过百度统计代码被人恶意利用,统计后台出现很多与自己网站不管的受访页面统计,很多人都很苦恼,反应给百度结果就是被恶意利用建议更换或者排除。其实这些方法都只能适用一段时间,过段时间一样的会被利用。那么百度统计受访域名不是自己的怎么办?统计代码如何防止恶意使用? 我在这位站长的文章中补充一下,大概的原因,其实原因可能有多重,网上流行,加上我自己比较青睐的,有两个:一个就是别人利用相应的网页,然后复制了你的百度统计的js代码,从而达到了这一目的;第二就是黑客利用发送假数据包的方式向百度统

网站内容更新后没有收录发到第三方平台影响本站的文章收录问题!

对于这个问题,我想大部分seo从业人员都会遇到,比如你发了很多文章,到底要不要放到其他平台,去做外链,去引流!比如你自己要做百家号,知乎专栏,公众号, 头条号,UC订阅号,QQ公众平台之类的第三平台,那你要不要放?或者是这样的情况,以之前的百家号为例,你刚开始会比较心急的在本站内写完文章内容,然后就将本站的新文章发到百家号去,最后发现百家号的文章收录了,而自己站点文章确还没收录的情况,是不是大家都有类似经历? 文章发布后被其他平台收录的现象   至于这个问题,首先我个人觉得没有什么行不行的说法,