设为首页 - 加入收藏 - 网站地图 欢迎加QQ群 :14364084
当前位置:谭博的博客 > 编程语言 > c > 正文

HTTP代理服务器的原理:C++实现http代理访问

时间:2014-06-30 14:36 来源:未知 标签: 作者:谭博 阅读:

最近想通过C++,经过http代理,获取网站内容,http请求使用的boost::asio,各种搜索,各种找源码无果,问群里也是说的很高达上,但是没方案;于是想到,先搞起http代理的原理,再实现;看完下文后,发现有戏,于是轻松实现;其实真正做过http代理服务端的应该更清楚,代理服务器其实就是将接受到的header内容中获取到真实的host然后再去请求,获取到内容后,返回给调用者

总结:1.header还是按以前的写法,只不过形如 GET /1.html 要写成  GET  http://baidu.com/1.html

      2.connect的服务器当然是代理服务器的ip和端口

 

 

1、HTTP代理协议简介

  浏览器和HTTP代理服务器之间是通过HTTP代理协议进行通讯的。如果我们没有使用运行在自己的电脑上的加密代理,而是直接在浏览器中设置了在互联网上的代理服务器地址,那么浏览器就和代理服务器之间进行的通讯就会发送到互联网上。代理服务器常见的请求有GET、POST和CONNECT,下面分别做介绍:

  1.1、GET

  如果我们通过代理服务器访问某个http协议的网站网页,那么浏览器就会向HTTP代理服务器发送GET请求。比如我们通过代理服务器访问 http://www.microsoft.com/ ,那么浏览器就会向HTTP代理服务器发送数据:

  GET http://www.microsoft.com/ HTTP/1.1
  ……

  之后代理服务器取得数据后把网页返回给浏览器:

  HTTP/1.1 200 OK
  ……
  <html>
  ……

  我们来和没有使用代理服务器的情况对比一下,如果没有使用代理服务器,那么我们访问 http://www.microsoft.com/ ,浏览器就会向 www.microsoft.com 这台服务器发送以下请求:

  GET / HTTP/1.1
  ……

  服务器返回:

  HTTP/1.1 200 OK
  ……
  <html>
  ……

  我们看到,使用代理服务器之后,GET请求和返回的格式基本没有变化,是否使用代理服务器的安全性上基本没有差异。

  1.2、POST

  当我们在使用http协议的网站上提交表单时(比如网站上的用户登陆表单,填写好用户名和口令,然后点登陆,就把表单提交到服务器了),如果表单类型是POST(大多数表单类型都为POST,不过搜索引擎的搜索表单好像都是GET类型的),那么浏览器就会向代理服务器发送POST请求。比如在 http://www.veryhuo.com/archives/2209.html 中进行评论,数据会提交到 http://www.veryhuo.com/cmd.asp?act=cmt&key=a666b083 ,如果我们使用HTTP代理服务器,以下请求会发送到代理服务器:

  POST http://www.veryhuo.com/cmd.asp?act=cmt&key=a666b083 HTTP/1.1
  ……
  [提交的评论数据]

  如果没有使用代理服务器,那么以下POST请求直接发送到 www.veryhuo.com 服务器:

  POST /cmd.asp?act=cmt&key=a666b083 HTTP/1.1
  ……
  [提交的评论数据]

  使用代理服务器和没有使用代理服务器的返回结果也是基本一致的。所以POST请求在是否使用代理服务器的安全性上也是基本没有差异的。

  1.3、CONNECT

  当我们访问https协议的网站时,浏览器会向代理服务器发送CONNECT请求。比如我们访问 https://mail.google.com/mail/?shva=1#inbox 时,浏览器会向代理服务器发送以下请求:

  CONNECT mail.google.com:443 HTTP/1.0
  ……

  之后服务器返回:

  HTTP/1.1 200 Connection established
  ……

  然后浏览器开始向代理服务器发送加密的数据,使用的是 mail.google.com 的SSL证书。代理服务器把 mail.google.com 返回的加密数据原原本本的返回给浏览器。

  如果没有使用代理服务器,那么浏览器直接连接 mail.google.com:443 ,然后开始发送和接收加密数据。

  我们看到,使用了HTTP代理服务器之后,HTTPS协议传输的内容仍旧是端到端加密的,HTTPS仍旧保持了传输的内容不被任何负责传输数据的设备(包括代理服务器)看到的特性。是否使用代理服务器对HTTPS协议的安全性没有变化。

  2、深入讨论

  Q:我们看到,使用了代理服务器之后,都会把需要访问网站的域名(包括https的)发送给代理服务器,这样如果网络受到监视,就能知道我们在访问什么网站(但https协议监控不到传输的内容,只能知道我们访问了这个网站),这样是否降低了安全性?
  A:如果我们的网络受到监视,所有的网络数据包都被记录,那么如果不用代理服务器,浏览器也会首先去发送查询域名所对应的IP的DNS请求,还会在得到IP后发送TCP连接请求到需要访问的网站,通过网络数据包监视一样可以知道我们在访问什么网站。

  Q:有些代理服务器产品声称能够记录HTTPS传输的内容,是怎么做到的呢?
  A:使用了SSL劫持的手段。这些代理服务器产品无一例外需要安装对应的客户端,一旦安装了这些客户端,就能控制客户端电脑,进而安装代理服务器自己的证书,进行SSL劫持。有些产品不需安装客户端,但客户端浏览器访问所有的HTTPS网站时都通不过浏览器的SSL证书验证,浏览器都会给出证书无效的警告。

  Q:如果我们原先不能访问某个网站,使用了代理服务器可以放问这个网站了,这个网站是http协议的,这样访问这个网站所有的行为在受监控的网络环境内都会被记录吧?
  A:是的。因为代理服务器不改变HTTP协议的安全性,所以所有明文传输的内容都能被监控系统记录下来。所以,我们使用代理服务器提交重要信息(比如用户名和口令)时,都要选择HTTPS协议,在输入用户名和口令时需要注意浏览器的地址栏是不是以https开头的。

  Q:使用了代理服务器后,网络数据包所经过的路和没有使用代理服务器时不同,对安全性有什么影响呢?
  A:这要取决于使用了代理服务器前后中所经过的路中的每一个节点了。即使不使用代理服务器,国内上网仍旧会面临各种人为网络故障,使用代理服务器后因为经过的路不同,所以有可能还是需要面对这些人为网络故障,也有可能不需要面对这些人为网络故障了(如果代理服务器本身特意解决了这些故障)。

  3、总结

 

关注微信公众号

微信扫一扫,打赏我

热评文章
    内容不错,支持一下
    评论列表(网友评论仅供网友表达个人看法,并不表明本站同意其观点或证实其描述)