技术选型

1. 爬虫: scrapy + beautifulsoup(lxml) + redis + mongodb, 不过scrapinghub并不建议使用Mongodb,php

     http://blog.scrapinghub.com/2013/05/13/mongo-bad-for-scraped-data/, 不知道他们最终用的时什么dbhtml

 

2. 状态监控: zabbix,能够方便的自定义监控,和套用各类模板,(如进程数,内存暂用,硬盘占用)前端

 

3.  网页前端: angluarjs, mvc框架,比jquery的那种操做各类dom节点优雅的多,并且方便人阅读和重用html5

 

4. 跨平台: phonegap (html5 + js)java

 

5. 服务器端,mongooose + nodejs + express, 和前端的angularjs,共同构成mean.ionode

 

6. 反向代理,nginx足够胜任python

 

7. 日志处理:logrotate按期分割大小,python提取内容,多进程,再数据量些,上hadoop, 或者spark(更优,写python 或 scala 比java舒服)jquery

 

8. 语言选择: go,ruby > python > java > php(垃圾)nginx