1. 爬虫: scrapy + beautifulsoup(lxml) + redis + mongodb, 不过scrapinghub并不建议使用Mongodb,php
http://blog.scrapinghub.com/2013/05/13/mongo-bad-for-scraped-data/, 不知道他们最终用的时什么dbhtml
2. 状态监控: zabbix,能够方便的自定义监控,和套用各类模板,(如进程数,内存暂用,硬盘占用)前端
3. 网页前端: angluarjs, mvc框架,比jquery的那种操做各类dom节点优雅的多,并且方便人阅读和重用html5
4. 跨平台: phonegap (html5 + js)java
5. 服务器端,mongooose + nodejs + express, 和前端的angularjs,共同构成mean.ionode
6. 反向代理,nginx足够胜任python
7. 日志处理:logrotate按期分割大小,python提取内容,多进程,再数据量些,上hadoop, 或者spark(更优,写python 或 scala 比java舒服)jquery
8. 语言选择: go,ruby > python > java > php(垃圾)nginx