平时spark thrift server多用来做探索性的查询,比如验证下数据格式或count一下某天数据数量,都是轻量级的查询,查询效率也比较满意。没想到最近要真正用起来的时候,却遭遇各种瓶颈。
从蒙代尔三角到分布式CAP原则
毕业后每月都稍微有点闲钱就入手了一把美元,见证了人民币汇率从6.72一路跌到今天6.90。小小收获2个点,就算是对汇率下跌造成消费成本上涨的弥补吧,毕竟AWS的账单都是以美元结算啊TAT。不过年底央妈终于看不下去了,出台了一系列政策加强外汇管制来限制资本外逃以保汇率,包括前几天宣布比特币的非法化,让比特币一天跌了10个点。
Spark批量更新数据库导致死锁
今天同事的实时分析脚本遇到一个问题,mysql数据库写入失败。其实功能很简单,从数据流读取用户登录数据,更新用户的最近一次登录时间。这个脚本在项目冷启动阶段运行正常,但数据量增长之后不时更新失败。
浅谈数据工程师和SQL
这个周末是圣诞节,不过我没有人约也没有约人,在宿舍宅了一天,于是便有了这篇文章。今天我想谈谈所有工程师都离不开的SQL。最近我们在做一个自助数据分析(OLAP)系统,调研的时候在segmentfault上看到一篇博客,其中一句话我深有同感
面对快速变化的业务需求,很多数据工程师都把自己的青春埋葬在SQL里了。
其实不仅数据工程师,数据分析师同样把大部分精力花费在SQL上。这不是意味着我看轻SQL,相反我认为SQL的发明者真的太厉害了。SQL作为一种30年前诞生的古老的语言,经久不衰,直到今天CRUD基本可以完成60%以上的系统。
出现了,我的第一篇博客!
相信许多程序猿都知道写技术博客的重要性:于个人而言,无论对技术的提升、社交或者个人品牌的建立都有很大的帮助;于行业而言,也是对多年从Google和StackOverflow获得帮助的一种回馈。不过知易行难,长期保持写作在国内互联网业加班盛行的环境下,的确很难。一是时间上不允许,若是像我这般996的生活,回到宿舍洗个澡刷刷知乎和订阅号,就该滚到被窝里了。二是一个人的精力真的是有限的,连续上班12个小时之后,脑袋昏昏沉沉,要想再思考点什么,写篇有营养的有灵气的文章,不太可能。