写好Hive程序的五个提示,淘宝数据平台团队

本文档由 若莲 分享于2011-07-31 08:48

使用Hive可以高效而又快速地编写复杂的MapReduce查询逻辑。但是某些情况下,因为不熟悉数据特性,或没有遵循Hive的优化约定,Hive计算任务会变得非常低效,甚至无法得到结果。一个 好 的Hive程序仍然需要对Hive运行机制有深入的了解。有一些大家比较熟悉的优化约定包括:Join中需要将大表写在靠右的位置;尽量使用UDF而不是transfrom…诸如此类。下面讨论5个性能和逻辑相关的问题,帮助你写出更好的Hive程序。全排序Hive的排序关键字是SORT BY,它有意区别于传统数据库的ORDER BY也是为了强调两者的区别– SORT BY只能在单机范
文档格式:
.doc
文档大小:
70.94K
文档页数:
19
顶 /踩数:
2 0
收藏人数:
10
评论次数:
1
文档热度:
文档分类:
生活休闲  —  网络生活
添加到豆单
文档标签:
Hive BY SORT 熟悉 排序 程序 使用 需要 区别 约定
系统标签:
hive 数据 reducer mapjoin 笛卡尔 程序
下载文档
收藏
打印

扫扫二维码,随身浏览文档

手机或平板扫扫即可继续访问

推荐豆丁书房APP  

获取二维码

分享文档

将文档分享至:
分享完整地址
文档地址: 复制
粘贴到BBS或博客
flash地址: 复制

支持嵌入FLASH地址的网站使用

html代码: 复制

默认尺寸450px*300px480px*400px650px*490px

支持嵌入HTML代码的网站使用

分享到