小红书将业界最大数据湖迁至阿里云
记者获悉,小红经过一年奋战,书将数据小红书已把业界体量最大的业界数据湖0故障迁上阿里云。据统计,最大至该项目共有1500人参与,湖迁迁移数据500PB。小红
作为中国头部互联网公司之一,书将数据小红书月活已过3亿,业界其数据湖存储了过去11年的最大至所有原始数据,包括结构化、湖迁半结构化和非结构化数据。小红近年来,书将数据随着业务的业界高速增长,小红书在线处理数据的最大至需求不断增加,同时离线处理所积累的湖迁历史问题,也会在未来的切换中带来更多成本与风险。
为此,2023年11月,小红书发起迁云项目——计划一年内,把小红书的数据湖搬上阿里云。
迁移至阿里云上后,数据湖可通过多个OSS Bucket支持纳入统一资源池,实现多个Bucket共享资源池内的OSS吞吐及QPS能力。这样的流控能力在面向小红书复杂业务场景,可灵活调配资源,高效利用吞吐性能,降低不同业务租户间的互相影响。阿里云原生HDFS+DLA元数据可实现无缝对接Hadoop EMR体系,支持元数据线性扩展能力,轻松应对小红书数百PB数据下的元数据线性增长。
较于过往业界体量最大的案例,小红书的本次迁移的数据体量更大。
*注:任务=数据处理过程
(图片来自小红书官方公众号)
据介绍,小红书的迁云项目经历了三个阶段。第一步,项目组首先解决标准问题,然后根据标准进行治理;第二步,完成治理后,项目在2024年5月正式进入双跑阶段。把数据拷贝到阿里云上,两边同时跑数,验证正确性与及时性;第三步,2024年8月,项目结束双跑,进入割接阶段。阿里云团队全程在现场保障,顺利完成了割接。
2024年11月,小红书迁云项目正式宣告结束。在0故障的情况下,迁移数据500PB,任务11万,参与人数1500人,涉及部门40多个。项目涉及产品之多和数据体量之大均创下业界记录。
- ·[流言板]哈兰德近三场比赛合计仅4次射门,唯一射正为点球被扑出
- ·没人队伍敢来抢4am跳点的,放心吧
- ·两位前三热门新秀!贝利空砍24分10板 哈珀20中6&此前两战73+8+8
- ·渐入佳境!李信仪6投4中&三分1中1 贡献9分5板2助1断助队大胜
- ·[流言板]比肩名宿!里夫斯圣诞大战砍下三双,历史第10人
- ·[流言板]状态低迷!浓眉全场14中3,罚球4中2得到8分7篮板5助攻
- ·对Switch 2有信心 日本开发商TOSE上调下财年营收预期
- ·约克雷斯今年打进60球,2014年以来仅少于21年莱万、14年C罗
- ·一加平板发布:1999元起!首销送手写笔
- ·安卓影像之光!小米15 Ultra看点汇总
- ·Edge在Win11上速度越来越快:WebUI 2.0功不可没
- ·图3navi是队员真想赢,各种责任,可惜虽然X队犯病残局多,但这图真的比navi强
- ·内维尔:阿诺德的传球能力在英超历史上都很少有,这是完美的助攻
- ·《灵魂战甲》发布新预告短片 玩家与狼缔结契约
- ·模板哈登👀小哈珀背靠背连砍35+创纪录 场均轰24.6分&命中率55%
- ·m0NESY对NAVI无缘major季后赛感到震惊
- ·[流言板]丹佛记者称赞威少:他展现出了极好的防守,真的很棒!
- ·王楚社媒晒与内马尔合影:潇洒的内少,下次再见!
- ·首秀破门&逆转!卢卡库:我们没有放弃&团结一致,加油那不勒斯
- ·00后小伙在美国卖“三蹦子”3个月赚100万 争取一年赚1000万元
- ·38轮仅丢15球神迹继续!利物浦丢球达16粒,无缘打破蓝军丢球纪录
- ·热刺客战纽卡首发:孙兴慜、麦迪逊、德拉古辛先发,托纳利替补
- ·[流言板]乌度卡:少了切特雷霆会有改变,哈滕的进攻篮板是精英级的
- ·湖南新田蔬菜忙采收 丰富冬季“菜篮子”
- ·北伐之路被延误?上海男篮元旦大战为乒超总决赛“让道”
- ·NBA彩经:爵士击败残阵马刺 湖人拆穿魔术迎七连胜