成本降低 90%,出海社交平台 Typing 基于 Databend 的大数据探

Typing(输入中科技)成立于 2022 年,是一家主要面向东南亚、拉美、中东等海外地区提供社交平台的出海企业。其社交平台类似于国内的 Soul、陌陌等,提供视频直播、语音聊天室、短视频、生活分享、文字聊天等社交功能,注册用户超百万,日活用户数十万。人们可以在平台内认识有趣的人,结交新朋友,还可以建立自己的社交社区。

Typing 业务场景特点

如今,社交平台已经成为生活中必不可少的一部分。人们在社交平台上交友、分享和交流信息,这些信息包含了丰富的用户行为和偏好数据。大数据技术使得这些海量的数据可以被有效地挖掘和分析,从而为社交平台的发展和用户体验,提供技术支撑和决策支持。

Typing 作为一家社交公司,数据的重要性不言而喻,通过数据可以挖掘出许多商业价值:

一,构建社交平台的用户画像。用户画像是基于用户的行为数据和个人信息建立的用户模型。Typing 通过分析用户的关注、好友关系、兴趣爱好等数据,可以对平台内用户进行准确的用户画像构建。通过用户画像,平台可以更好地理解用户的需求和行为倾向,从而为 Typing 的用户提供更加个性化和精准的服务和推荐,提升平台的用户体验度和满意度。

二,社交平台的内容推荐和个性化推送。Typing 整个社交平台的内容繁多复杂,包含音频、视频、文字、图片等多种形式,用户在其中找到自己感兴趣的内容和人往往比较困难。借助大数据分析技术,Typing 可以对用户的历史行为数据进行分析,了解用户的兴趣和偏好,从而为用户提供个性化的内容推荐和推送。通过个性化内容推送,Typing 社交平台可以提高用户的活跃度和粘性,同时也增加用户对平台的依赖和忠诚度。

三,社交平台的社交关系挖掘。作为社交平台,人与人之间的社交关系是 Typing 的核心所在,对社交关系的理解和分析可以帮助 Typing 更好地发现用户的兴趣和需求。借助大数据分析技术,Typing 可以分析用户的好友关系、互动行为等数据,发现用户之间的兴趣群体和社交网络,从而为用户提供更加精准和相关的社交推荐。同时,社交关系挖掘还可以为平台提供用户流失预测和用户关系维护等策略指导,提高用户的留存和活跃度。

Typing 面临的技术挑战

受限于创业公司的规模,Typing 整个研发团队只有 15 人左右,没有专门的大数据团队和 AI 算法推荐团队,但是公司对精细化运营有着强烈需求,这就需要对用户、对整个平台做到知根知底。如何基于数据得出有价值的分析和洞察变得不可或缺。为了实现这一目标,Typing 技术团队进行了很多摸索,先后接触过阿里云、火山引擎的大数据方案,但在 Typing 看来,这些方案从文档到接入都很复杂,时间和人力成本都比较高,对于一家创业公司而言很难落地。

Typing 也曾经试用过开源的 Clickhouse,但它需要有专门的数据开发人员做一些中间的数据清理 ETL 工作,由于缺乏这方面的人力最终也未能落地。

为什么选择 Databend?

在一次大会的开源活动中,Typing 技术团队负责人武云鹏接触到了 Databend,在经过一系列深入了解和交流后,他被 Databend 以下几个特点所深深吸引:

  • 存算分离架构:Databend 将存储与计算完全分离,用户可以根据应用程序的需要轻松扩展或者缩小。同时,Databend 完全面向对象存储设计,突破了传统数据库磁盘容量的束缚;

  • 高性能查询:Databend 先进的架构和矢量化查询引擎,不仅实现了海量数据的即时分析,更将延迟缩短到亚秒级。同时利用数据级并行( Vectorized Query Execution )和指令级并行( SIMD )技术,提供性能卓越的数据分析。在TPC-H标准下,Databend在导入数据,cold run,hot run三个维度上比国外主流新一代存算一体云原生数据库整体快 1.3 倍;相比传统存算一体数据库有 2-3 倍的速度提升;

  • 与主流数据生态和工具无缝对接:Databend Cloud 与主流数据技术和工具无缝对接,提供 Java、Go、Python、Node.js、Rust 等语言 SDK,支持与 Kafka、DBT、FlinkCDC、Airbyte、Data X、Devezium 等工具对接,解决了 Typing 原有技术栈的兼容问题,满足了在数据转换、商业智能、Ad-Hoc 分析和数据应用方面的所有需求,可以帮助用户快速挖掘数据的潜在价值;

  • 低成本:Databend Cloud 经济、智能的计算集群,搭配高度压缩、性能优化的对象存储,可以将成本降低高达 90%,像 Typing 这样的创业公司进行数据处理不必再花费巨资;

  • 使用方便:Databend Cloud 提供一站式 SaaS 服务,通过数据管道和任务管理,可以让数据导入变得更为简单,让用户免运维,开箱即用。同时,Databend 没有要构建的索引,不需要手动调整,不需要手动计算分区或分片数据,所有这些都在数据加载到表中时完成。

部署方案

Databend 的各项特性刚好契合了 Typing 对于大数据平台的各项需求,于是 Typing 选择了 Databend 数据库作为主要的大数据分析工具。经过一系列规划、准备、兼容性评估等工作,成功将大数据计算业务迁移到 Databend Cloud 上。 

 目前,Typing 的数据源主要来自 AWS Aurora 数据库,开发人员每天定时以 T+1 的方式进行数据同步。首先用 databend-py SDK 将 Aurora 数据库中的几十张表导出到 S3 中,然后再通过 Databend 将 S3 里的数据直接导入 Databend Cloud。得益于 Databend 所坚持的开源理念和对 Superset 的开源贡献,Databend 可以非常轻松地接入 Superset 开源数据看板工具。经过 Databend Cloud 计算后的数据再传到 Superset 中就可以进行数据可视化展现了。

在这个场景中,Databend 主要用途是承载运营数据看板。Typing 每天早上 8 点开始同步,数据量大约 2-3TB,10 点上班前就可以完成数据导入和计算。Typing 的技术人员上班后就可以在 Superset 中,做一些面向运营和产品的可视化数据看板。

此外,Databend 在 Typing 还有另一个用途,利用数据库中产生的用户行为历史数据(如消费记录、语音房、送礼物等数据),在 Databend Cloud 中进行全量用户计算,计算出用户分群标签,然后导入业务服务器,支撑业务应用开发对用户做出区分,进行更多的个性化推送。

项目收益

从去年 11 月部署完成到现在已经过去了半年时间,Databend Cloud 非常好地解决了 Typing 大数据分析的各种挑战,不论是查询速度、结果的准确性还是成本,都超出了 Typing 的预期。

  • 迁移到 Databend Cloud 后,在查询速度更快的基础上,Typing 的数据成本降低了 90%,目前成本中最高的部分是从 AWS Aurora 同步数据到 Databend Cloud 的消费,Typing 也正在尝试与 Databend 一起探索通过更换同步机制减小这部分成本;

  • Typing 的运营团队经常通过写 SQL,来定一些指标查看数据看板。由于 Databend 提供了统一的 SQL 接口,符合产品和研发原有数据库使用习惯,节省了适应成本。运营团队反馈新的数据看板上手非常简单,无论写什么都能很快给出结果,整个过程非常顺滑稳定;

  • 在服务过程中,Databend 官方提供了专属工程师服务,紧急问题天级或小时级就可以反馈修复。对于 Typing 而言,可以节省出专门的数据开发人力,将 Databend 工程师作为数据团队的一部分,这在以往一些云大厂服务中是完全可不想象的。

未来探索

目前,Typing 正在开启对 Databend 的新一轮探索,对 Databend 的信任也让 Typing 想将其拓展到更广的用途中。未来,Typing 计划将业务服务器的埋点数据也同步到 Databend Cloud 中。由于埋点数据包含了更多的用户行为,相比数据库数据而言,这些数据对业务决策更有价值,这部分数据将用来支撑一些时效性更强的逻辑业务。而服务器的埋点数据更具时效性,大概每 15 分钟同步一次,需要进行近实时同步。Databend 经过成本和时效性等方面考量,提供了一种增量同步方案,最小可以达到小时级,

在与 Typing 的整个合作过程中,Databend 不仅帮助 Typing 解决了现有的许多技术难题,还秉承着开放合作的理念与 Typing 一起进行更多场景的探索,为社交平台业务的发展提供可靠的数据支持。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3029774.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

手写一个SPI FLASH 读写擦除控制器(未完)

文章目录 flash读写数据的特点1. 扇擦除SE(Sector Erase)1.1 flash_se 模块设计1.1.1 信号连接示意图:1.1.2 SE状态机1.1.3 波形图设计:1.1.4 代码 2. 页写PP(Page Program)2.1 flash_pp模块设计2.1.1 信号连接示意图:…

django中的日志处理

1、事件追踪 在什么样的时间发生了什么样的事情 2、bug调试 3、程序告警 4、大数据统计 ELK 日志分析系统 elasticsearh logstasn kibana 名词概念 loggers:日志器 —— 定大方向:1 handlers:处理器 —— 执行:3 formatters&#xff…

CTFHUB-技能树-Web题-RCE(远程代码执行)-文件包含

CTFHUB-技能树-Web题-RCE(远程代码执行) 文件包含 文章目录 CTFHUB-技能树-Web题-RCE(远程代码执行)文件包含解题方法1:![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/71f7355b3c124dfe8cdf1c95e6991553.png#pic_ce…

【Python爬虫实战入门】:教你一个程序实现PPT模版自由

文章目录 💥一、PPT模版爬取🔥1.1 第一个爬虫🚲1. 获取下载页面链接 ❤️1.2 第二个爬虫🚲1.3 第三个爬虫🎈2. 文件保存 ❤️1.4 翻页处理 🔥二、完整代码 🔥🔥🔥 Pytho…

Java类加载器介绍

在Java中,类加载器是一种动态加载类的机制,它负责在运行时查找、加载和链接类文件。当Java应用程序需要创建某个类的对象时,类加载器会在运行时查找该类对应的.class文件,并将其加载到Java虚拟机中。Java类加载器通常分为三层&…

JVM调优—减少FullGC

背景 最近负责了一个审批流程新项目,带领了几个小伙伴,哼哧哼哧的干了3个月左右,终于在三月底完美上线了,好消息是线上客户用的很丝滑,除了几个非常规的业务提单之外,几乎没有什么大的问题,但是…

鸿蒙OpenHarmony技术:【Docker编译环境】

Docker环境介绍 OpenHarmony为开发者提供了两种Docker环境,以帮助开发者快速完成复杂的开发环境准备工作。两种Docker环境及适用场景如下: 独立Docker环境:适用于直接基于Ubuntu、Windows操作系统平台进行版本编译的场景。基于HPM的Docker环…

工作中遇见的问题总结

1. 当我执行下面代码的时候,下边的的代码还是会执行 if(name"aaa"){console.log("111");}

动手学深度学习——多层感知机

1. 感知机 感知机本质上是一个二分类问题。给定输入x、权重w、偏置b,感知机输出: 以猫和狗的分类问题为例,它本质上就是找到下面这条黑色的分割线,使得所有的猫和狗都能被正确的分类。 与线性回归和softmax的不同点&#xff1…

一文彻底读懂信息安全等级保护:包含等保标准、等保概念、等保对象、等保流程及等保方案(附:等保相关标准文档)

1. 什么是等级保护? 1.1. 概念 信息安全等级保护是指根据我国《信息安全等级保护管理办法》的规定,对各类信息系统按照其重要程度和保密需求进行分级,并制定相应的技术和管理措施,确保信息系统的安全性、完整性、可用性。根据等…

通俗的理解网关的概念的用途(四):什么是网关设备?(网络层面)

任何一台Windows XP操作系统之后的个人电脑、Linux操作系统电脑都可以简单的设置,就可以成为一台具备“网关”性质的设备,因为它们都直接内置了其中的实现程序。MacOS有没有就不知道,因为没用过。 简单的理解,就是运行了具备第二…

串口初始化自己独立的见解--第九天

1.SM0,SM1 我们一般用 8位UART,波特率可变 (方式1的工作方式) SCON :SM2 一般不用,SM0 0 ,SM1 1 PCON : 有两位 我们不动它,不加速,初始值 TMOD:8位自动重装定时器&#xff0…

Linux 安装JDK和Idea

安装JDK 下载安装包 下载地址: Java Downloads | Oracle (1) 使用xshell 上传JDK到虚拟机 (2) 移动JDK 包到/opt/environment cd ~ cd /opt sudo mkdir environment # 在 /opt下创建一个environment文件夹 ls# 复制JDK包dao /opt/environment下 cd 下载 ls jd…

信息系统架构模型_1.单机应用模式和客户机/服务器模式

1.单机应用模式(Standalone) 单机应用系统是最简单的软件结构,是指运行在一台物理机器上的独立应用程序。这些软件系统,从今天的软件架构上来讲,是很简单,是标准的单机系统。当然至今,这种复杂的…

Blazor入门-基础知识+vs2022自带例程的理解

参考: Blazor 教程 - 生成首个应用 https://dotnet.microsoft.com/zh-cn/learn/aspnet/blazor-tutorial/intro Blazor基础知识:Visual Studio 2022 中的Blazor开发入门_vs2022 blazor webassembly-CSDN博客 https://blog.csdn.net/mzl87/article/detail…

如何应对Android面试官 -> WindowManagerService 启动流程分析

前言 本章主要从上面几个角度来讲解 WindowManagerService; 相关概念 介绍 WMS 之前,我们先来介绍几个相关的概念; WMS 存在于 system_server 系统服务进程,view 存在于 app 进程,所有的窗口最终都是通过 wms 来进行…

【算法与数据结构】数组

文章目录 前言数组数组的定义数组的基本操作增加元素删除元素修改元素查找元素 C STL 中的数组arrayvector Python3 中的列表访问更改元素值遍历列表检查列表中是否存在某元素增加元素删除元素拷贝列表总结 Python3 列表的常用操作 参考资料写在最后 前言 本系列专注更新基本数…

uniapp的app端推送功能,不使用unipush

1&#xff1a;推送功能使用htmlPlus实现&#xff1a;地址HTML5 API Reference (html5plus.org) 效果图&#xff1a; 代码实现&#xff1a; <template><view class"content"><view class"text-area"><button click"createMsg&q…

跨界内容营销:Kompas.ai如何帮助你的品牌打破行业边界

在当今多元化的市场环境中&#xff0c;跨界营销已成为品牌拓展影响力和用户基础的重要策略。通过跨界合作&#xff0c;品牌能够打破行业界限&#xff0c;创造独特的用户体验&#xff0c;从而提升品牌形象和市场竞争力。本文将深入分析跨界营销的作用&#xff0c;详细介绍Kompas…

AI-powered的搜索引擎:Perplexity 与知识工作者

Perplexity是一款AI-powered的搜索引擎&#xff0c;通过与OpenAI合作&#xff0c;利用GPT模型提供高速、准确的搜索结果&#xff0c;特别针对知识工作者的需求进行优化。 知识工作者通常需要进行复杂的研究和决策&#xff0c;他们希望能够快速获取准确的信息来支持他们的工作。…