AIGC大模型启元:2024.05(上)
- (1) Video Mamba Suite(Mamba视频领域应用)
- (2) KAN(全新神经网络架构)
- (3) Meshy 3(文本生成3D模型)
(1) Video Mamba Suite(Mamba视频领域应用)
2024.05.01 来自南京大学、上海人工智能实验室、复旦大学、浙江大学的研究团队发布了一项开创性工作。他们全面审视了 Mamba 在视频建模中的多重角色,提出了针对 14 种模型 / 模块的 Video Mamba Suite,在 12 项视频理解任务中对其进行了深入评估。结果令人振奋:Mamba 在视频专用和视频 - 语言任务中均展现出强劲的潜力,实现了效率与性能的理想平衡。这不仅是技术上的飞跃,更是对未来视频理解研究的有力推动。
研究团队精心打造了 video-mamba-suite(视频 Mamba 套件)。该套件旨在补充现有研究的不足,通过一系列深入的实验和分析,探索 Mamba 在视频理解中的多样化角色和潜在优势。
推荐文章: Mamba再次击败Transformer!在视频理解任务中杀疯了!
论文链接: https://arxiv.org/abs/2403.09626
代码链接: https://github.com/OpenGVLab/video-mamba-suite
(2) KAN(全新神经网络架构)
2024.05.02 一种全新的神经网络架构KAN,诞生了!与传统的MLP架构截然不同,且能用更少的参数在数学、物理问题上取得更高精度。
在函数拟合、偏微分方程求解,甚至处理凝聚态物理方面的任务都比MLP效果要好。
而在大模型问题的解决上,KAN天然就能规避掉灾难性遗忘问题,并且注入人类的习惯偏差或领域知识非常容易。
来自MIT、加州理工学院、东北大学等团队的研究一出,瞬间引爆一整个科技圈:Yes We KAN!
推荐文章: 全新神经网络架构KAN一夜爆火!200参数顶30万,MIT华人一作,轻松复现Nature封面AI数学研究version=4.1.22.6014&platform=win&nwr_flag=1#wechat_redirect)
项目链接: https://kindxiaoming.github.io/pykan/
论文链接: https://arxiv.org/abs/2404.19756
(3) Meshy 3(文本生成3D模型)
2024.05.01 文本生成3D模型Meshy 3重磅发布,目前可免费试用,UI、提示词都支持中文。
本次,Meshy 3生成的3D模型更加细腻逼真,支持360度全景观超分辨率贴图、纹理、位移、法线、曲率以及物理光照渲染效果。
也就是说,用户可以像雕塑那样去生成3D模型,并且可下载fbx、obj、glb、usdz等文件格式放在不同场景中使用。
推荐文章: 支持中文,免费试用!文本生成360度,物理光照3D模型
项目链接: /
论文链接: /
免费体验地址: https://app.meshy.ai/zh/discover