文 | Tech星球 陳橋輝
今年最火的兩款全球AI產品,當屬視頻生成大模型產品Sora和音樂生成大模型產品Suno。
今年4月,經Suno爆改的周杰倫金曲《以父之名》和《夜曲》直接封神,在音樂界掀起了一股不小的波瀾。不少人認為,這兩條賽道會催生出新的爆款產品,誰能夠拿下其中一條賽道,誰就能成為AI行業的王者。
兩款AI產品的火爆,迅速點燃了國內大廠對這兩條賽道的爭奪戰。阿里發布了通義萬相AI視頻服務,字節跳動發布了“PixelDance”,快手發布了視頻大模型產品“可靈”,QQ音樂、網易云音樂也發布了AI創作功能,而AI頭部公司的Minimax、生數科技、智譜AI也紛紛跟進。
在這兩條熱門賽道中最不遺余力的當屬字節。9月24日,火山引擎在深圳舉辦AI創新巡展上,發布了豆包視頻生成-PixelDance、豆包視頻生成-Seaweed兩款大模型,意味著字節正式宣告進軍AI視頻生成賽道。
不僅如此,字節還在音樂生成賽道上,推出了Seed-Music音樂生成模型,并于今年7月推出了發布了全新版本的海綿音樂APP,主打“一鍵創作你的AI音樂”,這款產品也是字節AI音樂產品的代表作。
至此,字節完成了在AI視頻和AI音樂這兩條熱門賽道上的全布局。火力全開之下的字節,能夠得償所愿嗎?
字節AI賽道創業:試錯、內部賽馬并舉
豆包視頻生成大模型的發布,是字節在AI領域的一次重磅亮相。
據火山引擎介紹,豆包視頻生成模型基于DiT架構,通過高效的DiT融合計算單元,讓視頻在大動態與運鏡中自由切換,擁有變焦、環繞、平搖、縮放、目標跟隨等多鏡頭語言能力。
而在此前視頻生成模型大多只能完成簡單指令,豆包視頻生成模型則能實現自然連貫的多拍動作與多主體復雜交互。例如,后者可以讓不同人物完成多個動作指令的互動,使人物樣貌、服裝細節甚至頭飾,在不同運鏡下也保持一致,接近實拍效果。
基于豆包視頻生成大模型,字節內部也推出了相關的具有AI視頻生產能力的產品,主要由兩個業務團隊在推進,一個是豆包,一個是剪映,可以看做是內部的一場賽馬。
豆包對外的產品是豆包APP,剪映則是即夢AI APP,兩者的底層技術都是使用的豆包視頻生成大模型,即夢使用的是豆包視頻生成大模型“PixelDance”。
兩款產品雖然都有著視頻生成能力,但即夢更具有代表性。
即夢的前身是Dreamina,是原字節跳動中國CEO、轉崗至剪映的業務負責人張楠的創業項目。剛上線之時,這僅僅是一個文生圖的創作產品。隨后,Dreamina瞄上了Sora的潛力,內部基于PixelDance模型開始研發視頻生成能力,今年2月,Dreamina的視頻生成服務開啟對外測試。
今年5月,Dreamina改名即夢,宣布其AI作圖和AI視頻生成功能全量上線,并在抖音內進行大量投放。張楠更是在朋友圈轉發,稱即夢剛剛上線,還有很多待優化的地方。
音樂生成方面,海綿音樂APP則是字節的代表,這款產品是字節在AI賽道上試錯的一個典型案例。海綿音樂的前身是2022年2月的海綿樂隊APP。Tech星球了解到,這是字節內部的一款創業項目,但這款產品誕生之初并不是奔著AI而去,而是服務于汽水音樂和抖音上對音樂編輯有所需求的用戶。
到了2022年底,隨著國內AI浪潮出現后,海綿樂隊才開始轉向AI領域,并加入AI作曲能力,但此時的創作能力很一般,“因為此時的字節,并沒有成體系的音樂生成大模型,海綿樂隊只能靠自己去摸索”,一位曾在海綿樂隊工作的員工向Tech星球表示。
2023年6月推出了新版本,主打哼唱成曲和伴奏制作,雖然在AI能力上仍不出眾,但對接下來的試錯和更新提供了經驗。隨著豆包音樂生成模型的出現,才讓海綿樂隊有了一戰之力,最終在今年7月,更名為海綿音樂,主攻AI音樂創作賽道。目前,已經開始在各渠道進行投放推廣。
需要注意的是,字節的AI產品在這兩條賽道上的發展并不是獨立,而是相互競爭。豆包、即夢在近期也開始推出音樂生成服務,逐步滲透到AI音樂賽道,“競爭是無可避免的,誰都想成為爆款AI產品,誰都想成為或繼續保持在內部的核心位置,這無疑需要AI產品更加具有綜合體驗”,即夢的一位運營告訴Tech星球。
左手視頻,右手音樂
據七麥數據顯示,字節視頻生成APP即夢自今年8月上線以來,在iOS端的攝影與錄像(免費)榜單的排名逐漸上升,兩個月時間,已經穩定在前40的名次,安卓端,近30天日均下載量,為22978次。
借助抖音APP以及投放,即夢的視頻生成服務逐漸成為不少抖音創作者的首選。但即夢并不滿足于此,今年8月,即夢開始在AI短劇領域的創作探索。聯合抖音、博納影業AIGMS制作中心出品并制作《三星堆:未來啟示錄》。即夢還在抖音內發起了“即夢AI迷你劇場”的活動,支持AI短劇的創作。
截至9月,豆包大模型日均tokens使用量已經超過1.3萬億,相比5月首次發布時猛增十倍,其中不乏即夢所作出的貢獻。
在商業模式上,即夢已推出會員體系,有79元單月、69元連續包月和659元包年的基礎會員等不同訂閱方式。具體來說,基礎會員每月可使用505個積分生成約2020張圖片或168個AI視頻。
有分析人士認為,即夢目前的產品功能、商業模式聚焦于服務UGC(用戶生成內容),與抖音的生態融合將是未來的發展重點。
相比于字節在視頻生成方面取得的成績,字節在音樂生成方面,目前仍然是不溫不火。七麥數據顯示,海綿音樂有著廣告投放,但并沒有在iOS端,取得排名,近30日日均下載量僅為15次。
音樂行業人士李磊認為,雖然AI音樂很火,但好聽的AI歌曲創作多來自于專業人士,普通用戶對于AI音樂生成工具的使用門檻和學習成本也有一定的要求,如果工具過于復雜或難以使用,就會影響用戶的體驗和接受度。而且,用戶對AI音樂的接受度也需要時間來培養。
“字節在多個領域都有業務布局,在資源有限的情況下,公司需要在不同業務之間進行資源分配和權衡。AI音樂生成領域雖然具有很大的發展潛力,但在前期需要大量的研發投入和市場推廣,相比于更加成熟的AI視頻,公司肯定更愿意加大對這一塊的力度投入”,一位汽水音樂的運營小可告訴Tech星球。
下一個AI爆款,還是燒錢深坑
不可否認,AIGC(人工智能生成內容)是一個巨大的市場,量子位智庫預計,2024年我國AIGC應用市場規模達到200億。2030年,我國AIGC應用將成為萬億規模市場,五年(2024-2028年)平均復合增長率超過30%。
目前,國內在視頻生成模型方面,有優勢的是快手和字節跳動,因為二者的業務離視頻更近,能夠待其視頻生成足夠優秀之后會快速完成拉新,并帶動用戶體驗提升。
而背靠快手的視頻生成AI產品可靈,也成為了字節在AI視頻賽道上最有力的競爭者。
可靈的發展速度也很迅猛,今年8月的官方數據顯示,可靈累計生成視頻數量超過1600萬,不到2個月,可靈AI已有超過360萬用戶,累計生成3700萬個視頻和超過一億張圖片。
近日,快手副總裁、大模型團隊負責人張迪宣布,可靈AI將內測視頻人臉模型功能。該功能基于創新的ID保持能力,支持用戶自助訓練人臉模型,完成訓練后,可使用該模型進行5秒至10秒的文生視頻。
此外,AI視頻生成技術研發成本高和周期長也是一個事實。據界面新聞報道,百度CEO李彥宏稱“百度不做Sora”后,有關“中國版Sora到底值不值得做”的話題,在微博、小紅書等社交媒體引發眾多爭論。
李彥宏在內部講話中稱,Sora這種視頻生成模型的投入周期太長,10年、20年都可能拿不到業務收益,無論多火爆,百度都不去做。
AI音樂生成方面,版本正在快速迭代,字節仍需快馬加鞭。近日,AI音樂創作平臺Suno推出的一項創新功能——SunoScenes,允許用戶通過上傳照片和視頻作為提示詞,生成與之相匹配的30秒音樂。
而且,音樂數據的版權問題也是一個挑戰。獲取合法的音樂數據,需要與版權方進行合作,這可能會增加成本和難度。同時,音樂數據的質量也參差不齊,如何篩選和整理高質量的音樂數據用于模型訓練是一個重要的問題。