久久久国产精品视频_国产成人精品日本亚洲专_日本午夜大片免费观看视频_97av麻豆蜜桃一区二区

首頁 > 活動線報 > 每日福利 > 谷歌對壘OpenAI,誰更勝一籌?

谷歌對壘OpenAI,誰更勝一籌?

發(fā)布時間:2024-05-17 23:13:19來源: 15210273549

中國戰(zhàn)略新興產業(yè)融媒體記者 艾麗格瑪

當地時間5月14日,谷歌在2024 Google I/O大會上展示了其在AI技術上的一系列突破。就在一天前,OpenAI發(fā)布的GPT-4o已經引發(fā)了一波熱議,而發(fā)布時間僅差一天的兩個技術產品被視為是這兩家科技企業(yè)在AI領域真刀明槍的激烈對壘。

谷歌和OpenAI的發(fā)布會,不約而同地強調了AI與現實世界的真正交互——例如用攝像頭感知環(huán)境、識別內容和互動。不過,在產品功能重點方面,兩家公司各有千秋。

那么,最新的AI大模型到底能做到什么程度?它們能帶來生產力的質變,還是僅僅停留在概念性的炒作?

01

各有側重的階段性更新

當地時間5月13日,OpenAI通過直播展示了產品更新。

這次,OpenAI并未推出搜索引擎,也未推出GPT-4.5或GPT-5,而是發(fā)布了GPT-4系列新模型GPT-4o以及AI聊天機器人ChatGPT的桌面版本。這可以看作是對GPT-4的一次階段性更新,而根據OpenAI官方網站介紹,GPT-4o中的“o”代表Omni,也就是“全能”的意思。

據介紹,GPT-4o文本、推理、編碼能力達到GPT-4 Turbo水平,速度是上一代AI大模型GPT-4 Turbo的兩倍,但成本僅為GPT-4 Turbo的一半,視頻、音頻功能得到改善。OpenAI公司CEO山姆·奧爾特曼在博客中表示,ChatGPT免費用戶也能用上新發(fā)布的GPT-4o。此外,OpenAI還與蘋果走到一起,推出了適用于macOS的桌面級應用。

OpenAI技術負責人Mira Murati在直播中表示:“這是我們第一次在易用性方面真正邁出的一大步。”

OpenAI將GPT-4o定位為GPT-4性能級別的模型。據介紹,GPT-4o在傳統(tǒng)基準測試中,文本、推理、編碼能力達到GPT-4 Turbo的水平。該模型接收文本、音頻和圖像輸入時,平均320毫秒響應音頻輸入,與人類對話中的響應時間相似,英文文本和代碼能力與GPT-4 Turbo相當,在非英文文本上有改善,提高了ChatGPT針對50種不同語言的質量和速度,并通過OpenAI的API提供給開發(fā)人員,使其即時就可以開始使用新模型構建應用程序。

與之形成對比的是,谷歌終于將自己在搜索領域的強項融入了AI產品:比如“Ask with video”,利用Gemini的多模態(tài)能力與Google Lens相結合,可以實現視頻搜索——錄制一段視頻,就能知道用戶使用唱片機,甚至維修照相機;Google Photos中還推出了新的AI功能“Ask Photos”,可以通過簡單的提問在大量照片中找出“孩子多年來學習游泳的歷程”。

谷歌版 AI 搜索的輸出結果不再是網址的羅列,而是一個全新的整合頁面——它更像一份針對用戶提問而形成的報告,不僅包括對問題本身的回答,也包括對用戶可能忽略問題的猜測和補充。

在大會上,谷歌搜索部門負責人Liz Reid表示,“生成式AI搜索將為你做的比你想象更多。不管你腦子里在想什么,或者你需要做什么,只要問,谷歌就會為你搜索。”她解釋說,AI概述在收到一個一般查詢后會提供一系列潛在答案,并鏈接到更深入的內容。它還能通過在搜索中使用“多重推理”在幾秒鐘內回答更復雜的問題和子問題。

谷歌同樣展示了現實交互功能,其一款名為Project Astra的多模式AI助手,可以觀看并理解通過設備攝像頭看到的內容,記住用戶的東西在哪里,幫用戶在現實世界搜索物品,或是完成其他任務。

但是,相比于OpenAI簡單直接的視頻說明,谷歌在現場演示的AI工具卻遭遇“翻車”。

開場時,一位從舞臺上的茶杯中鉆出的DJ,在臺上使用谷歌內部開發(fā)的一款AI DJ小工具 MusicFX DJ,在舞臺上現場用隨機生成的關鍵詞,來創(chuàng)造出一首曲目——很可惜,創(chuàng)造出的曲調有點糟糕。

不過,相比于2023年在演示Gemini后的“群嘲”,今年谷歌DeepMind推出的Project Astra使用視頻顯得更加可信:操作者以智能手機為媒介,讓大模型實時收集環(huán)境中的各種信息,并在圍繞著辦公室轉了一圈后突然提問:“你記得眼鏡在哪里嗎?”AI從環(huán)境信息中捕捉到了眼鏡的位置,并給出了正確的方位提示。

02

多模態(tài)成為重點

在直播中,OpenAI演示了一段員工與GPT-4o對話的視頻,模型反應速度與人類相近,GPT-4o可利用手機攝像頭描述其“看到”的東西。另一段展示視頻里,GPT-4o被裝在兩個手機上,其中一個代表人類與電信公司打電話溝通設備更換事項,另一個GPT-4o扮演電信公司客服人員。OpenAI還展示了GPT-4o搭載在手機上的實時翻譯能力。

GPT-4o的發(fā)布,標志著OpenAI在多模態(tài)AI領域的重大突破。這款新模型不僅能夠實時對音頻、視覺和文本進行推理,還能夠生成文本、音頻和圖像的任意組合輸出,大大提升了與人類的交互體驗。GPT-4o的響應速度極快,音頻輸入的平均響應時間僅為320毫秒,與人類對話中的自然反應時間相當。此外,GPT-4o在多語言處理、視覺和音頻理解方面的能力也有顯著提升,創(chuàng)下了多項新的行業(yè)紀錄。

根據OpenAI介紹,GPT-4o與GPT-3.5、GPT-4的語音對談機制不同。GPT-3.5和GPT-4會先將音頻轉換為文本,再接收文本生成文本,最后將文本轉換為音頻,經歷這三個過程,音頻中的情感表達等信息會被折損,而GPT-4o是跨文本、視覺和音頻的端到端模型,是OpenAI第一個綜合了這些維度的模型,可更好進行對談。

而如前所述,谷歌本次發(fā)布的AI Overview,也在多模態(tài)的問題上做足了文章。

那么,“多模態(tài)”到底是什么?

多模式深度學習,是一個機器學習的子領域,旨在訓練人工智能模型來處理和發(fā)現不同類型數據——也就是模式之間的關系,通常是圖像、視頻、音頻和文本。通過結合不同的模態(tài),深度學習模型可以更普遍地理解其環(huán)境,因為某些線索僅存在于某些模態(tài)中。

例如一個能夠識別人類面部情緒的任務,它不僅需要AI看一張人臉(視覺模態(tài)),還需要關注人聲音(音頻模態(tài))的音調和音高,這些內容編碼了大量關于他們情緒狀態(tài)的信息,這些信息可能無法通過他們的面部表情看到,即使他們經常是同步的。

在多模態(tài)深度學習中,最典型的模態(tài)是視覺(圖像、視頻)、文本和聽覺(語音、聲音、音樂)。其他不太典型的模式包括3D視覺數據、深度傳感器數據和LiDAR 數據,這是在自動駕駛汽車中經常用到的典型數據。

此外,在臨床實踐中,成像方式包括計算機斷層掃描(CT)掃描和X射線圖像,而非圖像方式包括腦電圖(EEG)數據。傳感器數據,如熱數據或來自眼動追蹤設備的數據也可以包含在列表中。

多模態(tài)神經網絡通常是多個單模態(tài)神經網絡的組合。例如,視聽模型可能由兩個單峰網絡組成,一個用于視覺數據,一個用于音頻數據。這些單峰神經網絡通常分別處理它們的輸入。這個過程稱為編碼。在進行單峰編碼之后,必須將從每個模型中提取的信息融合在一起。已經提出了多種融合技術,范圍從簡單的連接到注意機制。多模態(tài)數據融合過程是最重要的成功因素之一。融合發(fā)生后,最終的“決策”網絡接受融合后的編碼信息,并接受最終任務的訓練。

可以看出,要想讓停留在“畫畫寫字唱歌”程度的AI們真正與現實世界產生交互并影響生產過程,多模態(tài)研發(fā)是必經之路。

每日福利更多>>

2026款本田CR-V官圖發(fā)布,配置新升級,將于年內海外上市 聚焦電池回收,豐田汽車與中國五礦攜手 vivo新機上市,7620mAh+天璣8400,國補跌至1614元 海優(yōu)威搶智艙大風口,“液晶調光天幕”有望成“標配” 四月再奪冠!東風公司中重卡1-4月國內終端市占率第一 沃爾沃 EX30 開啟 OTA 升級!新增手機數字鑰匙等 別克 GL8 陸尚正式開啟交付!售價為 24.99-28.99 萬元 奧迪2025款Q6新增紀念版車型,豪華配置與性能兼具 蔚來內部架構調整,樂道與螢火蟲品牌整合入蔚來體系 限量100臺!寶馬X7特別版車型上市,有錢也買不到! 暖心服務 無憂護航 一汽奧迪全時專業(yè)守護 內燃機重返C位?2025上海車展新技術大放送! 蔚來四款新車本月上市,細節(jié)升級更舒適,但沒空懸 吉祥航空造車成了!435km續(xù)航新車賣14.78萬,真會有人買? 長安啟源再出大作,5米車身+激光雷達要顛覆家轎市場 兩套動力可選 吉利銀河星耀8限時11.58萬起售的價格大家滿意嗎? 股票證券公司被騙事件視頻?服務費多錢??成功退款。 2025年麗水市慶元縣機關事業(yè)單位選調(選聘)工作人員公告 2025年臺州市溫嶺市事業(yè)單位選聘工作人員公告 理想L系列智能煥新,能否奪回銷冠寶座? 比亞迪領銜,韓國進口車市場,中國品牌市占率已達2.5%! 從城市到郊野,風云T8的“全能真香”定律 負債率迷霧下的汽車業(yè)真相:誰在裸泳? 當初炮轟增程技術的大眾汽車,為什么自己打臉也造增程車了? 領克900試駕報告:很大很舒服,但是輔助駕駛我勸你別用 豐田卡羅拉銳放雙擎低至9萬,插混版夏季上市 11萬多就能買CR-V!誰能想到本田也會有今天 煥新上市后理想L7 Max性價比最高?L9配置升級擠爆牙膏管? 煥新風格,新款博越L即將上市 2025年廣東省江門市蓬江區(qū)教師招聘公告(23人)