久久人妻牲爱视频,亚洲无码视频区,黑人操人妻一区二区,aaa在线视频,日产精品久久久久久久,99熟妇诱惑视频,激情只爱无码,国产精品日韩一区二区,超碰成人三级在线

新火種AI|Devin再次震撼谷歌!但卻是以被質(zhì)疑造假的方式...

原創(chuàng) 收藏 評論
舉報 2024-04-24

作者:小巖

編輯:彩云

我們常說有人的地方就有江湖,就會存在炒作,扒皮和虛偽。沒想到,到了人工智能這里,也是一樣。

4月9日,一位自稱有35年軟件工程師經(jīng)驗(yàn)的網(wǎng)絡(luò)博主卡爾逐幀復(fù)現(xiàn)了人工智能軟件師Devin的演示視頻,并據(jù)此提出4點(diǎn)質(zhì)疑。他認(rèn)為Devin所展示的編程能力存在一定欺騙性,并且“所處理的任務(wù)并非隨機(jī),而是演示者精心選擇的刻意呈現(xiàn)”。

圖片1.png

這個Devin極其特別,被稱為“全球首個AI人工智能軟件師”,它被質(zhì)疑造假,這件事足以震驚整個硅谷,乃至全球AI領(lǐng)域。

細(xì)扒全球首個AI程序員的上線經(jīng)過...

我們先來了解一下Devin的來歷。

Devin是由Cognition Labs于今年3月12日發(fā)布的一項(xiàng)AI編程產(chǎn)品,它最大的宣傳點(diǎn)是“全球首位AI工程師”。

主創(chuàng)介紹,Devin在長程推理和規(guī)劃上面下了很大功夫,可以規(guī)劃和執(zhí)行需要數(shù)千個決策才能完成的復(fù)雜軟件工程任務(wù)。具體來說有6大功能:端到端構(gòu)建和部署程序,可以解決的不只是代碼問題,還包括與之相關(guān)的整個工作流;自主查找并修復(fù)bug;訓(xùn)練和微調(diào)自己的AI模型;修復(fù)開源庫;為成熟的生產(chǎn)庫做貢獻(xiàn);超強(qiáng)學(xué)習(xí)能力,實(shí)時補(bǔ)足知識和能力短板。Devin完整技術(shù)報告中顯示,在SWE-bench基準(zhǔn)測試中,無需人類輔助,Devin可解決13.86%的問題。

圖片2.png

這個數(shù)據(jù)看似平平無奇,但其實(shí)已經(jīng)超過了此前所有AI大模型的成績。要知道,目前數(shù)一數(shù)二的GPT-4,在同個測試中的成績只有1.74%,且必須配備一個人類,提示它要處理哪些文件。

Cognition Labs始終沒開放公測,但陸陸續(xù)續(xù)給出了一些內(nèi)測名額。耐人尋味的是,很多人在當(dāng)時上手體驗(yàn)過了,還給出了很高的評價。譬如熱衷AI的沃頓商學(xué)院教授Ethan Molick試過后就大大贊賞了Devin,認(rèn)為其新穎的實(shí)時交互方式是最值得關(guān)注的。他要求Devin開發(fā)一個解釋“創(chuàng)業(yè)公司融資中的股權(quán)稀釋”的網(wǎng)站,隨后透露,AI還無法在沒有任何幫助的情況下,自主且無差錯地完成這項(xiàng)工作。

被認(rèn)為是炒作!所謂專業(yè)實(shí)力,不過是“自導(dǎo)自演”。

可反轉(zhuǎn)就這么毫無預(yù)兆的出現(xiàn)了。

在Cognition官網(wǎng)發(fā)布的長達(dá)1分50秒的演示視頻里,Devin只需一句指令,就能實(shí)現(xiàn)端到端地處理整個開發(fā)項(xiàng)目。視頻中還表示,它具備自主學(xué)習(xí)新技術(shù),端到端構(gòu)建和部署應(yīng)用,自主查找以及修復(fù)代碼問題等方面的能力。此外。,Devin還可以按照用戶需求同時執(zhí)行多步驟工作流程,程序員們可以實(shí)時觀察其進(jìn)度,發(fā)現(xiàn)錯誤時,跳出指令就能修正。

但博主卡爾卻站出來質(zhì)疑,認(rèn)為這些宣傳是不實(shí)的。Devin在操作過程中看似修復(fù)了許多問題,但這些問題很多都是Devin的“自導(dǎo)自演”。他認(rèn)為,在上述演示視頻的2.936秒處,屏幕左上角顯示“他們搜索過這個任務(wù)”,這意味著演示視頻中Devin處理的任務(wù)并非隨機(jī),而是演示者選擇的,甚至還出現(xiàn)了“自己現(xiàn)寫bug然后當(dāng)場修復(fù)”的騷操作。

圖片3.png

除此之外,Devin還有很多其他的槽點(diǎn):譬如號稱能解決任何Upwork任務(wù),但演示中解決的問題并不是prompt要解決的那一個,簡直是在做無用功。或者看起來在修復(fù)bug,但是這些bug毫無意義,因?yàn)檎嬲娜祟惓绦騿T根本就不會犯那種錯誤。還有些時候,Devin就是在做沒有意義的事情,很多事情簡單兩步就能搞定,但它卻花里胡哨的一頓操作,把簡單的問題復(fù)雜化。

至于Devin修改代碼的真實(shí)水平,也只能說是一言難盡。在演示視頻中,Devin花費(fèi)了足足6個小時才完成了任務(wù),而這些內(nèi)容,博主卡爾僅用了半個多小時就完成了。

大瓜激起千層浪!專業(yè)人士普遍認(rèn)為:博主的質(zhì)疑有理有據(jù)。

博主卡爾的質(zhì)疑在圈內(nèi)引起了極大的熱度和熱烈的討論,這件事在推特和YouTube的熱度居高不下,成為了網(wǎng)友們爭論的焦點(diǎn)。

一個月前,Devin的誕生成功引起了整個AI圈的注意;如今,Devin的塌房再次吸引到了全AI圈的目光。

圖片4.png

而事件背后所承載的影響力也是深遠(yuǎn)的。要知道,Devin背后的公司Cognition AI手握10塊IOI金牌的活招牌,還在推出Devin當(dāng)月宣布成功融資2100萬美金。

Cognition AI背后的團(tuán)隊(duì)成員共10人,核心團(tuán)隊(duì)共有3人,分別是Scott Wu,Steven Hao和Walden Yan,團(tuán)隊(duì)非常年輕。全體成員共擁有10枚國際信息學(xué)奧林匹克競賽(IOI)金牌,很多成員在青少年時期也參加過信息學(xué)國際奧林匹克競賽等。在發(fā)布“全球首個AI程序員Devin”這一信息后,Cognition AI備受外界關(guān)注。公開資料顯示,此前,Cognition AI已經(jīng)獲得了彼得·蒂爾的Founders Fund基金領(lǐng)投的2100萬美元A輪融資。一旦造假事件落下實(shí)錘,所能帶來的后坐力無疑是巨大的。

對于博主卡爾的質(zhì)疑,網(wǎng)絡(luò)上的口徑大多是站在了博主一邊,很多網(wǎng)友都對Devin的造假嗤之以鼻。有人還調(diào)侃,“Devin至少掌握了看起來很忙的技巧”,很多專業(yè)人士也認(rèn)為卡爾的質(zhì)疑有理有據(jù)。

仔細(xì)復(fù)盤一下,大家會發(fā)現(xiàn)Devin和Cognition AI的疑點(diǎn)早已存在。直到今天Devin 都沒有開放使用,只能通過郵箱提交申請。所以,外界對Devin的認(rèn)知,基本都來自官方給出的演示視頻,以及少數(shù)第三方開發(fā)和產(chǎn)品人員的評價,很少有人有機(jī)會可以對其進(jìn)行真正的體驗(yàn)和測評。

所以,我們有理由相信,從呈現(xiàn)出的結(jié)果來看,Devin的確有虛假炒作,過度包裝的嫌疑。如果是頭部巨頭發(fā)布新產(chǎn)品新工具,諸如微軟Copilot這樣的,都會提供充足的上下文。Devin顯然沒有做到,甚至連對程序的邏輯理解都不到位。

圖片5.png

但從另一個角度來說,AI程序助手的發(fā)展經(jīng)歷陣痛和挫折在所難免,我們不能因此就質(zhì)疑整件事情的意義。Devin的功能固然被虛假夸大了,但這并不能否認(rèn)AI編程的發(fā)展趨勢。AI程序員的存在確實(shí)可以協(xié)助人們獨(dú)立完成簡單的開發(fā)工作,甚至可以脫離一名真正程序員的幫助,能減少大量不需要創(chuàng)新的重復(fù)勞動,例如批量修改代碼的命名風(fēng)格,代碼的依賴關(guān)系等。程序員們依然需要各類代碼輔助工具的幫助,這是大勢所趨。


本文系作者授權(quán)數(shù)英發(fā)表,內(nèi)容為作者獨(dú)立觀點(diǎn),不代表數(shù)英立場。
轉(zhuǎn)載請在文章開頭和結(jié)尾顯眼處標(biāo)注:作者、出處和鏈接。不按規(guī)范轉(zhuǎn)載侵權(quán)必究。
本文系作者授權(quán)數(shù)英發(fā)表,內(nèi)容為作者獨(dú)立觀點(diǎn),不代表數(shù)英立場。
未經(jīng)授權(quán)嚴(yán)禁轉(zhuǎn)載,授權(quán)事宜請聯(lián)系作者本人,侵權(quán)必究。
本內(nèi)容為作者獨(dú)立觀點(diǎn),不代表數(shù)英立場。
本文禁止轉(zhuǎn)載,侵權(quán)必究。
本文系數(shù)英原創(chuàng),未經(jīng)允許不得轉(zhuǎn)載。
授權(quán)事宜請至數(shù)英微信公眾號(ID: digitaling) 后臺授權(quán),侵權(quán)必究。

    評論

    文明發(fā)言,無意義評論將很快被刪除,異常行為可能被禁言
    DIGITALING
    登錄后參與評論

    評論

    文明發(fā)言,無意義評論將很快被刪除,異常行為可能被禁言
    800

    推薦評論

    暫無評論哦,快來評論一下吧!

    全部評論(0條)

    遂溪县| 新乐市| 永新县| 莲花县| 德化县| 宁城县| 阿坝| 高陵县| 平乐县| 张家港市| 常熟市| 尉犁县| 新乡市| 邯郸县| 张家界市| 龙江县| 文山县| 余姚市| 威信县| 睢宁县| 县级市| 铁岭市| 沐川县| 陵川县| 上蔡县| 隆林| 来安县| 丘北县| 滦平县| 济南市| 乐至县| 博野县| 仙居县| 四会市| 亚东县| 宁安市| 金乡县| 荔波县| 新和县| 灵丘县| 青浦区|