,,

核心提示：AI成精，逼瘋程序員；AI做高數(shù)，成績超過博士；AI寫代碼，成功調(diào)教智能體

AI成精，“逼瘋”程序員；AI做高數(shù)，成績超過博士；AI寫代碼，成功調(diào)教智能體……

看多了這種故事，你是不是也覺得，AI太卷了，要上天了。

今天回歸本源，講點(diǎn)不那么玄幻的。AI為什么會(huì)進(jìn)化？底層其實(shí)沒有秘密，無非是語言、視覺等幾大基本功。

其中，語言能力對(duì)AI的智能水平有決定性影響。視覺研究怎么“看”，語言研究“聽”、“說”和“理解”。

對(duì)人類來說，“聽”、“說”、“理解”相加，基本等于思維能力，對(duì)AI，道理也差不多。

最近，咨詢機(jī)構(gòu)Gartner發(fā)布《云AI開發(fā)者服務(wù)關(guān)鍵能力報(bào)告》，對(duì)全球云服務(wù)商的AI能力做了排行。

語言AI這一項(xiàng)，第一名毫不意外是谷歌。

第二名比較驚喜，是阿里巴巴。這是榜單發(fā)布以來，中國公司在該領(lǐng)域第一次進(jìn)入全球前三。

全球前十中，中國的BAT占了三席，成績可謂是矚目。

谷歌得分3.55，阿里得分3.48

語言AI，包含語音、語義兩個(gè)大類。

語音負(fù)責(zé)讓機(jī)器學(xué)會(huì)“聽”和“說”；語義，也就是自然語言處理（NLP），負(fù)責(zé)讓機(jī)器學(xué)會(huì)“理解”。

先來看看Gartner報(bào)告對(duì)語音語義的評(píng)判標(biāo)準(zhǔn)：

報(bào)告考察了云廠商語言AI的多個(gè)細(xì)分服務(wù)項(xiàng)，比如語音識(shí)別、語言理解等，并對(duì)每個(gè)服務(wù)項(xiàng)的功能實(shí)現(xiàn)程度進(jìn)行評(píng)級(jí)。
Gartner將每種功能的程度分為5個(gè)等級(jí)，分別對(duì)應(yīng)1-5分，分?jǐn)?shù)越高則表明實(shí)力越強(qiáng)。

阿里云上的AI能力，主要包括：

阿里在語音識(shí)別、自然語言生成/語音合成、語言理解/處理、文本分析這幾項(xiàng)關(guān)鍵能力都獲得了最高分。

報(bào)告對(duì)每個(gè)細(xì)分項(xiàng)賦予權(quán)重，結(jié)合單項(xiàng)得分和項(xiàng)目權(quán)重計(jì)算總分，最終谷歌的語言AI以3.55的總分排名第一；阿里得分3.48，排名第二。

但除此之外更為細(xì)節(jié)的能力，Gartner的報(bào)告并未詳細(xì)描述。

達(dá)摩院加持的云上AI

還是跟著Gartner報(bào)告，把“語言AI”一拆為二，看看什么是語音，什么是語義。

首先是語音層面的AI技術(shù)。

語音的應(yīng)用，我們并不陌生，蘋果Siri、微軟小冰等AI助手，都是通過賦予機(jī)器語音能力，從而與人類產(chǎn)生交互。

每一個(gè)語音產(chǎn)品，背后都有一套語音技術(shù)軟硬件作支撐。

阿里云所依托的，是達(dá)摩院在語音AI領(lǐng)域的深厚積累。

達(dá)摩院在語音AI領(lǐng)域最早以語音識(shí)別技術(shù)起家，技術(shù)能力涵蓋語音識(shí)別聲學(xué)模型和基礎(chǔ)框架、說話人區(qū)分、語音合成聲學(xué)模型和聲碼器、口語語言處理、聯(lián)合優(yōu)化的聲學(xué)前端等。

2019年，阿里語音AI曾被MIT評(píng)選為當(dāng)年度的“十大突破技術(shù)”，這背后的技術(shù)能力，就來自于達(dá)摩院。

以Gartner報(bào)告評(píng)估過的Speech to text、也就是我們常說的“語音識(shí)別”技術(shù)為例。

達(dá)摩院的語音AI，在常規(guī)的近場語音識(shí)別、遠(yuǎn)場語音場景、多人交談“雞尾酒會(huì)場景”語音識(shí)別技能之外，還有一些別致的長尾技能，比如“中英自由說”、“方言自由說”。

舉個(gè)栗子，中英文混說——“借你的iPad給我看下paper”，這句話機(jī)器如何理解呢？

業(yè)界通行的端到端語音識(shí)別 (End-to-End ASR) 技術(shù)，在單語種任務(wù)上效果很好，但一切換到多語種混說（Code-Switch）場景下，還是不太理想。

針對(duì)這類問題問題，達(dá)摩院語音實(shí)驗(yàn)室借鑒混合專家系統(tǒng)（Mixture of Experts）的思想。

在端到端語音識(shí)別模型中，對(duì)中文和英文分別設(shè)計(jì)了一個(gè)子網(wǎng)絡(luò)，最后通過門控模塊對(duì)每個(gè)子網(wǎng)絡(luò)的輸出進(jìn)行加權(quán)。

為了減少模型參數(shù)量，中、英文子網(wǎng)絡(luò)采用底層共享，高層獨(dú)立的方式。最終使模型在中文、英文、中英文混說場景下都能取得比較好的效果。

在此基礎(chǔ)上，達(dá)摩院融合了其自研的端到端語音識(shí)別技術(shù)SAN-M網(wǎng)絡(luò)結(jié)構(gòu)，打造出新一代的端到端中英自由說語音識(shí)別系統(tǒng)。

最后的效果就是：阿里的語音AI能在沒有語種信息的前提下，大幅提升中英文混說場景下的識(shí)別性能。

△ SAN-M網(wǎng)絡(luò)結(jié)構(gòu)框架

借鑒這套模型搭建思路，達(dá)摩院又解鎖了“方言自由說”技能，打造了一套端到端方言自由說語音識(shí)別系統(tǒng)。

在不需要提供方言id的情況下，用一個(gè)模型就能識(shí)別14種常用方言，并且保證純中文相對(duì)于單語模型的識(shí)別性能基本不降。

達(dá)摩院的AI技術(shù)主要通過阿里云對(duì)外提供服務(wù)，以“被集成”方式，廣泛應(yīng)用于運(yùn)營商、電商、物流、電力等多個(gè)行業(yè)。

除了語音AI技術(shù)之外，阿里在語義層面同樣形成了一套強(qiáng)大的技術(shù)體系。

語言本身就是“音”和“義”的結(jié)合體——“聽到”誠可貴，“聽懂”價(jià)更高。

人類語言并不難，幾歲孩童便可輕松掌握一門語言。但計(jì)算機(jī)有自己的編程語言，要它理解人類語言難如登天。

NLP技術(shù)的進(jìn)化，是AI從感知智能向認(rèn)知智能演進(jìn)的前提。而在過去十幾年內(nèi)，NLP技術(shù)進(jìn)化最具標(biāo)志性的事件，就是大規(guī)模預(yù)訓(xùn)練語言模型的出現(xiàn)。

阿里達(dá)摩院是業(yè)界最早開展大模型探索的團(tuán)隊(duì)之一，2019年就開始研發(fā)大規(guī)模預(yù)訓(xùn)練語言模型體系A(chǔ)liceMind，并以此作為技術(shù)底座，開展對(duì)內(nèi)對(duì)外的技術(shù)服務(wù)。

“前大模型時(shí)代”，NLP技術(shù)解決問題的方法，是為每個(gè)任務(wù)單獨(dú)設(shè)計(jì)模型。模型開發(fā)往往很復(fù)雜，缺乏算力、數(shù)據(jù)、技術(shù)力量的中小團(tuán)隊(duì)往往難以負(fù)擔(dān)。

預(yù)訓(xùn)練語言模型出現(xiàn)后，AI的整體智能比過去大幅提升，NLP技術(shù)的賦能方式也逐漸變成“預(yù)訓(xùn)練+微調(diào)”范式。

也就是以通用的預(yù)訓(xùn)練模型為基礎(chǔ)，加入簡單的任務(wù)層、結(jié)合少量場景語料，以較低成本訓(xùn)練出優(yōu)質(zhì)的任務(wù)模型。

達(dá)摩院的阿里的大規(guī)模預(yù)訓(xùn)練語言模型體系，擁有閱讀、寫作、翻譯、問答、搜索、摘要生成、對(duì)話等多種能力。

大模型通常并不直接用于解決應(yīng)用問題，而是通過與具體任務(wù)、應(yīng)用場景的結(jié)合，逐層孵化“中模型”、“小模型”。

在大模型體系基礎(chǔ)上，達(dá)摩院語言技術(shù)實(shí)驗(yàn)室先后孵化了一系列“中模型”，包括：

通用預(yù)訓(xùn)練模型StructBERT
生成式預(yù)訓(xùn)練模型PALM
多語言預(yù)訓(xùn)練模型VECO
超大中文預(yù)訓(xùn)練模型PLUG
多模態(tài)預(yù)訓(xùn)練模型mPLUG
結(jié)構(gòu)化預(yù)訓(xùn)練模型StructuralLM
預(yù)訓(xùn)練對(duì)話模型SPACE
表格預(yù)訓(xùn)練模型STAR等
這些模型各有專長，StructBERT、mPLUG和StructuralLM具備挖掘文本、圖像、表格“結(jié)構(gòu)”信息的能力，單語言生成模型PALM、多語言生成模型VECO、超大中文預(yù)訓(xùn)練模型PLUG都為語言生成任務(wù)（NLG）而生。

例如StructBERT，是達(dá)摩院在谷歌BERT模型基礎(chǔ)之上所提出的優(yōu)化模型，它可以讓機(jī)器更好地掌握人類的語法、理解自然的語言。

StructBERT一經(jīng)推出，便在當(dāng)時(shí)GLUE基準(zhǔn)上取得了SOTA（89.0分），并且還將SQuAD v1.1問題回答上的F1得分推至93.0的新高度。

再如多語言預(yù)訓(xùn)練模型VECO，曾拿下國際權(quán)威多語言榜單XTREME排名第一，成績遠(yuǎn)超Meta和微軟等國際巨頭的模型。

多模態(tài)預(yù)訓(xùn)練模型mPLUG在視覺問答（VQA）任務(wù)上首次超過人類結(jié)果。對(duì)話預(yù)訓(xùn)練模型SPACE在10多個(gè)對(duì)話國際榜單和數(shù)據(jù)集上取得SOTA。

基于AliceMind技術(shù)，達(dá)摩院先后斬獲了35個(gè)冠軍，在某些領(lǐng)域的水平已經(jīng)非常接近人類對(duì)語言理解的程度了。并且，該技術(shù)已面向全球開發(fā)者開源。

眾所周知，大規(guī)模預(yù)訓(xùn)練模型開發(fā)成本極高，玩家通常集中于頭部科技企業(yè)，但新的模型賦能范式，使得更多中小團(tuán)隊(duì)、個(gè)人開發(fā)者也能分享大模型的紅利。

……

據(jù)了解，目前阿里達(dá)摩院語音語義領(lǐng)域的研究已有300百多篇論文被國際頂會(huì)收錄，相關(guān)研究已應(yīng)用于醫(yī)療、電力、電商等領(lǐng)域。

此前，IDC發(fā)布《2021H2中國AI云服務(wù)市場研究報(bào)告》中，阿里在語音和語義市場上的份額便取得了第一的成績。

語音語義的前史和未來

在人工智能發(fā)展長河中，語音語義是最早起步的技術(shù)之一，也是人工智能的基石。

語音技術(shù)最早可以追溯到1952年，貝爾實(shí)驗(yàn)室的Davis等人研制出了世界上第一個(gè)能識(shí)別10個(gè)英文數(shù)字發(fā)音的實(shí)驗(yàn)系統(tǒng)Audry，從此拉開了語音識(shí)別發(fā)展的序幕。

語義技術(shù)更是可以追溯到1947年，當(dāng)時(shí)英美科學(xué)家聯(lián)手提出了利用計(jì)算機(jī)進(jìn)行語言自動(dòng)翻譯的設(shè)想，機(jī)器翻譯的誕生也正意味著打開了語義發(fā)展的大門。

于是，讓機(jī)器“聽到”、“聽懂”人類語言這件事，便在那段時(shí)間起，成為了學(xué)界和產(chǎn)業(yè)界爭相發(fā)展的技術(shù)高地。

各界的紛紛投入，也讓工業(yè)界誕生了眾多“史詩級(jí)”的產(chǎn)品，例如蘋果在2011年發(fā)布的Siri，以及后來亞馬遜、谷歌、微軟等推出的Alexa、Google Assistant、Cortana等。

另一方面，這背后的技術(shù)也產(chǎn)生了革命性的迭代變遷，例如近幾年Transformer、Bert等技術(shù)的爆發(fā)，極大地推動(dòng)了語音語義技術(shù)的發(fā)展。

在這種大趨勢的背后，更重要的意義在于語音語義已然是普通人“唾手可用”的技術(shù)。

以阿里為例，達(dá)摩院的機(jī)器翻譯技術(shù)每天為國內(nèi)200萬中小商家翻譯上億文字，讓不懂英語和小語種的商家也能把國貨賣到全世界。

這樣的技術(shù)還已應(yīng)用到了“買票”場景。

去年年中，北京首都機(jī)場和大興機(jī)場均開通了語音購票的服務(wù)，只需要乘客張張嘴說出目的地，便可以在1.6秒內(nèi)快速完成選站。

事實(shí)上，未來任何硬件終端都可以集成語言AI技術(shù)，這樣的應(yīng)用空間是巨大的，這也正是國內(nèi)外學(xué)者、科技巨頭紛紛發(fā)力于此的原因。

就像中國計(jì)算機(jī)學(xué)會(huì)副理事長、瀾舟科技創(chuàng)始人兼CEO周明所評(píng)價(jià)的那般：

自然語言技術(shù)是人工智能領(lǐng)域的核心技術(shù)，過去幾年預(yù)訓(xùn)練模型的興起已經(jīng)讓這一技術(shù)領(lǐng)域取得了質(zhì)的飛躍，也加速了人工智能領(lǐng)域從感知智能走向認(rèn)知智能的進(jìn)程。

這一系列突破將給各行各業(yè)乃至個(gè)人生活帶來巨大的價(jià)值，很高興看到以阿里巴巴為代表的的中國科技公司在該領(lǐng)域進(jìn)入了世界第一梯隊(duì)。”

也正如Gartner在此次報(bào)告中所述：

企業(yè)正在開發(fā)大規(guī)模語言模型，以提供更廣泛的語言服務(wù)。主要云服務(wù)商正在利用其云基礎(chǔ)設(shè)施開發(fā)專有語言模型。較小的供應(yīng)商正在利用開源軟件、數(shù)據(jù)和機(jī)器學(xué)習(xí)模型進(jìn)行競爭。

但縱觀語音語義的發(fā)展，有一點(diǎn)是始終未曾變化的，那就是它的理想目標(biāo)——和機(jī)器對(duì)話，像在跟人類交流。

前不久谷歌研究員爆料“AI具備人格”的事件在科技圈引發(fā)了熱議，雖然后來谷歌對(duì)其已經(jīng)進(jìn)行了辟謠，但其背后無法掩蓋的事實(shí)是AI正在逐漸向人類逼近。

那么在未來，語音語義技術(shù)又將如何顛覆人們的生活，是值得期待了。

无人码一区二区三区视频-午夜.dj高清在线观看免费8-午夜a视频-午夜dy888理论-播放个毛片看看-播放毛片

國內(nèi)首次！這家中國企業(yè)的語言AI實(shí)力被公認(rèn)全球No.2！僅次于谷歌