這就是中國

點贊

收藏

用手機看

曾有人想放棄漢字？AI時代中文技術(shù)優(yōu)勢超乎想象

2025-03-11 11:02:00 《這就是中國》節(jié)目組

前段時間DeepSeek是火爆出圈了，不僅在科技界引起了廣泛的震動，很多普通人現(xiàn)在也開始在使用DeepSeek，甚至有的政府機構(gòu)也開始在應(yīng)用上引入了DeepSeek。那大家可能也很好奇，為什么中國在人工智能時代會不斷地有火爆的產(chǎn)品，中國的整個科創(chuàng)生態(tài)到底有什么樣的優(yōu)勢？復(fù)旦大學(xué)中國研究院的特邀研究員汪濤老師給出了相關(guān)演講。

汪濤老師演講的主題是中文在人工智能時代的優(yōu)勢。 DeepSeek之所以爆火，主要并不是它技術(shù)上獲得了突破性的進展，而主要是其效率獲得了數(shù)量級的提升，從而使得它可以在相同性能的情況下，成本可以下降將近二十多倍。之所以如此，是因為研發(fā)團隊幾乎是將各種可能提升效率的技術(shù)都充分地進行了挖掘。比如說更多地采用底層編碼的語言PTX，一般來說越是更底層的編程語言，它的效率就會越高，但是編程的難度也會越大。另外還有適當(dāng)?shù)亟档途?，比如采用一個字節(jié)的8比特浮點運算，而不是32比特，從而這就可以成倍地減少存儲量和運算量。

這個在人工智能里面有一個專業(yè)的術(shù)語是叫量化，另外還有采用蒸餾的方法，可以極大地減少參數(shù)的數(shù)量。另外還有混合專家架構(gòu)，專業(yè)術(shù)語叫MoE。多頭潛在注意力技術(shù)，這個專業(yè)的術(shù)語叫MLA。這些技術(shù)本身并不是說完全是DeepSeek獨創(chuàng)的，原來在美國人工智能的這個產(chǎn)業(yè)界的專業(yè)人員也知道這些技術(shù)，但為什么DeepSeek把這些技術(shù)充分利用了呢？現(xiàn)在就談一個大家比較容易理解的，也確實非常有興趣，有意思的一個方面：就是中文在人工智能時代它的技術(shù)優(yōu)勢。

DeepSeek充分利用了中文的這種優(yōu)勢，所以在它爆火之后，很多人開始關(guān)注到這個問題。

如果我們回顧一下兩百多年來的歷史，我們對于中文在現(xiàn)代科技中的作用，是經(jīng)歷了一個變化的過程的。

在中國古代，對周邊在文化上有壓倒性的這樣的優(yōu)勢。其他地區(qū)對中國是非常仰慕的心態(tài)。但隨著中國在近代的落后，尤其是甲午戰(zhàn)爭中國失敗了以后，導(dǎo)致很多中國知識階層開始反思我們自己，那首先反思的就是我們的文化，也包括自己的語言文字。這種反思很快就發(fā)展到極端了，甚至有人認為漢字阻礙了中國進入現(xiàn)代科技文明。也有人認為中國應(yīng)當(dāng)放棄中文的這個象形文字，方塊字的這樣的一個基本的形態(tài)，要改成拼音的字母文字。

隨著以電子計算機為代表的信息技術(shù)出現(xiàn)以后，中文在計算機鍵盤輸入上存在一定的困難。因為計算機的鍵盤它是來自英文的打字機，所以輸入英文當(dāng)然是最簡單方便的。因此，過去曾經(jīng)認為中文阻礙了中國進入現(xiàn)代科技文明的觀點和思潮，在信息技術(shù)時代又再一次沉渣泛起。但是，二十世紀八十年代，中國科技界在漢字輸入上做了大量的工作，在當(dāng)時被稱為是叫“萬碼奔騰”。這些漢字輸入的工作在很大程度上降低了中文電腦輸入的困難。其中比較著名和主流的有五筆字型輸入法，也叫王碼，是王永民先生發(fā)明的。那么另外一個常用的輸入法是拼音輸入法。雖然客觀上說，直到今天中文還是比英文等字母文字的鍵盤輸入稍微麻煩那么一點點。但是這些中文輸入法，在很大程度上，已經(jīng)有效解決了中文的計算機的輸入問題。甚至在五筆字型這個輸入法的基礎(chǔ)上，充分地采用詞組輸入以后，它的輸入效率甚至還可以超過英文的輸入。

到了人工智能時代，這個情況發(fā)生了很大的逆轉(zhuǎn)，為什么中文在人工智能中存在這樣的一個技術(shù)優(yōu)勢呢？主要有以下這些原因：

首先是漢字非常的規(guī)整，或者說它非常整齊。漢字無論是書寫還是發(fā)音，它的尺寸都是一樣的，就空間的大小尺寸和它發(fā)音的時間長短尺寸都非常整齊。這種規(guī)整對于計算機的處理是非常方便的。比如要進行語音識別，中文每個字的發(fā)音都是聲母加韻母，發(fā)音的長度一樣，這樣的話就相對比較容易區(qū)分出一句話中的每一個字的發(fā)音。而相比之下，英文一個單詞的長度，從一個字母到十幾個字母的都有，這樣的字母文字，每個單詞它發(fā)音的長度可能都是不一樣的。像英文里面的“祝賀”，是congratulations，這就有15個字母。我們可能會好奇，那最長的英文單詞會有多少個字母呢？如果我們到網(wǎng)上去搜索的話，可能會發(fā)現(xiàn)很多不一樣的答案。還有一個問題是很多英文的句子，它的發(fā)音會有連讀的情況，比如說what’s your name，那么這就更加難以區(qū)分出每個單詞，雖然現(xiàn)在這些問題在人工智能的語音識別中都已經(jīng)解決了，但是它解決的技術(shù)難度，確實它要比中文要困難很多，需要更大的運算量，幾乎所有的字母文字都存在這個問題。

第二個是漢字的信息密度一般比字母文字要高。這個體現(xiàn)在很多方面。漢字它是一個表意文字，內(nèi)涵很豐富，可以用詞組、成語等很少的漢字就能表達非常豐富的含義。尤其像文言文，它的信息密度就更高了。對于人工智能來說，最終它體現(xiàn)是相同含義的一段語言或文字，在計算機中間需要有多少存儲量和計算量。一般來說，中文的存儲量和計算量它都是最少的。如果我們對比一下書面相同內(nèi)容的中文和英文或其他的字母文字，中文一般都是頁數(shù)或者它的幅面是最少的。但我們要注意，這個并不是說完全絕對的，因為英文也有人家的優(yōu)點，比如說它相對比較嚴謹，所以在比較嚴謹?shù)囊恍┱撐幕蚍晌臅锩?，有可能英文的信息密度與中文的差異就沒有那么大了。但是由于絕大多數(shù)情況下，中文的信息密度的確是比較高的，所以在人工智能的訓(xùn)練中，相同內(nèi)容中文訓(xùn)練的存儲量和計算量就會比較少。這是中文效率優(yōu)勢的第二個體現(xiàn)。

第三個是它的穩(wěn)定性。漢字是相對比較穩(wěn)定的一種語言，我們今天所使用的漢字與幾千年前的甲骨文大都是非常接近的。對于新出現(xiàn)的事物，漢字是通過常用的一些字去建立新的詞組來進行適應(yīng)，并且這樣的詞組今天天然地會存在有規(guī)律性分類的這樣的一些特性。比如說是機器這個里面的機這個字，可以組成拖拉機、播種機、飛機、紡織機、發(fā)動機、蒸汽機、計算機，如此之多的機器漢字都可以用機這個形成詞組來表達。漢字的穩(wěn)定性對人工智能帶來的好處是訓(xùn)練的參數(shù)可以更少，有效的重復(fù)訓(xùn)練可以更多，那么準確性就更高。

相比之下，英文每年都會增加大量的新詞，常用的單詞都可能會發(fā)生變化。當(dāng)然我們提到中文在人工智能時代的技術(shù)優(yōu)勢，并不是要把它過度地拔高，只是從以上不同技術(shù)時代，中文技術(shù)優(yōu)劣勢的變化過程中，希望我們能更客觀地看待我們中國自己的文化。在進入人工智能時代，我們更應(yīng)該發(fā)揮中文的優(yōu)勢，使得中國在人工智能時代可以獲得更快的發(fā)展，并且有更好的經(jīng)濟效益。從我們對自己語言的態(tài)度變化中，我們應(yīng)該獲得一些啟示：就是如何用科學(xué)的態(tài)度去看待自己的文化。所謂利弊或者優(yōu)勢、劣勢，它永遠是相對特定的要求來說的。我們不能說遇到某種劣勢就簡單地去否定我們自己的文化，也不能遇到優(yōu)勢就自我膨脹，科學(xué)的態(tài)度就是如果它是劣勢，我們就應(yīng)該想辦法通過一些技術(shù)改進，去消除或者減少這種劣勢。如果是優(yōu)勢呢，我們就應(yīng)該想辦法去充分地開發(fā)利用它，即使是潛在的優(yōu)勢，如果你不去充分地開發(fā)利用它也不會自動地體現(xiàn)出來，或者說它體現(xiàn)得不夠充分。

編輯：	劉清揚
責(zé)編：	范燕菲

版權(quán)聲明：本文系看看新聞Knews獨家稿件，未經(jīng)授權(quán)，不得轉(zhuǎn)載

關(guān)鍵詞：中國 DeepSeek 中文漢字人工智能

廣播電視節(jié)目制作經(jīng)營許可證：（滬）字第510號互聯(lián)網(wǎng)新聞信息服務(wù)許可證：31120240001 網(wǎng)絡(luò)文化經(jīng)營許可證：滬網(wǎng)文[2018]4466-313號互聯(lián)網(wǎng)ICP備：滬ICP備10207042號-1 滬ICP備10207042號-4 網(wǎng)視備（滬）02020000020-1號違法與不良信息舉報郵箱：service@kankanews.com

劍網(wǎng)行動舉報電話：12318（市文化執(zhí)法總隊）、021-64334547（市版權(quán)局）

Copyright ? 2016 Kankanews.com Inc. All Rights Reserved. 看東方（上海）傳媒有限公司版權(quán)所有

看看新聞APP

滬公網(wǎng)安備 31010602001114號