1. <kbd id="hxllo"></kbd>
        <th id="hxllo"></th>

          首頁  ?  新聞頻道  ?  國內(nèi)新聞

          中國初步建成大規(guī)模藏語數(shù)據(jù)資源庫

          2024-05-25 20:28:20

          來源:中國新聞網(wǎng)

            中新社西寧5月25日電 (記者 孫睿)記者25日從青海師范大學省部共建藏語智能信息處理及應用國家重點實驗室獲悉,該實驗室已初步建成600TF算力的智算平臺和面向多領域多用途的大規(guī)模藏語數(shù)據(jù)資源庫。

            青海師范大學省部共建藏語智能信息處理及應用國家重點實驗室2021年2月經(jīng)中國科技部批準建設,是中國唯一的藏語信息處理領域國家重點實驗室。實驗室擁有5000平方米的科研用房和1.5億元人民幣的專業(yè)研發(fā)設備。

            該實驗室主任趙海興介紹,近年來,實驗室構(gòu)建了藏文百科知識、新聞、經(jīng)濟、文化藝術(shù)等多領域文本語料40G以上,藏語語音數(shù)據(jù)15000小時、各類文化資源近2萬件,規(guī)模達到1600GB,是目前國內(nèi)外最大的基于國標的大型標注語料庫,對中國涉藏地區(qū)教育、語言研究以及社會文化發(fā)展起到積極推動作用。

            同時,該實驗室還構(gòu)建了大規(guī)模藏漢平行語料庫,并通過迭代式回譯策略等進行數(shù)據(jù)增強及質(zhì)量評價,訓練了融合單語語言模型和注入雙語詞典信息的深度神經(jīng)網(wǎng)絡翻譯模型,在新聞、法律等領域準確率達90%以上。

            此外,該實驗室還搭建藏文文獻資源數(shù)字化協(xié)同工作平臺,構(gòu)建文獻圖文對照數(shù)據(jù)150余萬文本行,復雜場景圖文資源220萬個,開展藏文印刷字體、復雜場景藏文區(qū)域檢測研究,自動檢測視頻幀中的文字區(qū)域,并將其分割成單個字符或行文本。利用深度學習對分割處理后的文本進行識別,實現(xiàn)了藏文文獻標準體和手寫體掃描識別系統(tǒng)、藏語視頻流復雜場景中的藏文識別。(完)

          • 相關閱讀
          免責聲明:本網(wǎng)對文中陳述、觀點判斷保持中立,不對所包含內(nèi)容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。 本網(wǎng)站轉(zhuǎn)載圖片、文字之類版權(quán)申明,本網(wǎng)站無法鑒別所上傳圖片或文字的知識版權(quán),如果侵犯,請及時通知我們,本網(wǎng)站將在第一時間及時刪除。
          国产精品久久影视,国产中文字幕在线,色综合久久88色综合天天免费,国产成人精品免费av 国产精品白浆无码流出嗯啊豆 国产精品一区精品国产自在

          1. <kbd id="hxllo"></kbd>
              <th id="hxllo"></th>