當(dāng)前位置: 首頁 > 知識產(chǎn)權(quán)資訊> 專利 > TISC | 利用領(lǐng)域知識圖譜促進(jìn)企業(yè)專利知識高效重用

TISC | 利用領(lǐng)域知識圖譜促進(jìn)企業(yè)專利知識高效重用

作者:行之集團(tuán)-Richtofen   來源:行之知識產(chǎn)權(quán)集團(tuán)   時間:2022-07-07

 


  本文關(guān)鍵詞:專利,知識圖譜,TISC

  一、構(gòu)建領(lǐng)域知識圖譜的目的和意義

  在傳統(tǒng)制造企業(yè)中,企業(yè)所擁有的知識包括各類標(biāo)準(zhǔn)、設(shè)計(jì)規(guī)范、相關(guān)專利、國際國內(nèi)的法規(guī),設(shè)計(jì)方法和技巧,工藝性的評估,設(shè)計(jì)案例,圖紙說明等,妥善、合理、高效地利用好企業(yè)所擁有的相關(guān)知識是至關(guān)重要的。研究表明,在機(jī)電產(chǎn)品制造和研發(fā)過程中,約80%的產(chǎn)品設(shè)計(jì)工作能夠通過重新利用以往的設(shè)計(jì)知識滿足當(dāng)前設(shè)計(jì)任務(wù)的創(chuàng)新設(shè)計(jì)需求,且有數(shù)據(jù)表明,在一次完整的設(shè)計(jì)流程中,設(shè)計(jì)人員平均花費(fèi)70%的時間來整理、查找已有的設(shè)計(jì)數(shù)據(jù)和知識,而完全投入地用于設(shè)計(jì)產(chǎn)品上的時間約占30%。由此可見,知識的合理利用在整個產(chǎn)品開發(fā)過程中起著重要的作用。
  制造企業(yè)知識如專利,技術(shù)規(guī)范,設(shè)計(jì)經(jīng)驗(yàn)等多以文本的形式存在,行業(yè)特點(diǎn)決定了這些文本語言高度精煉,概括程度較高,每篇文檔的描述重點(diǎn)也相對專一。在生產(chǎn)實(shí)踐中,對這些重要的開發(fā)工程知識的管理過于碎片化,一般都是存儲在數(shù)據(jù)庫中,對知識之間的聯(lián)系缺乏深入挖掘。對設(shè)計(jì)人員來講,知識獲取方式較為單一,因?yàn)樵谄髽I(yè)中,大多數(shù)情況下,文本檢索采用字符串匹配的方法來返回檢索結(jié)果,導(dǎo)致檢索結(jié)果的質(zhì)量參差不齊,需要設(shè)計(jì)人員自己再去遴選,這在一定程度上降低了其設(shè)計(jì)效率。

  知識圖譜由一些相互連接的實(shí)體和實(shí)體之間的關(guān)系構(gòu)成,這些連接關(guān)系組成一個結(jié)構(gòu)化形式的語義網(wǎng)絡(luò),是一種含有語義信息的特定數(shù)據(jù)結(jié)構(gòu),用來描述事物與事物之間的關(guān)系,將各個事物關(guān)聯(lián)起來。知識圖譜可以將實(shí)體間豐富的語義用特定的形式呈現(xiàn)出來,充分地挖掘出實(shí)體間的關(guān)聯(lián)。

知識圖譜構(gòu)建

  二、知識圖譜的構(gòu)建流程

  知識圖譜的構(gòu)建流程包含了以下五個步驟:
  01
  定義具體的問題
  這是首屈一指的環(huán)節(jié),因?yàn)橹R圖譜是一個用來解決問題的工具,重要的是根據(jù)問題利用知識圖譜得到該問題的答案。根據(jù)需要解決的問題來判斷需要構(gòu)建的是通用知識圖譜還是領(lǐng)域知識圖譜,確定是針對細(xì)分領(lǐng)域的知識圖譜研究,還是覆蓋面廣的知識圖譜。如本文需要解決的是成果專利推薦問題,需要構(gòu)建的是專利領(lǐng)域的知識圖譜,知識圖譜富含豐富的語義關(guān)系可以幫忙提高推薦的精度??傊枰劝汛鉀Q的問題給確定,才能分析構(gòu)建哪個領(lǐng)域的知識圖譜,這樣構(gòu)建的知識圖譜才有意義。
  02
  數(shù)據(jù)的收集與處理
  定義好了具體的問題,就明確了需要構(gòu)建知識圖譜的領(lǐng)域。明確了領(lǐng)域之后就需要考慮數(shù)據(jù)來源的問題,因?yàn)闃?gòu)建知識圖譜需要大量的數(shù)據(jù),大量的數(shù)據(jù)才能構(gòu)建出能準(zhǔn)確表達(dá)語義關(guān)系的知識圖譜。同時還需要考慮的是數(shù)據(jù)的處理問題,無論是結(jié)構(gòu)化數(shù)據(jù)還是非結(jié)構(gòu)化數(shù)據(jù),都需要經(jīng)過處理,數(shù)據(jù)的預(yù)處理階段需要對數(shù)據(jù)進(jìn)行篩選。數(shù)據(jù)的收集與處理是必不可少且十分重要的一個步驟,會影響后續(xù)的知識圖譜的表達(dá)。
  03
  知識圖譜的設(shè)計(jì)
  這一環(huán)節(jié)需要確定知識圖譜的實(shí)體、關(guān)系以及屬性。如專業(yè)領(lǐng)域知識圖譜一般包含了以下實(shí)體:專利、用戶、單位、行業(yè)領(lǐng)域、技術(shù)領(lǐng)域、行業(yè)大領(lǐng)域、新技術(shù)領(lǐng)域、產(chǎn)業(yè)鏈等。這些實(shí)體都需要人為去定義,落實(shí)到具體的實(shí)體,代表著具體的事物。關(guān)系的設(shè)計(jì),是根據(jù)所確定的實(shí)體來設(shè)計(jì)的,通常選取的關(guān)系是指各個實(shí)體之間的關(guān)系,如所屬機(jī)構(gòu)關(guān)系、應(yīng)用行業(yè)關(guān)系。屬性的確定也是根據(jù)具體的實(shí)體而言,不同的實(shí)體具有不同的屬性。確定實(shí)體、關(guān)系以及屬性需要遵循實(shí)際的業(yè)務(wù)邏輯關(guān)系,還需要考慮避免冗余的現(xiàn)象出現(xiàn),輕量化知識圖譜,這樣才能提高知識圖譜的使用效率。
  04
  數(shù)據(jù)存入知識圖譜
  知識圖譜設(shè)計(jì)工作完成后,便是從數(shù)據(jù)抽取出所需要的知識,將知識給存入到知識圖譜中,常用的存儲知識圖譜的方式有兩種,一種是以RDF的形式存儲,另一種是存儲在圖數(shù)據(jù)庫。圖數(shù)據(jù)庫存儲是近些年愈發(fā)熱門的知識圖譜存儲方式,圖數(shù)據(jù)庫中使用最為廣泛的是Neo4J圖數(shù)據(jù)庫。Neo4J圖數(shù)據(jù)庫使用的Cypher語句來操作數(shù)據(jù)庫,Cypher語句是專門為了操作Neo4J數(shù)據(jù)庫的一門語言。其開發(fā)借鑒了SQL語句的語法規(guī)則,使得Cypher語句具有SQL語句的簡易操作和靈活。
  05
  上層應(yīng)用開發(fā)
  構(gòu)建好了知識圖譜,有很多業(yè)務(wù)可以用到知識圖譜來提高效率,比如可以用于智能問答、語義搜索、社交網(wǎng)絡(luò)以及垂直行業(yè)應(yīng)用。知識圖譜在很多企業(yè)都有應(yīng)用,如Facebook的核心技術(shù)就是利用知識圖譜將各個用戶相關(guān)聯(lián)起來;Google的搜索引擎功能也是借助構(gòu)建好的知識圖譜,為用戶提供智能化的搜索服務(wù);百度的“小度”語音助手也是依據(jù)知識圖譜來提供智能問答功能。
  領(lǐng)域知識圖譜可以挖掘出某專業(yè)領(lǐng)域知識之間潛在的關(guān)聯(lián),并且針對不同的檢索語句將經(jīng)過深入挖掘的、多樣化的、有關(guān)聯(lián)的,相關(guān)程度較高的知識返回給設(shè)計(jì)人員,實(shí)現(xiàn)企業(yè)專利知識的高效重用。

 

標(biāo)簽:

相關(guān)文章