在过去的几年中,Internet尤其是WWW得到了飞速的发展,估计已发布的主页达五千万
以上,而且这个数字每天都在增加。然而人们却越来越感觉到Internet这个“数字时代的
图书馆”并不像真正的图书馆那样支持有组织的信息管理和检索。恰恰相反,它只是一个
杂乱无章的信息仓库。在这个仓库中有书刊、论文、科研资料、会议记录、广告、录像、
录音等等,转瞬即逝的信息和具有持久意义的重要资料混杂在一起。
搜索引擎(Search Engine)旨在为用户在页面的海洋中导航,可是现有的搜索引擎(例如
AltaVista)没有一个可以完全有效地检索网络资源的。输入一项检索请求的网络用户会被
数以千计的回答弄得不知所措。检索结果常常涉及一些无关的网址,却漏掉了那些存有重
要资料的其它网址。可以说我们现在已经拥有了一个桌面上的图书馆,但却无法有效地使
用它。
人工智能(AI)注定要在网络时代扮演重要的角色。AI的研究已经进行了四十年,在许
多人的心目中它似乎并没有完成它当初的承诺。的确,AI在许多领域中都遇到了困难,各
种各样的专家系统显得过于脆弱。但是Web对于根植于问题求解与知识处理的AI来说无疑是
一个绝好的环境。AI可以在Internet中导引用户,不仅在用户进行搜索、浏览时给予直接
的支持,而且能够提供具有独立搜索功能的智能体的幕后支持。Internet上的人工智能产
品正像雨后春笋般层出不穷,智能搜索引擎(IntelligentSearchEngine)、智能浏览器(
Intelligent Browser)、学习智能体(Learning Agent)、知识共享智能体(Knowledge
Sharing Agent)已经走出实验室进入商品化阶段。
那么在Intranet中又是怎样一种情形呢?
毫无疑问,像Natscape的Navigator这样的Internet浏览器同样可以用于Intranet。尽管
Intranet也是在TCP/IP环境下使用HTML语言,但由于文件的格式和内容可以被Intranet的
所有者专门化,所以它显得比Internet更加易于管理。不仅如此,Intranet还可以使用Lo
tusNotes等在Internet中不能使用的协议和数据库结构。因此,Intranet将为网络时代的
人工智能提供比Internet更加肥沃的土壤。根据ZonaResearch的市场调查,在未来几年中
,Intranet查询与检索工具的产值将从5300万美元增至2.5亿美元。Lotus公司已经和Poin
tCast联合开发了Domino系统,其中大量使用了人工智能技术。它可以有效地搜索Interne
t中的商业数据并将其散发到Intranet中。Domino中的智能体(Agent)可以搜集同行竞争
者Web站点中的价格变动信息,提醒用户适时改变价格。
一、智能搜索引擎(Intelligent Search Engine)
搜索引擎的目的是帮助用户寻找资源,在Internet环境下其典型实现是基于关键词匹配
的信息检索机。现有的Internet搜索引擎拥有极少量的知识,并且是面向最一般的用户模
型。不划分知识领域、不对用户建立任何描述以及使用关键词匹配的交互方式都限制了搜
索引擎的使用效率。与在Internet中相反,在Intranet中搜索引擎可以预期用户的需求,
并可以有效地抑制关键词的多义性。然而,在Intranet中漏检或者误检一个站点所付出的
代价却是十分昂贵的。所以象EastmanKodak这样的大公司都在尝试在它们的Intranet中使
用更加智能化、知识化的搜索引擎。目前比较成功的智能搜索引擎有FSA、Eloise和FAQFi
nder。 Arthur Andersen的FSA(Financial Statement Analyzer)和Eloise(English L
anguage Oritented Systemfor Edgar)专门用于搜索美国证券交易委员会的Edgar商业数
据库。这两个系统中都内嵌了特定领域中的商业知识,并使用了推断——证明(Predicti
on Substantiation)式的自然语言理解技术。
另一个比较类似的产品是Chicago大学人工智能实验室开发的FAQFinder,它是一个具有
问答式界面的智能搜索引擎。在获知用户问题后,它查询FAQ(Frequency Asked Questio
n)文件以给出比较合适的回答。FAQ Finder的内核由五个互相联系的技术环节构成:
1.基于统计方法建立FAQ文件,这是由FAQ Finder中的工具Smart完成的。
2.用一个由简单名词和动词短语构成的文法树分析用户的查询以得到一个用于支持内容
匹配的描述。
3.问题识别者(Question Recognizer)操作文法树以辩识问题从属的类别。
4.使用语义网分析与概念匹配技术找出与用户查询最近似的问题。
5.FAQFinder给用户返回其得到的匹配,如果没有近似的匹配,则将使用一个启发式的策
略。
二、智能浏览器(Intelligent Browser)
机器学习的理论从人工智能创建时就开始研究,如果不具有学习能力,就不能算具有真
正的智能。简单地说,机器学习是计算机系统有目的地自动增进其性能的过程,如果一个
计算机系统在一段时间内能自行改进从而提高问题求解的能力,则称该系统具备学习能力
。这种性能的提高表现为:效率提高,即加快解题的速度;范围扩张,即可以处理原先不
能解决的问题;精确性提高,即可以得到更加精确的解。
智能浏览器正是基于机器学习理论设计的智能系统,经过一定的训练后,它可以成为某
个领域中熟练的搜索专家,帮助用户在网络中查找信息。智能浏览器的两个比较成功的实
验原型是卡耐基·梅隆大学开发的WebWatcher和Letizia。
WebWatcher是运行在服务器上的系统,它介于用户与WWW之间,用户在浏览器中通过键入
一个描述自己兴趣的主题词进入WebWatcher的主页面。WebWatcher接受请求后用一个嵌入
了WebWatcher命令菜单的界面替换掉当前页面,使WebWatcher伴随用户浏览网络。它将不
断地给用户推荐一系列站点并建立超链接。由于WebWatcher运行在服务器上,所以它可以
记录下数以万计的用户数据来训练自己,从而不断更新知识。如果用户指示某次检索结果
是成功的,WebWatcher会对每一个超链接用代表用户兴趣的关键词加以注释,并存入知识
库。
为了不断提高搜索技巧,WebWatcher采用了四种学习方法:
1.基于信息检索频度的学习,即对每一个超链接加上一个权值项代表频度,以统计用户
使用的频率。
2.基于用户注释的学习。
3.通过对用户资料的分析建立一定的用户描述。
4.Q-学习,即通过用户对已进入页面的价值评估进行学习。
在运行过程中,对于所接触的每一个超链接,WebWatcher根据它估计的用户感兴趣的程
度将其排列入一个表中,如果兴趣值超过一定的阀值,则向用户推荐该链接。
不同于WebWatcher,Letizia是一个运行在客户端的系统,它收集有关用户浏览习惯的信
息,熟悉用户的兴趣爱好,并使用各种启发式策略对现有的知识进行推理,从而实现了一
个Web上有限资源的智能搜索。
Letizia综合使用了信息挑拣与信息过滤策略。信息过滤使用的是一个被动的用户模型,
即由系统除去不太相关的资料;而信息挑拣则使用一个主动的用户模型,用户的查询被设
计成在一组相关的数据中进行的选择。尽管其开发者已认识到理解自然语言的重要,Leti
zia的搜索分析能力目前只限于关键词匹配和对一组感兴趣的链接按优先权顺序排列。
像智能搜索引擎一样,智能浏览器也能在Intranet中发挥重要的作用。在Intranet中,
用户感兴趣的领域被限制在一个相对狭窄的范围内,这将使智能浏览器的搜索更加精确。
三、智能体(Intelligent Agent)
有关智能体的研究虽然还远谈不上成熟,但在过去的十年中确实有了很大的发展,智能
体技术已经开始商品化。按照Lane的定义,智能体是一个具有控制问题求解机理的计算单
元,网络中的智能体通常是一个专家系统、一个过程、一个模块或一个求解单元。
与智能搜索引擎和智能浏览器相比,用于网络的智能体是在空闲时间工作的,它在不需
要用户监督的情况下可以昼夜不停地运行。支持智能体独立工作的技术主要包括:
1.模式匹配和复杂的逻辑比较。
2.基于知识的快速推理系统。
3.继承其它智能体知识的能力。
4.当数据不完整时可以进行缺省推理的能力。
一个成功的智能体系统是BrowserBuddy,它是一个用于组织和链入Web页面的基于规则的
智能体。经过整夜的信息搜索以后,它会在早上给用户提供一个服务清单。在它的导引下
,用户可以迅速进入那些需要长时间交互才能到达的页面。
AgentWare最近发布的Autonomy智能体是一个典型的学习智能体(Learning Agent),它
使用神经网络(Neural Network)而不是关键词来识别信息的模式。用户使用类似自然语
言的描述将智能体限制在一个概念区域中,然后智能体在用户的教导下不断训练,直至能
有效地找到用户感兴趣的文档。Autonomy的核心是Cambridge Neurodynamics开发的动态推
理引擎(Dynamic Reasoning Engine)。它综合使用了神经网络与模糊逻辑(FuzzyLogic
),广泛地应用于数据挖掘(Data Mining)。
Brower Buddy和Autonomy都是通用的智能体,目前还开发了一系列用于在WWW上寻找特定
信息的专用智能体软件,其中几个比较有名的系统是:
1.Firely,使用信息过滤技术来帮助用户查询他所喜爱的电影和音乐,它通过对用户查
询、搜索行为的数据统计来建立对用户的描述。
2.CMU的WeDoggie,一个基于规则的系统,它可以按照用户的兴趣向用户推荐网络资源。
3.CMU的News Weeder,一个智能的新闻阅读器,它基于机器学习的理论来学习用户的兴
趣,查找新的页面和文挡。
4.NewsFinder,一个按用户描述搜索在线新闻的智能体。
5.BargainFinder,专门用于检索低价位的CD唱片的智能体。
四、Intranet中的人工智能
随着Intranet的发展,面向企业网和虚拟团体(VirtualOrganization)的AI技术也发展
得相当快。
许多靠网络联接起来的大型企业对基于智能体的信息管理抱有极大的兴趣,他们希望在
公司内部的BBS上搜索到雇员为解决公司问题所发表的见解。Anderson Consulting's Cen
terfor Strategic Technology Research开发的Contact Finder就是一个基于智能体的BB
S监控系统,它可以对BBS中的信息自动分类。Contact Finder所关注的是提取信息而不是
真正地理解文献的内容,它通过标题和关键词来识别文献所涉及的主要和次要的领域,并
使用与领域无关的启发式搜索策略来处理用户查询。
IBM的Globenet是一个供IBM职员处理用户咨询的智能信息检索系统。基于规则的智能体
被周期性地发出去搜集有关IBM产品的信息,一旦智能体携带相关信息返回,Globenet将根
据规则和知识来组织这些信息。Globenet可以根据这些结构化的或非结构化的知识进行推
理,它使用启发式的策略辩识问题的存在,并通过简单的自然语言理解来判断其中是否有
某些关键的字或短语。据IBM称,Globenet提高了近30%的工作效率。
虚拟团体是一个分布式的组织,它的成员是一组在网络上协同工作的同行,他们依靠网
络的支持相互合作、共享知识,可以快速有效地解决问题。知识共享是虚拟团体的核心技
术,是维护和处理知识的基础。ARPA的智能信息服务工程(Intelligent Information Se
rvice Project)为支持虚拟团体提供了以下一系列技术。
1.先进的知识获取技术,帮助成员搜索、处理知识,从中提炼专家经验。
2.支持多用户的Web开发,以使成员构造自己的Web站点。
3.可以自适应团体需求的自组织式的知识存储。
Stanford大学和NASA共同承担的Next Link&Process Link和GCDK(Generationand Con
servationof Design Knowledge)工程是开发基于智能体的系统来实现分布式的工程设计
,智能体在该系统中负责知识处理和不同成员的工作协调。这两个系统中包含的一个重要
构件是网络图书管理员(WebLibrarian),它是由一个叫做Dedal的智能体实现的。Dedal
可以将各种不同类型的文献(会议记录、技术报告、工程图纸等)按照内容分类存储,并
可以实现基于内容的检索(ContentBasedRetrieval)。
迄今为止在虚拟团体方面最大的一项工程是美国空军委托Lockheed Martingo公司和Tex
as Instrument共同开发的AIMS(AgileInfrastructurefor Manufacturing System),它
是冷战后期美国建立军民两用制造业的产物。
AIMS旨在支持分布在各地的企业在网络上共同开发产品,它在通用的网络协议基础上开
发了基于AI的服务层,支持分布计算、协同工作、知识共享。面向用户的AIMS可以提供实
时分布式的工作环境、按内容检索的知识库和一系列的协同产品开发工具。
Internet与Intranet中的人工智能技术
2024-12-26 21:47