非结构化范文10篇

时间:2024-01-24 22:03:36

导语:这里是公务员之家根据多年的文秘经验,为你推荐的十篇非结构化范文,还可以咨询客服老师获取更多原创文章,欢迎参考。

非结构化

非结构化信息管理和搜索现状综述

1关键词全文检索技术日显局促,亟待突破

世界范围的WWW正以目前每9个月增加一倍的速度飞速发展,并还将以指数速度继续增加。而另一方面,在从Web或数据仓库中找到你所需要的内容却并非进展迅速,虽然检索到相关结果的速度正以兆兆字节甚至十倍于此的速度增加。据2004年5月NielsenNormanGroup的2004Web可用性调查结果显示,所有用户(包括偶尔使用或经验丰富的用户)对搜索结果满意的次数百分比仅为42%,经验丰富的用户这一数字可以达到50%[1]。最糟糕的搜索经历常发生在使用企业网站点搜索而不是使用巨型搜索引擎的时候。另据ForresterResearch的统计表明,非结构化信息的数量正在以每年200%的速度增长。一般员工大约要花费35%的时间寻找工作所需的非结构化信息[2]。由此可见,搜索引擎必须采取措施使自己变得更为聪明,同时能更准确全面的为大多数用户带来令人满意的搜索结果。我们需要有一个工具,能同管理结构化信息一样,有效地管理我们的非结构化信息。

2有望终结传统搜索模式的Autonomy的“样板工程”Blinkx英德中文版已经推出

2004年7月,位于美国旧金山的创业公司Blinkx推出了一种新型搜索工具Blinkx,该工具可以提供类似“模糊搜索”或“语义搜索”的功能。也就是说,当用户提出类似“搜索引擎未来发展趋势如何”这样的搜索需求时,搜索引擎能够给出相关内容的搜索列表,而不会像传统搜索工具那样只是机械的给出包含“搜索”、“引擎”、“未来”、“发展”、“趋势”等词汇但却远离该主题的文章。Blinkx不仅可以搜索文本内容,还可以搜索电影电视等多媒体内容,不仅可以搜索互联网内容,还可以搜索本机和局域网上的内容。Blinkx同时还可以搜索不同的文本格式内容,如Text、Word、Excel、PPT、PDF以及各种数据库中的数据格式。有媒体把这种搜索方式称为“智能搜索”,这样的搜索引擎一直以来都是人们的梦想,或许Autonomy就是下一代搜索引擎的开端也未可知。当然Autonomy并不只局限于桌面搜索这个狭窄的领域,它不只是代表一系列产品,也不只是一家公司的名字,最主要的是它代表着一种搜索理念和技术[3]。一旦它成功,桌面搜索的格局自然也会跟着发生翻天覆地的变化。

如果安装了Blinkx的客户端软件,一个小的菜单窗口就会出现在Word、Outlook等几乎所有文档处理窗口的右上方。用户在这些窗口中处理文档时,系统会自动分析这个文档,然后自动从本机或网络上抓取相关文章或链接,以供用户参考。它还可以及时提供与文章内容相关的新闻、产品信息、视频内容等分类信息。简单地说,用户完全可以拿一篇文章来作为“查询关键词”,Blinkx通过对这篇文章进行分析,会给出与这篇文章内容最接近的网络链接或本机文档[4]。这无疑给需要处理大量数据的个人和企业提供了巨大便利。

2005年元旦刚过Blinkx进入中国市场,其中文测试版已经“竣工”。目前已经在国内某数据中心建立了一个试验平台,大约有30多台服务器正在运行着Blinkx的后台系统[5]。

查看全文

非结构化信息管理论文

1关键词全文检索技术日显局促,亟待突破

世界范围的WWW正以目前每9个月增加一倍的速度飞速发展,并还将以指数速度继续增加。而另一方面,在从Web或数据仓库中找到你所需要的内容却并非进展迅速,虽然检索到相关结果的速度正以兆兆字节甚至十倍于此的速度增加。据2004年5月NielsenNormanGroup的2004Web可用性调查结果显示,所有用户(包括偶尔使用或经验丰富的用户)对搜索结果满意的次数百分比仅为42%,经验丰富的用户这一数字可以达到50%[1]。最糟糕的搜索经历常发生在使用企业网站点搜索而不是使用巨型搜索引擎的时候。另据ForresterResearch的统计表明,非结构化信息的数量正在以每年200%的速度增长。一般员工大约要花费35%的时间寻找工作所需的非结构化信息[2]。由此可见,搜索引擎必须采取措施使自己变得更为聪明,同时能更准确全面的为大多数用户带来令人满意的搜索结果。我们需要有一个工具,能同管理结构化信息一样,有效地管理我们的非结构化信息。

2有望终结传统搜索模式的Autonomy的“样板工程”Blinkx英德中文版已经推出

2004年7月,位于美国旧金山的创业公司Blinkx推出了一种新型搜索工具Blinkx,该工具可以提供类似“模糊搜索”或“语义搜索”的功能。也就是说,当用户提出类似“搜索引擎未来发展趋势如何”这样的搜索需求时,搜索引擎能够给出相关内容的搜索列表,而不会像传统搜索工具那样只是机械的给出包含“搜索”、“引擎”、“未来”、“发展”、“趋势”等词汇但却远离该主题的文章。Blinkx不仅可以搜索文本内容,还可以搜索电影电视等多媒体内容,不仅可以搜索互联网内容,还可以搜索本机和局域网上的内容。Blinkx同时还可以搜索不同的文本格式内容,如Text、Word、Excel、PPT、PDF以及各种数据库中的数据格式。有媒体把这种搜索方式称为“智能搜索”,这样的搜索引擎一直以来都是人们的梦想,或许Autonomy就是下一代搜索引擎的开端也未可知。当然Autonomy并不只局限于桌面搜索这个狭窄的领域,它不只是代表一系列产品,也不只是一家公司的名字,最主要的是它代表着一种搜索理念和技术[3]。一旦它成功,桌面搜索的格局自然也会跟着发生翻天覆地的变化。

如果安装了Blinkx的客户端软件,一个小的菜单窗口就会出现在Word、Outlook等几乎所有文档处理窗口的右上方。用户在这些窗口中处理文档时,系统会自动分析这个文档,然后自动从本机或网络上抓取相关文章或链接,以供用户参考。它还可以及时提供与文章内容相关的新闻、产品信息、视频内容等分类信息。简单地说,用户完全可以拿一篇文章来作为“查询关键词”,Blinkx通过对这篇文章进行分析,会给出与这篇文章内容最接近的网络链接或本机文档[4]。这无疑给需要处理大量数据的个人和企业提供了巨大便利。

2005年元旦刚过Blinkx进入中国市场,其中文测试版已经“竣工”。目前已经在国内某数据中心建立了一个试验平台,大约有30多台服务器正在运行着Blinkx的后台系统[5]。

查看全文

非结构化信息管理论文

1关键词全文检索技术日显局促,亟待突破

世界范围的WWW正以目前每9个月增加一倍的速度飞速发展,并还将以指数速度继续增加。而另一方面,在从Web或数据仓库中找到你所需要的内容却并非进展迅速,虽然检索到相关结果的速度正以兆兆字节甚至十倍于此的速度增加。据2004年5月NielsenNormanGroup的2004Web可用性调查结果显示,所有用户(包括偶尔使用或经验丰富的用户)对搜索结果满意的次数百分比仅为42%,经验丰富的用户这一数字可以达到50%[1]。最糟糕的搜索经历常发生在使用企业网站点搜索而不是使用巨型搜索引擎的时候。另据ForresterResearch的统计表明,非结构化信息的数量正在以每年200%的速度增长。一般员工大约要花费35%的时间寻找工作所需的非结构化信息[2]。由此可见,搜索引擎必须采取措施使自己变得更为聪明,同时能更准确全面的为大多数用户带来令人满意的搜索结果。我们需要有一个工具,能同管理结构化信息一样,有效地管理我们的非结构化信息。

2有望终结传统搜索模式的Autonomy的“样板工程”Blinkx英德中文版已经推出

2004年7月,位于美国旧金山的创业公司Blinkx推出了一种新型搜索工具Blinkx,该工具可以提供类似“模糊搜索”或“语义搜索”的功能。也就是说,当用户提出类似“搜索引擎未来发展趋势如何”这样的搜索需求时,搜索引擎能够给出相关内容的搜索列表,而不会像传统搜索工具那样只是机械的给出包含“搜索”、“引擎”、“未来”、“发展”、“趋势”等词汇但却远离该主题的文章。Blinkx不仅可以搜索文本内容,还可以搜索电影电视等多媒体内容,不仅可以搜索互联网内容,还可以搜索本机和局域网上的内容。Blinkx同时还可以搜索不同的文本格式内容,如Text、Word、Excel、PPT、PDF以及各种数据库中的数据格式。有媒体把这种搜索方式称为“智能搜索”,这样的搜索引擎一直以来都是人们的梦想,或许Autonomy就是下一代搜索引擎的开端也未可知。当然Autonomy并不只局限于桌面搜索这个狭窄的领域,它不只是代表一系列产品,也不只是一家公司的名字,最主要的是它代表着一种搜索理念和技术[3]。一旦它成功,桌面搜索的格局自然也会跟着发生翻天覆地的变化。

如果安装了Blinkx的客户端软件,一个小的菜单窗口就会出现在Word、Outlook等几乎所有文档处理窗口的右上方。用户在这些窗口中处理文档时,系统会自动分析这个文档,然后自动从本机或网络上抓取相关文章或链接,以供用户参考。它还可以及时提供与文章内容相关的新闻、产品信息、视频内容等分类信息。简单地说,用户完全可以拿一篇文章来作为“查询关键词”,Blinkx通过对这篇文章进行分析,会给出与这篇文章内容最接近的网络链接或本机文档[4]。这无疑给需要处理大量数据的个人和企业提供了巨大便利。

2005年元旦刚过Blinkx进入中国市场,其中文测试版已经“竣工”。目前已经在国内某数据中心建立了一个试验平台,大约有30多台服务器正在运行着Blinkx的后台系统[5]。

查看全文

非结构化信息监管和搜索进程

1检索技术日显局促,亟待突破

世界范围的WWW正以目前每9个月增加一倍的速度飞速发展,并还将以指数速度继续增加。而另一方面,在从Web或数据仓库中找到你所需要的内容却并非进展迅速,虽然检索到相关结果的速度正以兆兆字节甚至十倍于此的速度增加。据2004年5月NielsenNormanGroup的2004Web可用性调查结果显示,所有用户(包括偶尔使用或经验丰富的用户)对搜索结果满意的次数百分比仅为42%,经验丰富的用户这一数字可以达到50%。最糟糕的搜索经历常发生在使用企业网站点搜索而不是使用巨型搜索引擎的时候。另据ForresterResearch的统计表明,非结构化信息的数量正在以每年200%的速度增长。

一般员工大约要花费35%的时间寻找工作所需的非结构化信息。由此可见,搜索引擎必须采取措施使自己变得更为聪明,同时能更准确全面的为大多数用户带来令人满意的搜索结果。我们需要有一个工具,能同管理结构化信息一样,有效地管理我们的非结构化信息。

2有望终结传统搜索模式的Autonomy的“样板工程”Blinkx英德中文版已经推出

2004年7月,位于美国旧金山的创业公司Blinkx推出了一种新型搜索工具Blinkx,该工具可以提供类似“模糊搜索”或“语义搜索”的功能。也就是说,当用户提出类似“搜索引擎未来发展趋势如何”这样的搜索需求时,搜索引擎能够给出相关内容的搜索列表,而不会像传统搜索工具那样只是机械的给出包含“搜索”、“引擎”、“未来”、“发展”、“趋势”等词汇但却远离该主题的文章。Blinkx不仅可以搜索文本内容,还可以搜索电影电视等多媒体内容,不仅可以搜索互联网内容,还可以搜索本机和局域网上的内容。Blinkx同时还可以搜索不同的文本格式内容,如Text、Word、Excel、PPT、PDF以及各种数据库中的数据格式。有媒体把这种搜索方式称为“智能搜索”,这样的搜索引擎一直以来都是人们的梦想,或许Autonomy就是下一代搜索引擎的开端也未可知。当然Autonomy并不只局限于桌面搜索这个狭窄的领域,它不只是代表一系列产品,也不只是一家公司的名字,最主要的是它代表着一种搜索理念和技术。一旦它成功,桌面搜索的格局自然也会跟着发生翻天覆地的变化。

如果安装了Blinkx的客户端软件,一个小的菜单窗口就会出现在Word、Outlook等几乎所有文档处理窗口的右上方。用户在这些窗口中处理文档时,系统会自动分析这个文档,然后自动从本机或网络上抓取相关文章或链接,以供用户参考。它还可以及时提供与文章内容相关的新闻、产品信息、视频内容等分类信息。简单地说,用户完全可以拿一篇文章来作为“查询关键词”,Blinkx通过对这篇文章进行分析,会给出与这篇文章内容最接近的网络链接或本机文档[4]。这无疑给需要处理大量数据的个人和企业提供了巨大便利。

查看全文

大数据会计三个关键问题分析

摘要:随着互联网技术、大数据技术以及云计算技术的快速发展,在各行各业以及有了非常普遍的应用,这些技术虽然为各项工作的开展提供了一定的助力,但与此同时也产生了大量的非结构化数据,其中最主要的则是会计数据。这些数据在会计工作开展过程中很容易导致与企业价值相关的一系列关系模型的合理性受到影响,进而导致相关工作开展受挫。本文变从影响会计数据问题的各方面因素展开研究。

关键词:大数据;会计相关关系;会计数据

非结构化的数据主要包括图片、文本、视频图片等多种内容,随着大数据时代的到来,企业在长期经营过程中开始占据了所有数据的主体位置。企业而言,大量含有较高价值的信息包含在非结构性的数据当中,尤其在会计工作中必须处理好这些数据,才能保证企业信息得到有效保障。大数据技术下的会计核算体系必然会逐渐将非结构化以及碎片化的数据包含,大数据会计必然会成为以后的发展主流。目前,大数据会计急需解决好三方面问题,①大数据会计的整体结构;②如何保证一系列非结构化的数据与企业现有的高价值数据之间建立一定的关联性;③怎样才能将这些数据准确的披露在报表当中。

一、大数据会计的会计数据选择与结构分析

(一)非结构化、碎片化的数据成为会计数据主体。传统的结构化数据往往应对的信息量相对比较少,能够在有限的数据表结构中表现出数据之间的关联以及相互之间可能会造成的影响,但是随着企业信息日益庞杂,大量的非结构化数据引入,传统的数据结构管理模式已然不能满足现有的企业管理要求。以图片视频为代表的碎片化数据不同于结构化的数据,组织会计数据本身,并不能有效地发现不同数据信息之间的关联。同时在企业发展以及信息化建设的促进下,各种非结构化的数据必然会逐渐占据主体位置,在讨论研究大数据会计的数据结构时,须要将非结构的数据放置在核心位置。另外,大数据会计背景下,各方面信息的来源渠道相对比较复杂,如何对这些渠道以及获取到的信息,实现定性的描述分析是会计工作人员急需解决的问题之一。(二)大数据会计的会计数据的结构构成分析。目前,大数据会计的数据结构成分主要有非结构化的数据,碎片化数据以及传统结构化的数据等多方面内容共同组成。另外从数据可靠性以及数据真实性方面的定义来看,会计数据可以分为直接性能数据与间接性的数据两种,以碎片化为代表的非结构化数据属于间接性的数据,这些数据在后续大数据会计建设过程当中必然会占据着主导位置。相对应的直接数据能够更加直观地向会计工作人员展示出相关数据所表现出的含义以及内容。在数据信息记录过程当中,会计信息必然需要经过公司相关负责人员以及审核人员的签字盖章,在这个过程当中需要以扫描的形式完成数据上传,这些收集到的信息往往是非结构化的碎片,数据想要进一步增强会计信息的关联性,就很好地处理好这些碎片化数据之间的联系,但是从实际情况来看会计数据结构组成当中这些碎片化的数据并没有成为一个相对可靠性的会计信息。所以说在后续大数据会计建设时候会计数据必然会以货币为核心因素,这样以货币数据为核心的会计数据组成形式相对有更高的可靠性,能够很好地满足企业大量数据交互过程当中产生的数据处理需求。在大数据时代背景下,虽然数据量越来越大,但是收集信息的难度也会随之增高,由于大部分缺乏专业素养的工作人员,无法准确判断出这些不同数据之间的关系,以及哪一部分数据属于企业需要处理的核心信息。这个时候如果依靠某一个单一的碎片化会计数学,很难准确的描述出企业管理工作开展的需求以及决策产生的影响。

二、非结构化数据与企业价值相关关系的构建

查看全文

弱电设计与综合布线运用的障碍

就现代化智能建筑,尤其是楼宇的弱电设计而言,采用结构化综合布线系统已成为共识。但是,目前还存在着两种看法:一是主张将所有的弱电系统都建立在结构化综合布线所搭起的平台上,也就是用结构化布线代替所有的传统弱电布线;另一则主张将计算机网络布线、电话配线纳入到结构化综合布线中,而其它的弱电系统仍采用其特有的传统布线。究竟采取哪种布线方式较为合理,笔者认为应结合具体项目,从所用方案的先进性、合理性、经济性等方面综合考虑方能得出以下几点结论。

1.智能建筑弱电方案确定基本思路

首先分析一下结构化综合布线的优点:

(1)结构化综合布线使用了标准化的线缆和接插头模块,非常便于各楼层及本楼层间的信息点管理,使得因办公室搬迁等因素造成的大量终端设备、电话机移位时,只需将插头拔出、插入新的位置,然后在弱电设备间内做跳线处理或仅仅作些软件上的更改,即可重新投入使用,而不像传统布线那样无统一标准。当设备需要移位时,会带来许多管理上的不方便或需要重新布线,对建筑装璜造成较大的破坏。

(2)结构化综合布线的扩展能力强,因为对于五类非屏蔽双绞线可以提供155Mb/s信息的传输能力,除了满足当前各种网络的需要外,还能满足未来发展的需要。根据上述结构化综合布线的两个优点,结合建筑物实际的各弱电系统,具有发展性和不稳定性的只有电话系统和计算机网络系统。而对于其他弱电系统,如火灾自动报警系统、保安监视系统、广播系统、电缆电视系统等设备,具有很好的固定性,且位置一般不会移动,对于一个固定的建筑物,这些系统的设备一经选定,频繁更新换代的可能性和必要性均很低。根据以上所述,一般都在弱电设计中把电话系统及计算机网络系统的配线统一纳入结构化综合布线,而对其他弱电系统保持相对的独立性,仍采用传统的配线方式。然而,采用上述方法还有其他一些原因,如当前大多数弱电设备厂家的系统与结构化综合布线系统不兼容。要想使这些弱电系统在结构化综合布线平台上运行,则必须增加转换设备。例如保安监控系统的摄像机,其输出的视频信号通常以同轴电缆传输,如果将其纳入结构化结合布线系统中,需在线路两端增加信号转换设备。显然,这样做既麻烦又不经济。

2.综合布线在应用中存在的问题

查看全文

智能建筑弱电设计管理论文

摘要本文主要论述了智能建筑设计中弱电系统设计方案确定的原则。分析了结构综合布线的优点,并着重就综合布线产品应用中存在的问题进行探讨。建议设计人员根据实际情况,结合我国国情进行智能建筑的设计。

关键词智能建筑弱电子系统结构化综合布线

对于现代化智能建筑,尤其是办公楼宇的弱电设计,采用结构化综合布线系统已成为共识。但是,目前还存在着两种看法(或做法):一是主张将所有的弱电系统都建立在结构化综合布线所搭起的平台上,也就是用结构化布线代替所有的传统弱电布线;另一则主张将计算机网络布线、电话配线纳入到结构化综合布线中,而其他的弱电系统仍采用其特有的传统布线。究竟采取哪种布线方式较为合理,作者认为应结合具体项目,从所用方案的先进性、合理性、经济性等方面综合考虑方能得出结论。

1智能建筑弱电方案确定基本思路

首先分析一下结构化综合布线的优点:

(1)结构化综合布线使用了标准化的线缆和接插头模块,非常便于各楼层及本楼层间的信息点管理,使得因办公室搬迁等因素造成的大量终端设备、电话机移位时,只需将插头拔出、插入新的位置,然后在弱电设备间内做跳线处理或仅仅作些软件上的更改,即可重新投入使用,而不像传统布线那样无统一标准。当设备需要移位时,会带来许多管理上的不方便或需要重新布线,对建筑装璜造成较大的破坏。

查看全文

结构化视角与数学教材研究

【摘要】数学教材是结构性的,具有关联性、非均衡性和生长性的特征。在数学教学中,教师首先要进行教材解读。读通教材、读透教材、读活教材是教材解读的三重境界。从结构化的视角来解读教材,要求教师瞻前顾后、左顾右盼、融会贯通。教师只有从结构化的视角来解读教材,才能帮助学生建立相对稳定、清晰、系统的认知结构。

【关键词】数学教学;结构化视角;教材解读

实施数学结构化教学,必须注重结构化的教材解读。从结构化的视角来进行教材解读,需秉持整体、关联、发展的思想,要求教师读通教材、读透教材、读活教材。在教材解读中,教师既要瞻前顾后,又要左顾右盼,还要融会贯通。教师只有从结构化的视角来解读教材,才能帮助学生建立相对稳定、清晰、系统的认知结构。结构化教材解读,要突破短时、孤立的“课时教材”解读窠臼,进而彰显数学知识的整体性意义。

一、结构化数学教材的特征

数学教材是一种结构化的教材,关联性、非均衡性、生长性是结构化教材的主要特性。数学教材的结构化不仅包括知识结构化,而且包括编排结构化、解读结构化。知识结构化是一种客观存在,编排结构化是一种教材形态,而解读结构化是教师基于自身视角对知识、教材的再加工,是一种创造性开发。

(一)关联性

查看全文

大数据下投资学课程教学改革研究

[摘要]大数据时代的到来为证券投资提供了丰富的数据资源,既优化了投资决策渠道,也极大地拓展了投资者的视野。研究对大数据背景下投资学课程教学现存的问题,如大数据思维模式的冲击、资产选择和配置方式、数据类型和综合决策等方面的挑战进行系统分析,继而以“有效市场理论”展开了该课程的案例教学探讨,从数据采集、数据分析和决策制定三个角度探究了课程教学的改革措施,为培养创新性金融专业人才提出一些建议。

[关键词]大数据;教学改革;投资学

一、引言

经济社会的快速发展带来了海量的数据,这些海量数据之间的价值关联逐步凸显;从各种类型数据中快速获取有价值信息的能力,就是大数据技术。大数据量(Volume)、多类型(Variety)、快速(Velocity)、价值(Val⁃ue)和真实(Veracity)等特点使得传统数据分析和决策方式变得更为困难。如何进一步确保高校教育的与时俱进,充分挖掘大数据时代课程教学的特点,深化学生创新能力和实践能力的培养是高校教育改革面临的重要任务之一。投资学是金融学专业一门重要的基础课,包含较多的理论知识和实践经验。随着教育行业信息化持续推进,教育改革的深化和发展需要在大数据思维引领下进行[1]。面对复杂、海量的数据,投资者如何制定投资决策变得越来越有挑战性。金融创新型人才不仅需要具备扎实的金融理论知识,同时也需具备大数据分析和综合决策的能力。大数据时代的到来对经济、金融类专业学生能力培养提出了新的要求,这不仅体现在投资学等专业课程上,对数学、统计学、计算机技术等课程的教学也提出了相应的要求。挖掘大数据时代的课程教学特点,深化创新教育,培养大学生创新能力和实践能力是高校教书育人所面临的重要课题。本文从投资学课程教学出发,研究大数据时代课程教学的改革特点和推进途径,为深化高校经济类专业课程教学改革提供有价值的参考。

二、投资学课程教学面临的挑战

大数据概念已植根于金融类专业教学中,这不仅推动了金融实务的持续创新,更催生了金融模式的深刻变革。经济社会的发展使得培养创新型金融专业人才离不开大数据,这不仅为高校专业课程教学深化改革指明了方向,同时对现有的教学模式也提出了新的挑战。(一)大数据思维对金融问题分析提出新要求。基于大数据的经济、金融研究与传统计量研究方法相比出现很多新的特征,比如数据的采集、清洗、分析、使用等均有别于传统的方法,这也意味着对问题的思考和分析不能墨守成规。目前,大数据技术已经逐渐渗透到银行、保险、证券、金融监管等方面,并逐步走向成熟。大数据逻辑与传统逻辑有明显区别,如传统方法是理论假说检验驱动,而如今是大数据驱动的归纳推理;大数据是自下而上的推理归纳方法,而传统逻辑则是自上而下的演绎推理方法[2]。(二)优化资产选择和资源配置决策方式。作为投资学核心内容的资产选择和优化资源配置方式需要优化。对投资者而言,股票、债券、期货、期权等金融产品的数据采集变得容易,这拓展了资产选择渠道和优化配置的视角。然而,数据量庞大、低价值密度的特点使得寻找有价值的信息辅助决策更为困难;如何有效利用海量数据挖掘出有用的信息,并构建个性化的投资方案日益重要。海量数据加简单逻辑形成有价值的信息是一件极富挑战的工作[3]。(三)数据类型多样化对分析提出新的考验。大数据时代不仅需要对海量的结构化数据进行分析,同时也需要对半结构化数据和非结构化数据进行分析整理。传统的金融理论,比如组合投资理论、有效市场理论和资产定价理论大都是基于结构化的数据展开分析的,教学和实证过程中也大多依赖于结构化数据。然而,仅对结构化数据进行分析的结果可能有所偏倚。实践证明,对于文本、网页等非结构化数据的分析也同样重要。半结构化数据(及非结构化数据)和结构化数据同样隶属于整体样本中的一部分,不管是哪种数据都夹杂着有价值的数据和无价值的数据。这方面,从金融文献研究、投资者情绪研究的相关研究成果中可见一斑。同时,大数据可扩充的性质要求对各种数据能有效及时地甄别,区分数据的价值。这就要求课程教学特别是案例教学不能仅停留在结构化的数据分析上,而是要拓展到非结构化的数据分析。事实上,教学过程中对结构化数据的重视远超过非结构化数据,而非结构化数据恰恰是大数据时代的产物和分析的基础[4]。从具有价值的数据整体挖掘出其内在反映的真实信息并找到简单逻辑变得极为关键,这将关系到下一步的投资决策。非结构化数据分析其内在信息时较为困难,需要进一步完善其分析的方法和技术。(四)综合决策的挑战。权衡投资风险及收益并做出符合自身效用最大化的决策是投资的核心工作,这需要建立在对大数据的处理分析上。分析问题的途径多了,就会对投资者的综合决策能力提出新的挑战:不仅要考虑到投资者的个性特点,同时也要求对多渠道分析结果进行归纳和总结。更为显著的是,传统的抽样实证方式难以实现对问题的系统分析,在大数据背景下,数据样本总体实证更为重要。传统实证研究和教学的基本逻辑可以归纳为:先确定研究目标、现象总体和个体,再确定所需变量或指标,最后向全部个体或部分个体获取数据。显然,是先有总体再有数据。在大数据背景下难以识别数据的基本特征,很多情况下无法事先掌握所关注问题的完整数据;这种情况下,只有找出这些数据背后的承担者才能构筑总体,所以是先有数据后有总体。目前,受大数据分析技术局限性和经济学专业学生数据处理能力的影响,投资学课程的大数据教学方式改革进展缓慢。大数据分析有利于提高投资决策的效率,是投资学课程教学改革值得探索的研究方向,也是经济、金融等专业适应新形势教学改革的必要探索。培养金融类专业人才需要对投资学教学进行改革,以适应社会的发展[5-6]。

查看全文

电力企业文本数据挖掘技术探究

摘要:在国家电网公司信息化工程的建设过程中,积累了大量的文本数据。如何挖掘文本数据中蕴含的有价值信息将成为电力企业大数据挖掘方向研究的重点对象。文章结合电力行业目前的数据现状,使用文本挖掘的方法对电力设备检修资金投入工作效能场景进行挖掘,对生产信息管理系统中报缺单数据进行文本聚类,实现对缺陷的细分。实践表明,该方法可以得出各类别的缺陷特征,从而证明了文本挖掘在电力行业的可用性。

关键词:电力设备检修;文本数据;文本挖掘;大数据挖掘

随着信息化的快速发展,国家电网公司各专业积累的数据量越来越庞大。庞大数据的背后,由于数据结构和存储方式的多样化以及电力系统内部不同专业从业者的知识面层次不齐等,其中被利用的数据只占少量的部分,造成大量的有价值数据被浪费。在被浪费的数据中,以文本形式存在的数据占很大比重,如何从比较复杂的文本数据中获得需要的数据受到国家电网公司的普遍关注。国家电网公司经过SG186、三集五大等大型信息化工程的建设,积累了海量的业务数据,其中包括大量的文本数据。目前,国家电网公司对业务数据的利用主要集中在结构化数据的统计和分析,这些方法无法直接应用在非结构化文本数据中,更无法对其中隐含的价值规律进行深度分析挖掘。针对非结构化文本数据量不断增大、业务应用范围不断扩大这一现状,为了提升国家电网公司企业运营管理精益化水平,需要进一步挖掘非结构化数据中潜在的数据价值。因此,开展电力大数据文本数据挖掘技术应用场景和一般流程的研究显得尤为重要[1]。

1非结构化数据概述

与结构化数据(能够用二维表结构遵循一定的逻辑语法进行体现的数据)相比,非结构化数据不能在数据库中采用二维结构逻辑形式来表示,这些形式主要有Word文档、文本、图片、标准通用标记语言下的子集XML、HTML、Excel报表、PPT、Audio、Video、JPG、BMP等。半结构化数据处于完全结构化数据(逻辑型、关系型数据库中的数据)和完全无结构化数据(BMP、JPG、Video文件)中间,它一般的功能是对系统文件的描述,如系统应用帮助模块,有一定的逻辑结构,同时也包含数据格式,两者相融在一起,比较均衡,没有明显的界限[2]。进入21世纪后,网络技术飞速发展,特别是内联网和因特网技术取得突飞猛进的发展,各类非结构数据类型格式日益增多,以往的数据库主要用于管理结构化数据,对于非结构化数据的管理稍显乏力,为了适应非结构数据的迅猛发展,数据库的革新势在必行,在内联网和因特网技术的基础上,对数据库的内在结构进行改进和创新,使其能够兼容和处电力信息与通信技术2016年第14卷第1期8电力大数据技术理非结构数据形式。北京国信贝斯是我国非结构化数据库开发和设计的领军者,其旗下开发的IBase数据库能够兼容和处理目前市面上存在的各种文件名、格式、多媒体信息,能够基于内联网和互联网对海量信息进行搜索、管理,技术已经达到全球领先水平。

2文本挖掘技术

查看全文