网页信息表格化提取程序的论文

时间:2022-10-25 08:04:36 论文 收藏本文 下载本文

网页信息表格化提取程序的论文(共11篇)由网友“jackable”投稿提供,这次小编在这里给大家整理过的网页信息表格化提取程序的论文,供大家阅读参考。

网页信息表格化提取程序的论文

篇1:网页信息表格化提取程序的论文

网页信息表格化提取程序的论文

摘 要:

本文介绍了基于MSHTML设计开发的网页信息表格化提取程序的原理、程序结构和工作流程,使用网页信息提取、网页元素解析、采集配置管理三大功能模块,实现对网页及其内部关联信息的提取、解析、整理和表格化显示,创新使用了对网页属性值和树路径值进行确认的二元检查机制,能够实现对指定信息的准确提取。本文还举例说明了程序的操作步骤和实际效果。

引言

当今是网络高速发展、信息量急剧膨胀的信息时代,人们通过信息来互相交流,认识世界。在信息中存在着大量有价值的信息要素,这些有价值的'信息要素大都以网页的形式存在,其内容和格式千差万别。如果通过浏览器进行浏览和阅读不存在问题,但若需要将感兴趣的某类信息及其内部关联信息保存下来并进行整理,目前常用的工具普遍存在着某些缺点,比如网络蜘蛛等爬虫工具无法实现对内部关联信息的提取。因此,本人作者使用MSHTML语言设计了网页内部表格化提取的自动程序,可以完成对网页及内部关联信息的保存、整理和表格化显示,能够明显提高对信息的利用效率。

1、信息提取原理分析

人们通过浏览器所看到的页面,是由很多的页面元素组装在一起的,其中既有常见的图片和文字,也有专门的结构元素,所有这些页面元素经过一定的组合形成了我们看到的页面。对网页进行进行提取,实质上就是使用一定技术方法将指定的网页元素进行解析、特征匹配和显示的过程。

网页信息的元素可以分为以下三种级别:

顶级元素(Top-level element):共有html、body和frameset三种,属于高级块级元素,表现类似块级元素。

块级元素(Block-level element):能够独立存在且元素之间可以换行分割,常用的块级元素有p、div、ul、table等。

内联元素(inline element):依附其他块级元素存在,紧接于被联元素之间显示并且不换行,常用的内联元素包括img、span、li、br等。

2程序的设计思想

2.1 采集原理

2.2 二元检查机制

2.3 程序功能设计

3 程序结构及工作流程

3.1主要功能

3.2 运行流程

4程序的主要功能实现方法

4.1采集配置管理

4.2网页元素解析

5 运行测试

5.1 读取页面

5.2 配置采集

5.3 采集网页信息

5.4查看采集结果

6、结语

随着网络化的快速发展,人们对网页元素的需求越来越转向个性化分类和精确提取,以往面向全部内容的野蛮采集方式已经无法满足目前的需求,对其进行针对性的研究有着积极意义。

网页信息表格化提取程序通过网页信息提取、网页元素解析、采集配置管理三大功能模块的分工协作,实现对网页及其内部关联信息的提取、解析、整理和表格化显示,不仅克服了以往网页信息抓取工具不能提取内部关联网页信息的不足,使得程序的适用性、扩展性明显提高,而且程序中创新使用的对网页属性值和树路径值进行确认的二元检查机制,能够实现对指定信息的准确提取,极大提升了程序结果的精确性。

虽然网页信息表格化提取程序在精确性、适用性和扩展性上取得了进步,但也存在一些不足,希望以后能找到更好的解决方法....

篇2:巧用WPS表格提取身份证信息

目前,我国的身份证号分为两种,一种为15位, 一种为18位,在15位的老版身份证中,第7到12位为出生日期数,最后一位为性别代码,偶数为女,奇数为男。18位的新身份证中第7到14位为出生日期数,倒数第2位为性别代码,同样偶数为女,奇数为男。

基于这个特点,我们可以用函数加以判断。如图1是我们已输入完身份证号的职工信息表,在输入身份证号时需注意,要把单元格格式设为文本型,或在所输身份证号前加一个单引号“'”。

1、提取出生日期

在D2中输入公式“=IF(LEN(C2)=15,TEXT(MID(C2,7,6),“1900月00日”),TEXT(MID(C2,7,8),“00年00月00日”))”,拖动填充柄向下复制公式,这样就完成了出生日期的提取(如图2):

2、提取性别信息

在E2中输入公式“=IF(MOD(IF(LEN(C2)=15,MID(C2,15,1),MID(C2,17,1)),2)=1,“男”,“女”)”,拖动填充柄向下复制公式,这样就完成了性别信息的提取(如图3):

公式详解:LEN是长度函数,MID是提取字符函数,TEXT是转换格式函数,MOD是整除函数,IF是判断函数,

提取出生日期公式的意思是如果身份证号为15位,把从第7位起的6个字符转换为“1900年00月00日”的格式,否则(即为18位身份 证),把从第7位起的8个字符转换为“00年00月00日”的格式。

提取性别信息公式的意思是如果身份证号为15位,把第15位和2整除,如果整除,显示为女,不能整除,显示为男;身份证号为18位,把第17位和2整除,如果整除,显示为女,不能整除,显示为男。

另外,如果想把出生日期转换为真正的日期类型,只需在公式中在TEXT前加两个减号,这是减负运算,然后根据需要设置单元格具体的日期类型。

篇3:教程:巧用WPS表格提取身份证信息

目前,我国的身份证号分为两种,一种为15位, 一种为18位,

教程:巧用WPS表格提取身份证信息

。在15位的老版身份证中,第7到12位为出生日期数,最后一位为性别代码,偶数为女,奇数为男。18位的新身份证中第7到14位为出生日期数,倒数第2位为性别代码,同样偶数为女,奇数为男。

基于这个特点,我们可以用函数加以判断。如图1是我们已输入完身份证号的职工信息表,在输入身份证号时需注意,要把单元格格式设为文本型,或在所输身份证号前加一个单引号“'”。

1、提取出生日期

在D2中输入公式“=IF(LEN(C2)=15,TEXT(MID(C2,7,6),“1900年00月00日”),TEXT(MID(C2,7,8),“00年00月00日”))”,拖动填充柄向下复制公式,这样就完成了出生日期的提取(如图2):

2、提取性别信息

在E2中输入公式“=IF(MOD(IF(LEN(C2)=15,MID(C2,15,1),MID(C2,17,1)),2)=1,“男”,“女”)”,拖动填充柄向下复制公式,这样就完成了性别信息的提取(如图3):

公式详解:LEN是长度函数,MID是提取字符函数,TEXT是转换格式函数,MOD是整除函数,IF是判断函数,

提取出生日期公式的意思是如果身份证号为15位,把从第7位起的6个字符转换为“1900年00月00日”的格式,否则(即为18位身份 证),把从第7位起的8个字符转换为“00年00月00日”的格式。

提取性别信息公式的意思是如果身份证号为15位,把第15位和2整除,如果整除,显示为女,不能整除,显示为男;身份证号为18位,把第17位和2整除,如果整除,显示为女,不能整除,显示为男。

另外,如果想把出生日期转换为真正的日期类型,只需在公式中在TEXT前加两个减号,这是减负运算,然后根据需要设置单元格具体的日期类型。

篇4:WPS表格从身份证号提取生日及性别信息

最近,单位需要上报人事局一份职工信息,其中既有个人身份证号,又有出生日期、性别等信息,由于人员众多,输入确实麻烦,而且容易出错,弄不好还得返工。能不能有个一个一劳永逸的办法,又快又准地录入出生日期、性别等个人信息呢?能!因为身份证号中包含这些个人信息,我们使用WPS表格可以轻松地提取些个人信息,以实现自动录入,从而又快又准地完成工作。

目前,我国的身份证号分为两种,一种为15位, 一种为18位。在15位的老版身份证中,第7到12位为出生日期数,最后一位为性别代码,偶数为女,奇数为男。18位的新身份证中第7到14位为出生日期数,倒数第2位为性别代码,同样偶数为女,奇数为男。

基于这个特点,我们可以用函数加以判断。如图1是我们已输入完身份证号的职工信息表,在输入身份证号时需注意,要把单元格格式设为文本型,或在所输身份证号前加一个单引号“'”。

图1

1、提取出生日期

在D2中输入公式“=IF(LEN(C2)=15,TEXT(MID(C2,7,6),“1900月00日”),TEXT(MID(C2,7,8),“00年00月00日”))”,拖动填充柄向下复制公式,这样就完成了出生日期的提取(如图2):

图2

2、提取性别信息

在E2中输入公式“=IF(MOD(IF(LEN(C2)=15,MID(C2,15,1),MID(C2,17,1)),2)=1,“男”,“女”)”,拖动填充柄向下复制公式,这样就完成了性别信息的提取(如图3):

图3 本文图片来自金山

公式详解:LEN是长度函数,MID是提取字符函数,TEXT是转换格式函数,MOD是整除函数,IF是判断函数,

提取出生日期公式的意思是如果身份证号为15位,把从第7位起的6个字符转换为“1900年00月00日”的格式,否则(即为18位身份 证),把从第7位起的8个字符转换为“00年00月00日”的格式。提取性别信息公式的意思是如果身份证号为15位,把第15位和2整除,如果整除,显示为女,不能整除,显示为男;身份证号为18位,把第15位和2整除,如果整除,显示为女,不能整除,显示为男。另外,如果想把出生日期转换为真正的日期类型,只需在公式中在TEXT前加两个减号,这是减负运算,然后根据需要设置单元格具体的日期类型。

以上只是在身份证录入正确的情况下设置的,如果身份证号录入错误,如位数不对,日期信息不对(如月分数超过了12,日数出现2月有31号的情况),怎么办呢?还是留给大家思考吧!

篇5:WPS表格教程:快速提取身份证号内的信息

学校为孩子们代办平安保险,要将参保同学的信息(姓名、性别、出生日期及身份证号码整理成电子文档,

1、打开WPS 表格(ET),先将学生姓名、身份证后12位输入。

注意:输入12位及12位以上的数字要在数字前加英文半角的单引号。

2、>{BANNED}号,在E2格中输入“=“321084”&D2”。

3、获取出生日期,在C2格中输入

“=MID(D2,1,4)&“-”&MID(D2,5,2)&“-”&MID(D2,7,2)。”

4、获取学生性别,在B2格中输入=IF(MOD(MID(D2,11,1),2)=1,“男”,“女”)。

5、运用自动填充,将所有学生的信息全部完善。

6、将函数转换成规范的数字格式。

将表中的数据全部复制,切换到Sheet2,运用“选择性粘贴”——“数值”(或“值和数字格式”),将Sheet1 中的公式函数全部换化为纯数值,

然后删除尾数列,选中所有的出生日期,数据左边出现了智能标记,光标移动到智能标记上单击,出现了下拉列表,选择其中的转换为数字,将出生日期中多余的0去除。

注意:本例中运用的几个ET函数。

1、MID(D2,11,1)表示在D2格中从第11位起,选择1个字符。

2、MOD(MID(D2,11,1),2)获取用刚才得到的字符除以2得到的余数。

3、IF(MOD(MID(D2,11,1),2)=1,“男”,“女”)表示如果刚才得到的余数是1,就显示“男”,否则就显示为“女”。

本例中运用的公式:

1、“321084”&D2表示“321084”与D2格组合。

2、表示用MID函数抽取出生年月日8位数与两个“-”组合。

篇6:WPS表格中提取身份证号里的生日及性别信息

身份证号中包含着个人信息,比如性别,出生日期等,当我们要提取出这些信息的时候,一个一个手动来提取,既费时又费力,还容易出错,那有没有办法可以轻松地提取这些个人信息呢?当然有!那就让Word联盟小编为大家分享如何在WPS表格中快速提取身份证号码中的性别和生日信息。

首先我们来认识一下身份证号码的结构:之前15位数的身份证号码已经取消了,现在的身份证一般由18位组成。

最左侧的1-6位:表示户口所在地区的行政代码。

7-14位:表示自己的出生年月日。

15-17位:表示同一地区同一天出生的顺序号,顺序号是奇数,为男性;顺序号是偶数,为女性。

18位:为校验码。

提取性别的方法:

①选中第一个人对应的性别单元格,单击插入函数命令。

②在弹出的“插入函数”对话框中选择“IF”函数后单击确定。

③鼠标定位在“测试条件”右侧对话框中,然后单击左侧IF函数右侧下拉三角形,选择“MOD”函数。

④在弹出的“函数参数”对话框中,我们将插入点放在“数值”右侧的方框中,然后再次插入“MID”函数。

⑤在字符串右侧的对话框中输入身份证号码对应的单元格地址,这里我们输入“B2”,在“开始位置”右侧对话框中,输入“17”(这表示从第17位开始提取数字),在“字符个数”右侧对话框中输入“1”(表示只提取一个数字)。

⑥将插入点放到“MOD”函数单击一下,准备返回到“MOD”函数。

⑦在返回的“MOD”函数中,在“除数”右侧对话框中,我们输入数字“2”。(我们提取的被除数是第17位数,如果它是奇数,除以2后得到的余数始终是1。如果这第17位数是偶数,那么就可以整除2,得到的余数就是0)。

⑧我们单击IF函数,返回到“IF”函数,这时测试条件右侧显示的是“1”说明此单元格17位为奇数,所以我们在“真值”右侧输入“男”,“假值”右侧输入“女”,最后单击“确定”既完成。

⑨拖动填充柄,其它相关人员的性别就可以得出来了。

提取生日日期的方法:

①选中第一个人对应的出生日期单元格,单击插入函数命令。

②在弹出的“插入函数”对话框中,我们选择“DATE”函数后单击“确定”,(如果没有,可直接在查找函数下面输入“DATE”查找)。

③在“年”右侧,我们插入“MID”函数。

④在弹出的“函数参数”对话框中,在“字符窜”右侧输入第一个人身份证号码所在的单元格“B2”,“开始位置”右侧输入“7”,“字符个数”输入“4”(因为年份是四个数字)。

⑤将插入点单击“DATE”函数,同样的方法用“MID”函数求出月份和日期。(月份开始位置是“11”,日期开始位置是“13”,“字符个数”都是“2”)。

⑥现在我们就求出了这个人出生的年月日,单击确定即完成。

⑦拖动填充柄,其它人的出生年月日也都可以得出来了。

篇7:网页设计的视觉信息传达分析论文

网页设计的视觉信息传达分析论文

随着网络的发展,网页可以把各种信息以快捷、方便的形式传达给受众,由此人们逐步产生了对于网页审美的需求。人们对美感的追求应从网页设计中视觉元素的功能及其审美表现的角度出发,利用有效的传达信息,不断扩充网络的多元化,使得网页设计更注重个性化的表现形式,使信息更加快速有效的传递出去。本文重点阐述了在网页设计中提高视觉信息传达的具体方法。随着我国网民增长速度的加快,网页设计在互联网在我国的发展前景非常广阔,网页的视觉传达设计更是成为一个不可忽视的课题。网络给人们提供了一个便捷的信息交流平台,网页中视觉信息的表达己经从简单图、文编排的形式,发展到如今视觉元素的综合运用。由于网页链接繁琐性严重阻碍网络信息的有效传播,无效的传达不利于与用户之间相互沟通,一些视觉效果受网站的信息设计结构及内容量的影响,对于不同类型的网站,应该明确采取什么样的手法来表现,使得网页设计成为一种艺术形式。虽然目前我国网页设计在理论与实践上发展比较健全,视觉的表现力不强,影响了网民对网页点击率。由此可见,新媒介下的网页设计还处于一个不理想的状态,计算机编程技术还处于一个以文字为主的信息交流形式,网页设计的功能性也没有得到好的体现。

一、要实现网页中的版式功能与审美功能

为了满足人们的实用需求,需要网页设计主次分明,突出重点。在网页设计前期,应该明确每个网站都会有自己的特色,因此需要尽可能地使网站各个页面间的切换简便。善于运用图形来引导用户查看所需信息,一些抽象图形和引导按钮都可以起到引导信息传递的作用,这些图形不但影响着网页的视觉审美,还能以优异的视觉形成格调优美、韵味十足的良好视觉效果,。不同类型网站网页是根据网站的服务来定性的,根据网站主题设定视觉元素的不同表现,将各自的功能与网络的交叉学科相融合,使受众能更好地和更有效率地接收网页上的信息,使人浏览起来心情愉快,接收信息也会更加轻易。网页设计的审美需求,就是把传统平面设计中美的形式规律同现代的网页设计的具体问题相结合起来,运用一些平面设计来增加网页设计的美感和大众的视觉审美需求。我们经常所说的如变化和统一、条理与反复的设计都是十分有效的视觉规律,首先,网页的内容与形式的表现必须服从内容要求,网页上的各种构成是信息诉求的重点位置,在我们把大量的信息塞到网页上去的时候,必须使整体感强,同时又赋予变化,这样才会使页面更丰富,更有生气,能够突出一个清楚的主体,在用户阅读时视线流动,要避免视线流动偏离设计的初衷。网页设计中要注重其结构的轻重大小、虚实、多少等对比因素,加强视觉力度,以强化页面的整体吸引力。

二、注重色彩的设计

网页它既要求文字的美丽流畅,又要求页面的整洁,使用色彩可以使页面更加生动。浏览者在浏览网页时留下的第一印象就是页面的色彩设计,因此必须把握好色彩设计。

1.整个页面中要确定一个主色调

页面一般以浅颜色为背景的居多,以浅颜色为底并配上深颜色的字,这样不但有利于突出页面的重点,而且还可以为大多数人认可和把握。其他一些线条适宜采用不抢眼的颜色,尽量选用一些精心选择的元素,才能突出明亮的色彩,这些彩色亮点如果用得太多了,就会达不到强调的效果。

2.注重背景的色调搭配

色调搭配要注重不能有强烈的对比,大面积颜色适宜采用低比度,过于丰富的背景色彩会使文字溶于背景中,不易辨识。所以,背景一般需要一定的变化,实际上背景的作用在于统一整个网页的风格和情调,起到衬托和协调作用,一方面吸引网民的注重力并体现网站的主题。

三、提高网页设计中视觉信息传达的有效性

1.体现视觉语言的突出性

视觉语言就相当于有语法和结构的句子。视觉元素构成了现代设计中的视觉语占。每一个设计作品都与他特有的视觉符号,各种视觉元素是按照一定的规律和逻辑性排列组合起来的,要想尽快的达到识别和接受的目的,就要依靠统一与对比、虚与实、大与小等形式手法,按照信息的顺序产生强弱、主次等视觉语言的'逻辑性让视觉语言给人以亲切温馨的感受和对生活意义的领悟。

2.要体现网站独特的风格

首先网页设计应该根据需要选择一些适合主题设计风格的字体。一般常用的中文字体需要许多专用的艺术字体下载,再要确定文字的字型、大小、颜色等等,当然也可以采用一些特效文字,如果浏览者的计算机里没有安装这种特殊的字体,就会导致读者阕读速度降低。对于网页设计来说,有很多软件就是我们常说的网页,要具有互动性,互动性能够充分调动人的参与性,在网络的环境下,充分实现每个人的个性化需求,使用户能够从中得到更深层次的了解和接受,从而做出决定。其次要适合视觉传达的过程。视觉信息传达是传达者将准各传达的信息挑选出来后,对信息以符号序列的形式进行排列,使之按照一定的排列组合方式形成的视觉语言,实质上这一过程也就是译码的过程,因为传达者所发出的讯息只有引起注意,才会被接受者加以理解和接受,接受者只能按照自己的方式将传达者的信息整理阐释。网页设计离不开一定的科学技术发展,好的网页设计除考虑其内容上的精益求精外,还要对内容进行合理有效的视觉编排,这样不但为了满足使用者的需求,更关键的是使使用者有一种全身心的享受和共鸣。

篇8:用Python程序抓取网页的HTML信息的一个小实例

更多相关精彩教程请点击:网页特效制作

【网页信息表格化提取程序的论文(共11篇)】相关文章:

药学院自荐信范文2023-03-23

网页设计论文2023-09-29

高校教学计算机基础论文2022-08-28

对HTML5 Device API相关规范的解惑网页设计2023-04-15

国际互联网的发展和应用开题报告2022-08-13

毕业设计论文范文2023-06-24

硕士学位论文格式标准2023-03-04

太原铁路局货运设备管理系统的研究和设计的论文2022-07-27

工资管理系统论文范文2024-01-02

初中信息技术教学意义与实效的论文2022-06-03