3 years ago · 9cdb19a286
--- a/demo.py
+++ b/demo.py
@@ -0,0 +1,24 @@
 
				+#!-*-coding:utf-8 -*-
			
 
				+from win32com.client import Dispatch
			
 
				+
			
 
				+word = Dispatch('Word.Application')
			
 
				+word.Visible = 0
			
 
				+doc = word.Documents.Open("D:\\docxdemo\\test4.docx")
			
 
				+
			
 
				+doc.SaveAs("D:\\docxdemo\\test4.html",10)
			
 
				+doc.Close()
			
 
				+word.Quit()
			
 
				+
			
 
				+
			
 
				+
			
 
				+[{
			
 
				+
			
 
				+type:"单选",
			
 
				+ques:[
			
 
				+    {"name":"","answer":""},
			
 
				+    {"name":"","answer":""},
			
 
				+    {"name":"","answer":""},
			
 
				+    {"name":"","answer":""},
			
 
				+    {"name":"","answer":""},
			
 
				+]
			
 
				+}]
			
--- a/parsedocx.py
+++ b/parsedocx.py
@@ -0,0 +1,112 @@
 
				+#-*-coding:utf-8 -*-
			
 
				+import re,os
			
 
				+import json,uuid
			
 
				+from bs4 import BeautifulSoup
			
 
				+from win32com.client import Dispatch
			
 
				+
			
 
				+class DocxConverter(object):
			
 
				+    """
			
 
				+    """
			
 
				+    def __init__(self,docpath=None):
			
 
				+        """
			
 
				+        """
			
 
				+        self.docpath = docpath
			
 
				+        self.word = Dispatch("Word.Application")
			
 
				+        self.word.Visible = 0
			
 
				+        self.doc = word.Documents.Open(self.docpath)
			
 
				+
			
 
				+    def docx2html(self):
			
 
				+        """
			
 
				+        """
			
 
				+        html = os.path.join(os.path.dirname(self.docpath),str(uuid.uuid4())+".html")
			
 
				+        self.doc.SaveAs(html)
			
 
				+        self.doc.Close()
			
 
				+        self.word.Quit()
			
 
				+        return html
			
 
				+
			
 
				+class QuestionsParser(object):
			
 
				+    """试题解析
			
 
				+    """
			
 
				+    def __init__(self,name="test4.html"):
			
 
				+        self.html = open(name,"r").read()
			
 
				+        self.soup = BeautifulSoup(self.html,"html.parser")
			
 
				+
			
 
				+    def get_paragraphs(self):
			
 
				+        """
			
 
				+        """
			
 
				+        wordsection = self.soup.find("div",class_="WordSection1")
			
 
				+        #print wordsection
			
 
				+        pars = wordsection.find_all("p")
			
 
				+        return pars
			
 
				+
			
 
				+    def parse_questions(self):
			
 
				+        """提取试题
			
 
				+        """
			
 
				+        que_type_dct = {}
			
 
				+        paragraphs = self.get_paragraphs()
			
 
				+        for i,p in enumerate(paragraphs):
			
 
				+            print p.text
			
 
				+            if u"【题型】" in p.text:
			
 
				+                que_type_dct["type"] = p.text.split("、")[-1] 
			
 
				+
			
 
				+    def parse_questions(self):
			
 
				+        """提取试题
			
 
				+        """
			
 
				+        data = []
			
 
				+        tmp_val = {}
			
 
				+        tx_name = ""
			
 
				+        key = ""
			
 
				+        paragraphs = self.get_paragraphs()
			
 
				+        for i,p in enumerate(paragraphs):
			
 
				+            if u"【题型】" in p.text:
			
 
				+                tx_name = p.text 
			
 
				+            if u"【题干】" in p.text:
			
 
				+                key = "tg"
			
 
				+                tmp_val["tx"] = tx_name
			
 
				+                if tmp_val.get("tg"):
			
 
				+                    data.append(tmp_val)
			
 
				+                tmp_val = {"tg":"","tx":"","zsd":"","nd":"","da":"","jx":""}
			
 
				+            if u"【知识点】" in p.text:
			
 
				+                key = "zsd"
			
 
				+            if u"【难度】" in p.text:
			
 
				+                key = "nd"
			
 
				+            if u"【答案】" in p.text:
			
 
				+                key = "da"
			
 
				+            if u"【解析】" in p.text:
			
 
				+                key = "jx"
			
 
				+
			
 
				+            if key != "":
			
 
				+                tmp_val[key] += p.__str__()
			
 
				+
			
 
				+        data.append(tmp_val)
			
 
				+
			
 
				+        return data
			
 
				+
			
 
				+    def get_questions(self):
			
 
				+        """
			
 
				+        """
			
 
				+        questions = self.parse_questions()
			
 
				+        for que in questions:
			
 
				+            que["tx"] = que["tx"].split(u"、")[-1]
			
 
				+            #que["tg"] = que["tg"].replace(u"【题干】","")
			
 
				+            #que["zsd"] = que["zsd"].replace(u"【知识点】","")
			
 
				+            #que["da"] = que["da"].replace(u"【答案】","")
			
 
				+            #que["jx"] = que["jx"].replace(u"【解析】","")
			
 
				+            que["qno"] = self.get_qno(que["tg"])
			
 
				+        return questions
			
 
				+
			
 
				+    def get_qno(self,tg):
			
 
				+        """提取题号
			
 
				+        """
			
 
				+        tgsoup = BeautifulSoup(tg,"html.parser")
			
 
				+        tgtext = tgsoup.text
			
 
				+        qno = re.search(r"\d+",tgtext.split(u"、")[0]).group()
			
 
				+        return qno
			
 
				+        
			
 
				+
			
 
				+questionparser =  QuestionsParser()
			
 
				+
			
 
				+if __name__ == "__main__":
			
 
				+    ques = questionparser.get_questions()
			
 
				+    with open("t.json","w+") as f:
			
 
				+        f.write(json.dumps(ques))
			
--- a/test.docx
+++ b/test.docx
--- a/test4.docx
+++ b/test4.docx
--- a/test4.files/image001.gif
+++ b/test4.files/image001.gif
--- a/test4.files/image001.png
+++ b/test4.files/image001.png
--- a/test4.files/image002.gif
+++ b/test4.files/image002.gif
--- a/test4.files/image002.png
+++ b/test4.files/image002.png
--- a/test4.files/image003.gif
+++ b/test4.files/image003.gif
--- a/test4.files/image003.png
+++ b/test4.files/image003.png
--- a/test4.files/image004.gif
+++ b/test4.files/image004.gif
--- a/test4.files/image004.png
+++ b/test4.files/image004.png
--- a/test4.files/image005.gif
+++ b/test4.files/image005.gif
--- a/test4.files/image005.png
+++ b/test4.files/image005.png
--- a/test4.files/image006.gif
+++ b/test4.files/image006.gif
--- a/test4.files/image006.png
+++ b/test4.files/image006.png
--- a/test4.files/image007.gif
+++ b/test4.files/image007.gif
--- a/test4.files/image007.png
+++ b/test4.files/image007.png
--- a/test4.files/image008.gif
+++ b/test4.files/image008.gif
--- a/test4.files/image008.png
+++ b/test4.files/image008.png
--- a/test4.files/image009.gif
+++ b/test4.files/image009.gif
--- a/test4.files/image009.png
+++ b/test4.files/image009.png
--- a/test4.files/image010.gif
+++ b/test4.files/image010.gif
--- a/test4.files/image010.png
+++ b/test4.files/image010.png
--- a/test4.files/image011.gif
+++ b/test4.files/image011.gif
--- a/test4.files/image011.png
+++ b/test4.files/image011.png
--- a/test4.files/image012.gif
+++ b/test4.files/image012.gif
--- a/test4.files/image012.png
+++ b/test4.files/image012.png
--- a/test4.files/image013.gif
+++ b/test4.files/image013.gif
--- a/test4.files/image013.png
+++ b/test4.files/image013.png
--- a/test4.files/image014.gif
+++ b/test4.files/image014.gif
--- a/test4.files/image014.png
+++ b/test4.files/image014.png
--- a/test4.files/image015.gif
+++ b/test4.files/image015.gif
--- a/test4.files/image015.png
+++ b/test4.files/image015.png
--- a/test4.files/image016.gif
+++ b/test4.files/image016.gif
--- a/test4.files/image016.png
+++ b/test4.files/image016.png
--- a/test4.files/image017.gif
+++ b/test4.files/image017.gif
--- a/test4.files/image017.png
+++ b/test4.files/image017.png
--- a/test4.files/image018.gif
+++ b/test4.files/image018.gif
--- a/test4.files/image018.png
+++ b/test4.files/image018.png
--- a/test4.files/image019.gif
+++ b/test4.files/image019.gif
--- a/test4.files/image019.png
+++ b/test4.files/image019.png
--- a/test4.files/image020.gif
+++ b/test4.files/image020.gif
--- a/test4.files/image020.png
+++ b/test4.files/image020.png
--- a/test4.files/image021.gif
+++ b/test4.files/image021.gif
--- a/test4.files/image021.png
+++ b/test4.files/image021.png
--- a/test4.files/image022.gif
+++ b/test4.files/image022.gif
--- a/test4.files/image022.png
+++ b/test4.files/image022.png
--- a/test4.files/image023.gif
+++ b/test4.files/image023.gif
--- a/test4.files/image023.png
+++ b/test4.files/image023.png
--- a/test4.files/image024.gif
+++ b/test4.files/image024.gif
--- a/test4.files/image024.png
+++ b/test4.files/image024.png
--- a/test4.files/image025.gif
+++ b/test4.files/image025.gif
--- a/test4.files/image025.png
+++ b/test4.files/image025.png
--- a/test4.files/image026.gif
+++ b/test4.files/image026.gif
--- a/test4.files/image026.png
+++ b/test4.files/image026.png
--- a/test4.files/image027.gif
+++ b/test4.files/image027.gif
--- a/test4.files/image027.png
+++ b/test4.files/image027.png
--- a/test4.files/image028.gif
+++ b/test4.files/image028.gif
--- a/test4.files/image028.png
+++ b/test4.files/image028.png
--- a/test4.files/image029.gif
+++ b/test4.files/image029.gif
--- a/test4.files/image029.png
+++ b/test4.files/image029.png
--- a/test4.files/image030.gif
+++ b/test4.files/image030.gif
--- a/test4.files/image030.png
+++ b/test4.files/image030.png
--- a/test4.files/image031.gif
+++ b/test4.files/image031.gif
--- a/test4.files/image031.png
+++ b/test4.files/image031.png
--- a/test4.files/image032.gif
+++ b/test4.files/image032.gif
--- a/test4.files/image032.png
+++ b/test4.files/image032.png
--- a/test4.files/image033.gif
+++ b/test4.files/image033.gif
--- a/test4.files/image033.png
+++ b/test4.files/image033.png
--- a/test4.files/image034.gif
+++ b/test4.files/image034.gif
--- a/test4.files/image034.png
+++ b/test4.files/image034.png
--- a/test4.files/image035.gif
+++ b/test4.files/image035.gif
--- a/test4.files/image035.png
+++ b/test4.files/image035.png
--- a/test4.files/image036.gif
+++ b/test4.files/image036.gif
--- a/test4.files/image036.png
+++ b/test4.files/image036.png
--- a/test4.files/image037.gif
+++ b/test4.files/image037.gif
--- a/test4.files/image037.png
+++ b/test4.files/image037.png
--- a/test4.files/image038.gif
+++ b/test4.files/image038.gif
--- a/test4.files/image038.png
+++ b/test4.files/image038.png
--- a/test4.files/image039.gif
+++ b/test4.files/image039.gif
--- a/test4.files/image039.png
+++ b/test4.files/image039.png
--- a/test4.files/image040.gif
+++ b/test4.files/image040.gif
--- a/test4.files/image040.png
+++ b/test4.files/image040.png
--- a/test4.files/image041.gif
+++ b/test4.files/image041.gif
--- a/test4.files/image041.png
+++ b/test4.files/image041.png
--- a/test4.files/image042.gif
+++ b/test4.files/image042.gif
--- a/test4.files/image042.png
+++ b/test4.files/image042.png
--- a/test4.files/image043.gif
+++ b/test4.files/image043.gif
--- a/test4.files/image043.png
+++ b/test4.files/image043.png
--- a/test4.files/image044.gif
+++ b/test4.files/image044.gif
--- a/test4.files/image044.png
+++ b/test4.files/image044.png
--- a/test4.files/image045.gif
+++ b/test4.files/image045.gif
--- a/test4.files/image045.png
+++ b/test4.files/image045.png
--- a/test4.files/image046.gif
+++ b/test4.files/image046.gif
--- a/test4.files/image046.png
+++ b/test4.files/image046.png
--- a/test4.files/image047.gif
+++ b/test4.files/image047.gif
--- a/test4.files/image047.png
+++ b/test4.files/image047.png
--- a/test4.files/image048.gif
+++ b/test4.files/image048.gif
--- a/test4.files/image048.png
+++ b/test4.files/image048.png